1.一种音频长时指纹提取方法,其特征在于:该提取方法包括以下步骤:S1:输入音频信号(PCM),并重采样音频信号;
S2:对重采样后的音频信号进行分帧、加窗以及DFT变化得到帧频谱;
S3:对帧频谱进行帧间平滑处理得到更新后的帧频谱;
S4:对更新后的帧频谱进行帧级短时特征提取;
S5:处理帧级短时特征,并提取帧组长时特征;
所述S1中,重采样的具体操作为提取110Hz-7KHz频率范围作为分析频段,并根据奈奎斯特采样定理,设定输入信号重采样频率为16KHz,避免信号采样失真;
所述S2中,分帧、加窗以及DFT变化的具体操作为将重采样后的信号按照4096样本(256ms)以及50%重叠度进行分帧;分帧后,逐帧添加汉明窗以及进行DFT频域变换,得到帧频谱;
所述S3中,所述帧间平滑的具体操作为采用滑动窗口对相邻5帧频谱数据进行加权平均,得到更新后的帧频谱:所述S4中,帧级短时特征提取的具体操作步骤为:A1:对数频率域子带划分帧频谱;
A2:计算子带平均谱能量;
A3:对子带谱能量L2正则化处理得到帧级短时特征;
所述A1中,对数频率域子带划分帧频谱即将帧频谱中的频率f转换为对数频率所述A2中,计算子带平均谱能量即对于每个音频帧,在16个频率子带上计算平均谱能量,从而形成16维向量;
所述A3中,子带谱能量L2正则化处理得到帧级短时特征即对得到的16维向量作L2正则化,即为该音频帧的短时特征,记作V;
所述S5中,帧组长时特征提取的具体操作为将连续固定数量音频组成帧组,在时间轴方向上将帧级短时特征进行再次DFT变化,并保留低频稳定分量,形成帧组长时特征;
帧组长时特征提取的具体流程为:
C1:将连续的T个音频帧构成一个帧组,则将帧组特征表示为:[VC2:对帧组特征的每一维[V
C3:取DFT变换后的前m级系数(如m=12)C4:将16维m级DFT系数构成帧组新特征[AC5:将2m+1个DFT系数(向量)进行L2正则化;
C6:2m+1个DFT系数(向量)乘以权重,计算公式如下:其中,
2.一种音频长时指纹匹配方法,长时指纹采用权利要求1所述的一种音频长时指纹提取方法提取,其特征在于:该匹配方法包括以下步骤:B1:将待匹配的2个音频文件或片段按帧组提取长时特征;
B2:对2个帧组长时特征进行帧组级匹配,并确定匹配关系;
帧组级匹配的具体流程为:
D1:将两个帧组长时特征,分别标记为[D2:两个帧组在时间偏移t时的相似度s,按照如下公式计算:其中:
D3:根据步骤D2,对所有可能的偏移t,t∈[-(T-1),(T-1)],计算相对应的相似度s,并统计所有s中最大的值sD4:根据应用的需求,设定相似度阈值s