—211—一种快速的特定音频指纹提取方法张敏1,2,欧阳建权1,2,李泽洲1,2,刘炜1,2(1.湘潭大学智能计算与信息处理教育部重点实验室,湘潭411105;2.湘潭大学信息工程学院,湘潭411105摘要:针对当前音频哈希指纹方法不足以满足特定音频(如广告的实时监测问题,提出一种快速的特定音频指纹提取方法,通过提取每帧感知最相关的频域信息,将其分为33个频带,并提取相邻2帧相邻频带的差异作为指纹值,每帧提32个0/1值。实验表明,与现有方法相比,该方法在保证音频检测准确性的同时,能实现指纹的快速提取。关键词:音频;指纹提取;音频哈希指纹法FastFingerprintExtractionMethodforSpecificAudioZHANGMin1,2,OUYANG激an-quan1,2,LIZe-zhou1,2,LIUWei1,2(1.KeyLaboratoryofIntelligentComputingInformationProcessing,XiangtanUniversity,MinistryofEducation,Xiangtan411105;2.CollegeofInformationEngineering,XiangtanUniversity,Xiangtan411105【Abstract】Inviewofthecurrentaudiohashfingerprintingmethodisnotsufficienttomeetthereal-timemonitoringforspecificaudio(e.g.advertising,thispaperpresentsafastfingerprintextractionmethodforspecificaudio.Itextractstheinformationwiththemostrelevantperceptionofeachframeinfrequencydomainanddividestheinformationinto33bands.Itextractsthedifferencesbetweentheequivalentbandsfromadjacentframesasthefingerprint.Foreachframe,320/1valuesarecomputed.Comparedwithexistingmethod,thismethodensurestheaccuracyofdetectionandextractsfingerprintrapidlyatthesametime.【Keywords】audio;fingerprintextraction;audiohashfingerprintingmethod计算机工程ComputerEngineering第36卷第2期Vol.36No.22010年1月January2010·多媒体技术及应用·:1000—3428(201002—0211—03文献标识码:A:TP371概述随着互联网与数字媒体技术的发展,每年都将新增海量的音频数据,人们能够更加方便、快捷、经济地接触到数字媒体,多媒体数据也已成为互联网信息高速公路上传送数据的主要部分。声音媒体是除视觉媒体外最重要的媒体,占总信息量的20%左右[1]。同时,大容量高速存储系统为声音的海量存储提供了基本保障,各行业对声音媒体的使用越来越广泛。因此,如何从海量的声音信息中快速检索所需要的信息已经成了亟需解决的问题。许多国家的广播电台必须为播放的音乐支付版税,因此,者希望监测电台播放,以确认所播放的音乐是否支付版税。即使在电台可以免费播放音乐的国家,者也有兴趣监测电台播放的统计数据。广告客户也希望监测电台及电视台的广告播出,以验证商业广告是否按商定的时段和按量播出。同时,国家监管部门也希望监测电台和电视台是否播放违禁广告。其他应用还包括电台和电视台的节目材料统计分析和国家的法律实施强制播放监测等。然而,当今媒体数据更新如此之快,要实现实时监测,必须有快速的搜索策略。由于音频信号本身的复杂性,传统的检索技术并不适用于音频领域,人的感知特性使得音频的相似性度量变得更为复杂多变。研究表明,对于一首歌曲即使改换相似的音符,甚至拉长音符、改变间隔也还能保持原有声音的幅度轮廓等属性[2]。以往的音频研究工作,尤其是音乐的信号分析和检索技术主要是基于符号表示(如MIDI,但大多数现有的数字音频数据多以无结构的声音文件存储,因此,符号表示的应用很有限[3]。目前,对音频检索的研究主要基于指纹展开,音频指纹的研究分为2个方向:(1基于水印嵌入的指纹方法。文献[4]提出一种基于混沌和系数均值统计特性的音频指纹方案,通过用户信息生成的混沌映射初值应用混沌方法生成用户指纹,再根据小波系数统计恒定特性将指纹嵌入到每帧中,这种方法具有一定的鲁棒性,但需要嵌入多余的数据。(2基于内容的指纹方法。文献[5]提出一种鲁棒的音频哈希指纹方法,对相邻2帧提取频域能量的差异作为哈希指纹,但是这种方法速度比较慢,不能满足特定音频(如广告的实时监测。鉴于此,本文通过改进文献[5]的哈希指纹方法,针对MP3格式的广告音频,提出一种快速的特定音频指纹提取方法。2音频指纹提取与匹配2.1音频指纹音频指纹是音频对象简短的摘要。对...