• 其他语言



确定管理数字音频内容的新方法
页面和feed选项
打印
收藏此页
Digg此页 | 添加到您的del.icio.us帐号
目录

英特尔音频识别库
英特尔正在开发音频内容识别库,使之作为后台任务运行并用于帮助唯一识别的音频内容。 英特尔的软件解决方案事业部正在开发此库。 初始代码基于 Rahul Sukthankar(英特尔)、Yan Ke and Derek Hoiem(卡内基梅隆大学)完成的工作,并且将于 2005 年下半年完成。识别过程的第一步是生成一个签名,并与本地“已知”的签名进行比较。音频内容识别的一项要求就是独立于格式和编解码方式。为了独立于编解码方式,需要对内容进行解码。英特尔音频内容识别库不为音频内容提供解码器,但支持调用插件来对音频内容进行解码并创建 PCM 格式以供分析。解码器只需对大约 5 秒的样本进行解码。将音频内容解码为 PCM 格式后,音频内容库会对内容进行向下采样,并达到动态确定的采样率。对五秒钟的样本进行向下采样后,每个 PCM 样本的功率就被规范化为经修改的 RMS 值。此后,需要进行信号分解。一项音频信号处理技术可将复杂的信号分解为较简单的信号。例如,下图显示了由频率为 A、D 和 F# 的三个正弦波组成的复杂信号。


复杂的正弦波(A、B、F#)


简单的正弦波 ( A )


简单的正弦波 (D)

该信号可以被分解为三个更基本的正弦信号。这三个信号显示如下:


简单的正弦波 (F#)

将复杂信号分解到多个频段中的技术可以通过“傅立叶变换”技术得以实现。 因此在本例中,下图显示的 PCM 数据是通过窗口式快速傅立叶变换 (FFT) 进行处理的。


PCM 音频信号

通过 FFT 处理数据后,可以生成与以下所示图形类似的频谱图:


PCM 音频频谱图

该频谱图的水平轴是时间,而垂直轴是频率。上图中,给定时间处于特定频带处的信号中的内能由单元格的颜色表示——较暗的颜色表示低内能,较亮的颜色则表示高内能。例如,长达几秒钟的纯音(稳频)会在频谱图中生成明亮的水平线,而短暂的白噪音将形成明亮且细长的矩形图案。 从这个频谱图来看,音乐识别系统会为每段音乐生成专用的本地描述符。此描述符使用 32 位表示形式(在计算机学习中进行培训),满足两个重要标准:独特性和强大性。首先,该描述符是独特的,因为我们希望一个给定片段仅与其自身(与其自身的噪音版本)匹配。其次,描述符的功能强大,因为不管录音条件有多嘈杂以及是否存在环境噪声,它都会与其自身进行匹配。此外,还可以有效地计算这些描述符并进行压缩存储。

可以直观显示这些描述符,如下图所示:


直观显示一个短音的音乐 ID 描述符

此图显示了随时间变化的 32 位描述符的每一位(沿垂直轴按任意顺序显示)。 每个 32 位矢量(用红色圈住的列)捕获了那一时间点的音乐的本地信息并将其显示为位矢量 (100100…)。两个样本之间的不同之处由其相应位矢量之间的汉明距离(二者相差的位数)得以体现。 系统将其歌曲的所有描述符都存储在散列表中。要查询数据库,可以取 10 秒的样本来计算本地描述符,并检索在汉明距离为 2 的范围内匹配的那些描述符。随后,该系统会按有证可循的量度对每个检索结果进行评分,并返回最可能的结果。 如果在数据库中找到了匹配项,则从该数据库中检索歌名、演唱者和其他相关信息并将其提供给应用程序。如果未找到签名,则用户可以手动输入数据。此外,如果选择了延期查找或远程数据库不可用,还可以立即在远程数据库中比较签名,或以后进行比较。 那么,这项额外工作对消费者而言有何意义呢?这项工作提供了独立于编码格式和 CD 结构的识别功能。此识别功能可以使用延期查找功能识别音频内容及其副本,即使该设备未连接至互联网也是如此。有了这一功能,用户在更改编码格式或在不同目录间移动内容时就不必担心需要手动重新标记与该内容关联的信息了。此外,它还提供了一种通过编程比较编码方式不同的文件并查找副本的方式。

上一部分1  2  3  4  5  下一部分

第 4 页, 共 8 页