10个音频处理任务让你开始使用深度学习应用

2020-3-1 18:22| 发布者: tony315| 查看: 1769| 评论: 0

摘要: 介绍想象一个能理解你想要什么，且当你打电话给客户服务中心时能理解你的感受的机器--如果你对某件事感到不高兴，你可以很快地和一个人交谈。如果您正在寻找特定的信息，您可能不需要与某人交谈(除非您愿意！)。这将 ...

介绍

想象一个能理解你想要什么，且当你打电话给客户服务中心时能理解你的感受的机器--如果你对某件事感到不高兴，你可以很快地和一个人交谈。如果您正在寻找特定的信息，您可能不需要与某人交谈(除非您愿意！)。

这将是世界的新秩序--你已经可以看到这种情况在很好的程度上发生了。看看2017年数据科学行业的亮点。你可以看到深度学习带来的突破，这是以前很难解决的领域。深入学习有潜力帮助解决的一个领域是音频/语音处理，尤其是因为它的非结构化性质和巨大的影响。

因此，对于那些好奇的人，我已经编制了一份清单，当你开始音频处理时，这些任务是值得你去处理的。我相信在使用深度学习的时候会有更多的突破。

这篇文章的结构是为了解释每一项任务及其重要性。还有一篇研究论文，详细介绍了这一具体任务，并附有一份案例研究，它将帮助你开始解决这个问题。

所以我们开始吧！

音频分类

音频分类是音频处理领域的一个基本问题。任务本质上是从音频中提取特征，然后识别音频属于哪个类。与音频分类相关的许多有用的应用可以自行找到--例如类型分类、乐器识别和艺术家识别。

这个任务也是音频处理中探索最多的话题。去年在这个领域发表了大量的论文。事实上，我们还举办了一次社区协作实践黑客马拉松，以解决这一特殊任务。

白皮书 – http://ieeexplore.ieee.org/document/5664796/?reload=true

解决音频分类问题的一种常用方法是对音频输入进行预处理，提取有用的特征，然后应用分类算法对其进行分类。例如，在下面的案例研究中，我们得到了一个声音的5秒摘录，任务是确定它属于哪一类--无论是狗叫声还是钻孔声。正如本文所提到的，解决这个问题的方法是提取一个名为MFCC的音频特征，然后通过一个神经网络传递它以得到适当的类。

案例研究– https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/

2. 音频指纹

音频指纹的目的是确定音频的数字“摘要”。这是为了从音频样本中识别音频。Shazam是音频指纹应用的一个很好的例子。它根据一首歌的前两到五秒来识别音乐。然而，仍然存在系统故障的情况，特别是在背景噪声很大的情况下。

白皮书 – http://www.cs.toronto.edu/~dross/ChandrasekharSharifiRoss_ISMIR2011.pdf

要解决这个问题，一种方法是可以用不同的方式来表示音频，这样就可以很容易地破解音频。然后，然后，我们可以找出区分音频和背景噪声的模式。在下面的案例研究中，作者将原始音频转换为光谱图，然后使用峰值查找和指纹哈希算法来定义音频文件的指纹。

案例研究– http://willdrevo.com/fingerprinting-and-audio-recognition-with-python/

3. 自动音乐标注

音乐标记是音频分类的一个更复杂的版本。在这里，我们可以有多个类，每个音频可能属于多标签分类问题。此任务的一个潜在应用程序可以是为音频创建元数据，以便稍后搜索。深入学习在一定程度上帮助解决了这一问题，这可以从下面的案例研究中看到。

白皮书– https://link.springer.com/article/10.1007/s10462-012-9362-y

从大多数任务中可以看出，第一步总是从音频示例中提取特性。然后，根据音频的细微差别对其进行排序(例如，如果音频包含比歌手的声音更多的器乐噪音，则标记可以是“器乐”)。这可以通过机器学习或深入学习的方法来完成。下面的案例研究利用深度学习来解决这个问题，特别是卷积递归神经网络和MEL频率提取。

案例研究 – https://github.com/keunwoochoi/music-auto_tagging-keras

4. 音频分割

切分字面上是指根据定义的一组特征将特定的对象划分为部分(或部分)。分割，尤其是音频数据分析，是一个重要的预处理步骤。这是因为我们可以分割一个有噪声和冗长的音频信号为短的均匀段(方便的短序列音频)，用于进一步的处理。该任务的一个应用是心音分割，即识别特定于心脏的声音。

白皮书– http://www.mecs-press.org/ijitcs/ijitcs-v6-n11/IJITCS-V6-N11-1.pdf

我们可以将其转化为一个有监督的学习问题，其中每个时间戳都可以根据所需的片段进行分类。然后，我们可以应用音频分类方法来解决这件饿个问题。在下面的案例研究中，任务是将心音分割成两个部分(lub和dub)，以便我们可以识别每个部分中的异常。利用音频特征提取可以来解决该问题，再利用深度学习进行分类。

案例研究– https://www.analyticsvidhya.com/blog/2017/11/heart-sound-segmentation-deep-learning/

5. 声源分离

声源分离包括将一个或多个源信号从混合信号中分离出来。其中最常见的应用之一是同时识别音频中的歌词，以便进行同声翻译(例如卡拉OK)。这是Andrew Ng机器学习课程中的一个典型例子，他把演讲者的声音和背景音乐分开。

白皮书 – http://ijcert.org/ems/ijcert_papers/V3I1103.pdf

典型的使用场景包括：

加载音频文件

计算时频变换以获得谱图，以及

使用一些源分离算法(如非负矩阵因式分解)来获得时频掩码。

然后用频谱图将掩模相乘，结果被转换回时域。

案例研究– https://github.com/IoSR-Surrey/untwist

6.节拍跟踪

顾名思义，这里的目标是跟踪音频文件集合中每个节拍的位置。拍频跟踪可以用于自动完成必须按顺序完成的耗时任务，以使事件与音乐同步。它在各种应用中都很有用，如视频编辑、音频编辑和人机即兴创作.

白皮书 – https://www.audiolabs-erlangen.de/content/05-fau/professor/00-mueller/01-students/2012_GroschePeter_MusicSignalProcessing_PhD-Thesis.pdf

解决拍频跟踪问题的一种方法是解析音频文件，并使用起始检测算法跟踪拍频。虽然用于启动检测的技术主要依赖于音频特征工程和机器学习，但在这里可以很容易地使用深度学习来优化结果。

案例研究– https://github.com/adamstark/BTrack

7. 音乐推荐

多亏了互联网，我们现在有数百万首歌曲可以随时收听。具有讽刺意味的是，这使得发现新音乐变得更加困难，因为有太多的选择。音乐推荐系统通过自动向听众推荐新音乐来帮助处理这种信息过载。像Spotify和Saavn这样的内容提供商已经开发了高度复杂的音乐推荐引擎。这些模型利用用户过去的侦听历史以及许多其他特性来构建定制的推荐列表。

白皮书 – https://pdfs.semanticscholar.org/7442/c1ebd6c9ceafa8979f683c5b1584d659b728.pdf

我们可以通过训练一个回归/深入学习模型来应对定制听力偏好的挑战。这可以用来预测从协作过滤模型中获得的歌曲的潜在表现形式。这样，即使没有可用的使用数据，我们也可以预测协作过滤空间中歌曲的表示。

案例研究– http://benanne.github.io/2014/08/05/spotify-cnns.html

8. 音乐检索

音乐检索是音频处理中最困难的任务之一，其本质是建立一个基于音频的搜索引擎。尽管我们可以通过解决音频指纹之类的子任务来完成这个任务，但是这个任务包含了更多的内容。例如，对于不同类型的音乐检索，我们还必须解决不同的小任务(音色检测对于性别识别来说是很好的)。目前，还没有其他系统能够达到业界预期的标准。

白皮书– http://www.nowpublishers.com/article/Details/INR-042

音乐检索的任务分为较小和更简单的步骤，包括音调分析(如旋律和和声)和韵律或节奏(例如，节拍跟踪)。然后，在此基础上，提取出用于检索相似音频样本的信息。

案例研究– https://youtu.be/oGGVvTgHMHw

9.音乐转录

音乐转录是另一个具有挑战性的音频处理任务。它包括注释音频和创建一种“片段”，以便在稍后的时间从它产生音乐。从录音中抄录音乐所涉及的手工工作可能是巨大的。这取决于音乐的复杂性，我们的听力技能有多好，以及我们希望我们的转录有多详细。

白皮书 – http://ieeexplore.ieee.org/abstract/document/7955698

音乐转录的方法类似于语音识别的方法，即将音符转录成乐器的抒情节录。