使用AI神经网络对鸟儿鸣叫声音进行分类

生态学家使用鸟类来了解食物系统和森林健康——例如，如果森林中有更多的啄木鸟，这意味着有很多枯木。因为鸟类通过歌曲和呼叫来交流和标记领地，所以通过耳朵识别它们是最有效的。事实上，专家可以通过耳朵识别出不同的鸟类。

近年来，自主录音单元(ARU)可以轻松捕捉森林中数千小时的音频，这些音频可用于更好地了解生态系统和识别关键栖息地。但是，手动查看音频数据非常耗时，而且鸟鸣专家很少。但基于机器学习(ML)的方法有可能大大减少了解栖息地所需的专家评审量。

然而，基于机器学习的鸟类音频分类可能具有挑战性，原因有几个。一方面，鸟类经常互相歌唱，尤其是在许多鸟类最活跃的“黎明合唱”期间。此外，没有清晰的个体鸟类记录可供学习——几乎所有可用的训练数据都是在嘈杂的户外条件下记录的，其中经常存在来自风、昆虫和其他环境来源的其他声音。因此，现有的鸟鸣分类模型难以识别安静、遥远和重叠的发声。此外，一些最常见的物种在不太常见的物种的训练记录背景中经常出现未标记，导致模型对常见物种进行折扣。

为了解决训练ML模型以在不访问孤立声音示例的情况下自动分离录音的一般挑战，Google最近在Google的论文“使用混合不变训练的无监督声音分离”中提出了一种新的无监督方法，称为混合不变训练(MixIT)。此外，在Google的新论文“通过无监督声音分离改进鸟类分类”中，Google使用MixIT训练来分离鸟鸣并改进物种分类。Google发现在分类中包含分离的音频可以提高三个独立音景数据集的精度和分类质量。Google也很高兴地宣布在GitHub上开源了鸟鸣分离模型。

Birdsong音频分离

MixIT学习将单通道录音分离成多个单独的轨道，并且可以完全使用嘈杂的真实世界录音进行训练。为了训练分离模型，Google通过将两个真实世界的记录混合在一起来创建“混合物的混合物”（MoM）。然后分离模型学习将MoM分成许多通道以最小化损失函数它使用两个原始的真实世界录音作为真实参考。损失函数使用这些引用对分离的通道进行分组，以便可以将它们混合在一起以重新创建两个原始的真实世界录音。由于无法知道MoM中的不同声音在原始录音中是如何组合在一起的，因此分离模型别无选择，只能将各个声音本身分开，从而学会将每只歌唱的鸟放在不同的输出音频通道中，也与风和其他背景噪音分开。

Google使用来自Xeno-Canto和Macaulay图书馆的鸟鸣录音训练了一个新的MixIT分离模型。Google发现，在分离鸟鸣方面，这个新模型优于使用来自AudioSet数据集的大量一般音频训练的MixIT分离模型。Google通过将两个录音混合在一起，应用分离，然后重新混合分离的音频通道以重建原始的两个录音来测量分离的质量。Google测量信噪比(SNR)相对于原始录音的重新混合音频。Google发现，专门为鸟类训练的模型比在AudioSet上训练的模型（10.5dB对4.4dB）的SNR提高了6.1分贝(dB)。主观上，Google还发现了许多系统运行良好的例子，在现实世界的数据中分离出非常难以区分的调用。

以下视频演示了从两个不同地区（Caples和HighSierras）分离鸟鸣。视频显示了混合音频的mel频谱图（显示音频随时间变化的频率内容的2D图像）并突出显示分离到不同轨道的音频。

为了对使用ARU捕获的真实音频中的鸟类进行分类，Google首先将音频分成5秒的片段，然后创建每个片段的梅尔谱图。然后，Google训练了一个EfficientNet分类器，以从mel-spectrogram图像中识别鸟类，对来自Xeno-Canto和MacaulayLibrary的音频进行训练。Google训练了两个独立的分类器，一个用于内华达山脉的物种，一个用于纽约州北部。请注意，这些分类器不是针对分离的音频进行训练的；这是未来改进的一个领域。

Google介绍了一些新技术来改进分类器训练。分类训练要求分类器为物种分类的每个级别（属、科和目）提供标签，这允许模型在学习相似物种之间有时细微的差异之前学习物种的分组。分类训练还允许模型从有关不同物种之间分类关系的专家信息中受益。Google还发现，随机低通滤波有助于在训练期间模拟远处的声音：随着音频源越来越远，高频部分在低频部分之前消失。这对于识别高山脉的物种特别有效那里的鸟鸣声很远，不受树木的阻碍。

分离的音频

进行分类Google发现在分类之前使用新的MixIT模型分离音频可以提高分类器在三个独立的真实数据集上的性能。这种分离对于识别安静和背景的鸟类特别成功，并且在许多情况下也有助于重叠发声。

上图：来自内华达山脉的两只鸟的梅尔光谱图，一只美洲鹨(amepip)和灰冠玫瑰雀(gcrfin)。图例显示了预训练分类器给出的两个物种的对数概率。值越高表示置信度越高，大于-1.0的值通常是正确的分类。底部：自动分离音频的梅尔谱图，分类器记录来自分离通道的概率。请注意，分类器仅在音频分离后才能识别出不同的鸟儿。

上：具有三种发声的复杂混合物：金冠小王(gockin)、山雀(mouchi)和斯特勒松鸦(stejay)。下：分成三个通道，三个物种的分类器对数概率。即使分类器不确定它是什么，Google也看到了斯特勒松鸦的良好视觉分

分离模型确实有一些潜在的局限性。偶尔Google会观察到过度分离，即一首歌曲被分成多个频道，这可能会导致错误分类。Google还注意到，当多只鸟在发声时，最突出的歌曲通常在分离后得分较低。这可能是由于在分类器训练期间没有出现的环境上下文或由分离引入的其他伪影的丢失。目前，Google通过在分离的通道上运行分类器和原始音频，并为每个物种取最高分。Google期望进一步的工作将使Google能够减少过度分离并找到更好的方法来结合分离和分类。您可以在Google的GitHub存储库中查看和听到更多完整系统的示例。

Google目前正在与加州科学院的合作伙伴合作，了解在规定的火灾和野火之后栖息地和物种混合的变化，并将这些模型应用于多年来收集的ARU音频。

Google还预见了生态学中无监督分离模型的许多潜在应用，而不仅仅是鸟类。例如，分离的音频可用于创建更好的声学指标，这可以通过跟踪鸟类、昆虫和两栖动物的总体活动来衡量生态系统健康状况，而无需识别特定物种。类似的方法也可以适用于水下追踪珊瑚礁的健康状况。

转载请注明原文网址：http://www.13801256026.com/pgjg/pgjg/5323.html