Sound Event Detection: A Tutorial 学习笔记|电子爱好者

admin管理员组
文章数量:1558075

原文链接

一、日常环境中的声音世界检测
二、声音事件监测的挑战
三、通用的机器学习方法
四、数据
五、信号处理方法
- A 数据增强
- B 特征表示
六、SED 机器学习
- A CRNN
- B 先进方法
- - 迁移学习
  - 使用weak label和noisy label （弱监督学习）
七、性能评估
- 比较指标
八、相关研究问题
九、未来展望
- Active learning
- Federated learning
- zero-shot learning
- model adaptation
参考引用

一、日常环境中的声音世界检测

自动声音事件检测（SED）方法的目标是识别音频信号中正在发生的事情以及它发生的时间。在实践中，目标是识别不同的声音在音频信号中什么时间段是活跃的。

就一般目的的声音事件监测系统是识别像鸟叫，汽车经过，脚步声等这一类环境声音。这类声音可以称之为非讲话或音乐声（non-speech and non-music sounds）

因为对讲话、音乐和环境声音的感知是不同的：音乐更关注声音的美学品质，讲话更关注语言学、附属语言学的信息，日常环境音是直接对声源的识别。

二、声音事件监测的挑战

挑战来源于待检测声音的本质以及它们产生的方式，同时也来源于数据收集和数据标注。
在一些应用中，目标事件的声源离麦克风很远，所以声音传输功能会有很大影响。此外，麦克风收集的目标事件声音的声压可能低于其他环境声音，这样增加了检测的难度。
环境声音区别于讲话和音乐的另一点是某一时刻同时发生的声音事件是没有任何规律可言的，任意时刻都有无限种可能。
缺乏完备和统一的声音类别定义描述是另一个难点。

三、通用的机器学习方法

主流的方式是应用监督学习，通过音频和对应的参考标注构建模型。标注信息包括了声音事件的时间信息。

如图2所示，在学习阶段，系统会学习从音频信号提取的特征和每个类别的标注信息之间的联系。标注信息表示为一个二进制矩阵，每个元素表示某帧中该声音类别的状态，1表示发生，0表示未发生。在测试阶段，系统会接收测试音频，并输出一个表示标注信息的二进制矩阵。

图3呈现了多标签多类别的分类输出：

当系统为整个音频文件的持续时间提供每个类别的单一预测，并且不为每个声音输出单独的活动模式时，该任务不再被称为检测（detection），而是称为标记（tagging）。

来自连续分析帧的上下文信息为学习与声音事件实例对应的连续片段带来了更多信息。根据分类方法，可以使用不同的技术对时间上下文进行建模，稍后将进行讨论。例如，其中声音被检测为active状态的一个或几个连续片段可能仍然具有太短而不能成为合理事件实例的组合长度，因此它们将被丢弃。类似地，在多个片段形成单个事件实例的假设下，可以“填充”事件活动中的短间隙。声音实例的预期最小/最大持续时间可以基于从训练数据中获得的统计数据或关于目标声音的一般假设（例如，500 ms 对于“汽车经过”来说太短了）。

四、数据

训练数据需要具有与实际应用相似的音频声音样本，并且有对目标事件的信息标注。使用声音事件检测的应用程序通常具有不同的目标声音事件类集，并且可能在略有不同的环境中使用。因此，没有普遍适用的声学模型或声音事件检测数据集，而是为手头的问题收集了许多数据集。

例如，在狗叫检测的情况下，这包括声源的不同实例（不同的狗）、声源状态的差异（例如情绪）和环境因素，例如声源所在的空间以及其他什么声源在周围且处于活动状态、声源的位置以及用于捕捉声音的麦克风的位置。

为了在短时间段内建立多类多标签分类问题，音频的注释也必须包含有关短时间段内声音事件的信息。这种类型的注释是一个非常具体的要求，称为强标签，即注释包含每个声音实例的时间信息，即它的开始和偏移时间。另一方面，弱标签仅告知声音在较长的录音中的存在，而没有明确指示该声音处于活动状态的时间区域。换句话说，弱标签适用于整个录音，而强标签适用于特定的音频片段，如图 4 所示。

理想情况下，用于训练系统的强标签的时间精度应至少为和输出分辨率一样好。然而，在实践中，人们可能会求助于较低的分辨率或弱标签，以便快速生成大量训练数据。

五、信号处理方法

SED任务主要可以分为两个部分，特征表示和分类

A 数据增强

对于包含单个声源的音频，例如来自单个扬声器的语音，数据增强可用于补充声学条件，例如噪声或房间特征。另一方面，在复调音乐中，重叠的声音经常表现出彼此之间的和声关系，并且数据增强应该保留这个属性以创建合理的附加数据。在声音事件检测中，对可用音频的操作和组合允许创建重叠事件的新组合。此外，可以使用多种噪声和脉冲响应条件通过与原始数据混合和卷积来补充数据。所有这些技术通过将声学可变性添加到训练数据中，有助于声学建模过程的稳健性。

SED 中使用的数据增强方法：
基本的信号处理:

时间拉伸time stretching
音调偏移pitch shifting
动态范围压缩dynamic range compression [13]
更复杂的处理
与各种脉冲响应的卷积convolution with various impulse responses（以模拟各种麦克风和声学环境））[15]
子帧时移sub-frame time shifting
块混合block mixing [16]
混合mixup [17]
通过在改变 SNR 的同时添加背景噪声来模拟一组噪声条件 [13]

在执行数据增强时，保持标签相对于新生成的数据的正确性很重要。参考注释需要根据扩充方法进行转换。图 5 说明了应用于输入信号及其相应注释的时间拉伸和块混合。

在时间拉伸中，音频的持续时间被延长，声音类别的active时间也相应地延长，以解释标签也被时间拉伸。
在块混合中，相同音频记录的两个不同块被加法混合，并且不同声音类的active时间使用 AND 操作组合。
相比之下，在混合数据增强mixup中，原始数据块及其标签组合为加权和，从而产生新的输入数据，其标签不再是二进制的。

B 特征表示

最常用的是log梅尔能量。

在语音和音乐领域的先前工作中，下一个处理步骤是离散余弦变换 (DCT)，从而产生梅尔频率倒谱系数 (MFCC)。 DCT将频谱转换为倒谱，其中低阶系数代表粗略的频谱特征，高阶系数与精细细节有关。此外，DCT 具有很强的压缩特性，导致大部分信号能量集中在输出的低阶分量中，这允许将特征向量截断为低阶系数，而不会丢失太多频谱信息。

另一种可用于 SED 的时频表示是恒定 Q 变换 (CQT) Constant-Q transform，其中频率轴是对数 [18]。 CQT 在较低频率下提供更好的光谱分辨率，在较高频率下提供更好的时间分辨率。

也可以使用以不同分析分辨率计算的光谱图[22]。使用具有不同时间或频率分辨率的表示的假设是，不同类型的声音可能受益于不同频率或时间分辨率的建模，例如，短的声音，例如门砰的一声，可以从分析中的高时间分辨率中受益，而像鸟儿的歌声，通过使用高分辨率的频率可以更好地表示声音的谐波分量。

特征学习。无监督特征学习方法尝试直接从数据中学习时频表示，而不像手工制作的特征那样使用有关数据特定属性的专家知识。

六、SED 机器学习

A CRNN

用于声音事件检测的通用网络架构是卷积循环神经网络（CRNN），包含具有特定作用的卷积层和循环层。卷积层充当特征提取器，旨在通过应用于网络输入处呈现的时频表示的连续卷积和非线性变换来学习判别特征。循环层的作用是学习在其输入处呈现的特征序列中的时间依赖性。

图 6 展示了一个由三个卷积块组成的 CRNN 架构，然后是两个循环层和两个前馈层。网络的每个主要组件之后的信息处理和结果表示与结构一起显示在图中。网络接收数据的时频表示作为输入，在这种情况下，对长度为 T 的数据段使用 40 个滤波器计算的 log mel 能量，并输出目标声音事件类别的事件活动概率。

由于声音事件检测需要估计声音事件的时间位置，所以必须保持时间轴，因此池化操作只在频率轴上进行。

最后一个卷积块的输出叠加在频率轴上，产生一个 2D 特征表示，然后将其作为输入提供给第一个循环层。

输出层由 sigmoid 单元组成，它们分别为每个目标事件类提供概率。

因为 SED 中的预期输出是每个事件类的二进制激活指标序列，所以网络输出被二进制化。二值化的阈值可以简单地选择为 0.5，也可以根据数据的统计量针对问题进行优化。此外，可以对生成的二进制序列进行后处理以形成事件实例。

在声音事件检测中，网络训练旨在最小化真实标签和预测标签之间的交叉熵。每个训练样本正确类的概率为 1.0，所有其他类的概率为 0.0，而网络估计样本属于每个类的概率，并计算两者之间的交叉熵。

根据任务选择网络架构：在对数据序列进行建模和预测时包括循环层，而在分类任务中不需要保留时间信息，因此网络通常只包括卷积块。进行声音事件检测的网络架构的选择通常基于在类似的音频分类问题中表现良好的架构。网络的大小通常受训练数据的可用性和形式的限制，包括类和训练示例的数量。最常见的结果是 2-5 个卷积块 + 1-2 个循环层和全连接层[26]。卷积滤波器的最佳数量和大小以及输入时频表示的大小通常是通过使用验证数据集的多次试验来选择。相比之下，在语音识别任务中（speech recognition tasks），有数百小时的数据可用于训练，会遇到数十层的网络，而在声学场景分类中，7-9 个卷积层常见于 20-40 小时的数据集。

B 先进方法

迁移学习

迁移学习为数据稀缺问题提供了不同的解决方案，作为数据增强的替代方案。主要思想是利用可用于某些任务的大量数据，并使用它来解决目标任务。因此，训练神经网络来解决预任务（允许学习声学特征的预先设计的任务），然后使用预训练的权重来构建目标任务的网络 [30]、[31]。预训练层提供的表示称为嵌入embeddings，并且可以被视为下游任务（原始目标任务，学习音频特征将用于解决的任务）的输入特征。可用于计算嵌入的预训练网络的可用示例包括 VGG-

本文标签：学习笔记 Event SOUND Tutorial Detection

版权声明：本文标题：Sound Event Detection: A Tutorial 学习笔记内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1727372118a1111303.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

Sound Event Detection: A Tutorial 学习笔记

目录

一、日常环境中的声音世界检测

二、声音事件监测的挑战

三、通用的机器学习方法

四、数据

五、信号处理方法

A 数据增强

B 特征表示

六、SED 机器学习

A CRNN

B 先进方法

迁移学习

更多相关文章

Linux学习笔记46——X Window 设置介绍

Kali学习笔记（一）利用burpsuite爆破wifi管理员密码

PMON学习笔记

2024考研408-计算机组成原理第三章-存储系统学习笔记

【学习笔记】Ubuntu双系统+搭建个人服务器

黑马程序员Java教程学习笔记（四）

软件工程导论学习笔记

数据仓库学习笔记一

机器学习笔记（3.1）

Redis学习笔记

Oracle基础学习笔记

Linux（Ubuntu 22.04）学习笔记——让虚拟机共享主机上的文件夹

RT_threadのUART设备学习笔记

Li‘s 核磁共振影像数据处理-25|Li‘s 影像组学radiomics视频学习笔记（番外1）-PyRadiomics提取出的影像组学特征不完全符合IBSI？怎么办？

FAT文件系统规范v1.03学习笔记---3.根目录区之FAT目录项结构

《白帽子讲WEB安全》学习笔记之第9章 认证与会话管理

SikuliX学习笔记④键盘操作

现代大学英语精读第二版（第一册）学习笔记（原文及全文翻译）——10A - Mandela‘s Garden（曼德拉的菜园）

Kaggle | 金融交易欺诈检测(Synthetic Financial Datasets For Fraud Detection)

DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled Tra

发表评论

推荐文章

linux系统可以用迅雷吗,在Linux系统下使用wine运行迅雷5的方法

Ubuntu常见问题汇总以及安装应用（QQ、微信、迅雷等）

安卓国内ip代理app，畅游网络

Android Studio使用真机调试，vivo和华为两种操作步骤

Invalid bound statement (not found)出现原因和解决方法

热门文章

迅雷11抢先体验版，免费2T空间可离线下载高速取回

迅雷推阅读产品 市场容不下生力军

如何轻松地从PC安装Android应用程序？ [4个解决方案]

Android 按键唤醒APP

使用iPod和iPhone的VLC观看几乎任何视频文件类型

图片基础知识与浏览器支持的图片格式

计算机关机界面卡住,电脑关机时卡在关机界面的解决方法

mac苹果电脑使用耳机听不到声音

电脑开机主机一闪一灭启动不了是什么原因，怎么办

QQ登录界面实现代码

最新文章

阿里云-设置远程桌面连接

腾讯云服务器无法远程桌面登录

苹果计算机远程桌面连接,Mac电脑怎么远程桌面连接？

域服务器桌面墙纸,与大家分享windows 10 加域后统一桌面壁纸无法生效问题的解决办法...

FusionAccess桌面云部署（三.1）：配置ADDNSDHCP

桌面运维常用命令

阿里云服务器Windows server远程连接凭证无法使用 连接成功后处于黑屏

Windows远程桌面连接全屏切换--笔记本没有break键的办法

Win10远程桌面连接时间过长问题

linux瘦终端系统,Thinstation 桌面云瘦客户端操作系统简介

购买阿里云Windows Server2016后的一些配置

腾讯云windows server搭建valheim(英灵神殿)服务器

服务器显示屏出现白屏,远程服务器桌面 显示白屏

Zerotier+Microsoft远程桌面 实现内网穿透搭建异地局域网内远程连接控制桌面

使用Windows远程桌面工具来远程连接控制Ubuntu系统

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

《白帽子讲WEB安全》学习笔记之第9章认证与会话管理

迅雷推阅读产品市场容不下生力军

阿里云服务器Windows server远程连接凭证无法使用连接成功后处于黑屏

服务器显示屏出现白屏,远程服务器桌面显示白屏

Zerotier+Microsoft远程桌面实现内网穿透搭建异地局域网内远程连接控制桌面

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载