Skip to content

APOAI 2026 T2 Audio Event Detection

  • 来源:noai-mis/APOAI/2026/T2
  • 类型:Audio
  • 原始资料:statement.mdbaseline.ipynbmeltrain_v2/train.csv
  • 题面完整性:完整
  • 解法资料完整性:有 baseline;无独立题解,以下结合题面推断

题面大意

给定 3 秒、16 kHz 的音频片段,预测 8 类电话场景声音事件:cough, sneeze, laughter, cry, dog_bark, siren, noise, none。提供预计算 log-mel spectrogram,shape [64,300]。高权重类 cough/sneeze/laughter/cry 权重为 2,低权重类权重为 1。训练 24000,验证/测试各 4000,提交 A/B 预测。

数据特点

音频模拟电话场景,可能包含语音、背景噪声和偶发事件。输入 log-mel 已经固定,不需要从 wav 重新提取。类别分布相对均衡但不同类权重不同,哭声、笑声、咳嗽、喷嚏等人声事件更重要。片段较短,目标事件可能只占局部时间。

考点

核心考点是时频图分类和加权指标优化。模型需要从 mel 图中捕捉短时瞬态(咳嗽、喷嚏)、持续人声模式(笑、哭)和背景声(警笛、犬吠、噪声)。由于已给 mel,重点在 CNN/CRNN 架构、数据增强和类别权重。

涉及知识点

  • Log-mel spectrogram。
  • 2D CNN / CRNN / attention pooling。
  • SpecAugment:时间遮挡、频带遮挡。
  • 类别权重、weighted cross entropy。
  • 音频事件短时定位和 clip-level pooling。

解法思路

基础方案是把 [64,300] mel 当作单通道图像,训练小 CNN 分类。可使用 batch norm、dropout、global average pooling,避免过拟合。训练 loss 使用类别权重,或在采样时提高高权重类别比例。增强包括随机时间平移、频带 mask、时间 mask、mixup 和加噪。

更强方案是 CNN + temporal pooling:卷积提取局部时频特征后,沿时间做 attention pooling 或 max/mean pooling,使短暂事件也能影响 clip-level 预测。对于 none/noise,可加入阈值校准,避免把背景误判为高权重事件。

可选/多种解法

小 CNN:速度快,适合固定 mel 输入。

CRNN:CNN 后接 GRU/LSTM,建模时间变化。

模型集成/TTA:多 seed、不同增强和时间裁剪平均,提高 A/B 稳定性。

特殊技巧

高权重类应在验证目标中单独监控。喷嚏/咳嗽常是短促瞬态,max pooling 比纯 average pooling 更能捕捉;笑声/哭声更持续,mean/attention 有帮助。none 类可能包含语音或低噪,不应简单等同静音。

调参优化

题解已有线索集中在类别权重、SpecAugment、mixup、时间裁剪和 none/noise 阈值校准。调参时应把加权准确率或按题目权重计算的验证分作为主指标,而不是普通 accuracy;重点网格可放在学习率、dropout、SpecAugment mask 宽度、mixup alpha、batch size 和 class weight 倍数上。短促事件更依赖时间分辨率和 max/attention pooling,可对 temporal pooling 方式单独 ablation。若本地验证波动大,多 seed 概率平均通常比继续加深模型更稳。

注意事项

验证和测试集在评测环境通过环境变量可见,本地可能没有。提交格式要与 baseline 一致。不要使用外部预训练音频模型,题面环境基于 ioai3.6

推广意义

这题是音频事件检测的标准竞赛形态:固定 mel、短 clip、多类别、业务权重。方法可迁移到电话质检、智能家居声音识别、工业异常声检测等任务。