Skip to content

这谱不对

  • 来源:noai-train/联合训练/Day2/T3 score_off 万薛灿
  • 类型:CV / metric learning
  • 原始资料:statement.mdbaseline.ipynbScoring/metrics.py
  • 题面完整性:完整
  • 解法资料完整性:题解缺失;以下根据题面、baseline 与分数信息推断

题面大意

每个查询给 4 张五线谱摘录图片,其中 3 张来自同一个作曲家,1 张来自另一个作曲家,任务是找出异类。训练集中有 8 名作曲家的 5155 张摘录图。测试查询前 75% 的作曲家来自训练集中 8 类,后 25% 可能出现未见作曲家。最终分数为 B 榜准确率。

数据特点

图像高度统一:一行、约四个小节、已旋转至五线谱平行。任务不是普通单图分类,而是 4 选 1 的相对判断。已知作曲家查询可以转化为作曲家分类;未知作曲家查询则更像风格相似度/嵌入聚类问题。五线谱虽然是图像,但有强结构:音符位置、节奏密度、符杆、休止符、谱面布局等都可能代表作曲家风格。

考点

核心考点是小样本视觉风格识别和相对异常检测。直接训练 8 类分类器能处理训练作曲家,但面对未知作曲家不一定稳。更好的思路是学习谱面风格 embedding,再在每个查询内部比较 4 张图片的两两相似度,找出与其他 3 张最不相似的一张。

涉及知识点

  • 图像分类与迁移学习。
  • 度量学习:Siamese/triplet/contrastive loss。
  • 自监督/风格特征:边缘、连通域、投影直方图。
  • 查询内相对评分:pairwise similarity、leave-one-out 聚类。
  • 数据增强:轻微裁剪、亮度扰动、线条厚度变化。

解法思路

强基线可以先训练一个作曲家分类 CNN。对于测试查询,分别得到每张图的 8 类概率分布,计算每张图与另外三张图的概率相似度,或直接看预测类别是否为少数派。前 75% 查询通常表现不错。

更泛化的方案是训练 embedding。构造同作曲家正样本对、不同作曲家负样本对,用 contrastive/triplet loss 或监督分类头的倒数第二层作为 embedding。推理时对 4 张图计算 embedding,两两 cosine 距离;对每张图求到其他 3 张的平均相似度,最低者为异类。

也可以结合谱面专用特征:二值化后提取水平/垂直投影、音符密度、连通域面积分布、黑像素比例、节奏间距统计等,再用传统模型或与 CNN embedding 拼接。

可选/多种解法

分类概率少数派:实现简单,对已知作曲家有效。

度量学习:对未知作曲家更稳,是更符合题意的做法。

图像处理特征 + 传统模型:利用谱面结构强、格式统一的特点,训练和推理更快。

特殊技巧

查询级任务可利用“四张里三张同源”的先验。即使单张分类不准,只要相似度排序正确也能得分。测试后 25% 可能有未见作曲家,因此不要把解法完全绑定到 8 类标签;embedding 的类间距离更有推广性。

调参优化

这题应围绕评分函数反推可调项。若核心是分类/识别模型,先固定可靠验证集,扫描概率阈值、类别权重、校准温度、后处理规则和提交格式映射;若存在排行榜 A/B 分布差异,避免只追 A 榜单点最优。模型训练侧可调学习率、epoch、增强强度和 ensemble 权重,但每次都要用本地复现的评分脚本核算最终分,而不是只看中间 loss。对“分数异常偏低”的情况,优先检查标签顺序、id 对齐和类别编码。

注意事项

题面说理论上不需要乐理知识,但理解谱面结构能帮助做图像处理。训练/测试来自同一总分布,但未知作曲家部分会惩罚纯封闭集分类器。不要把 test query 的 4 张图独立预测后直接提交,要做查询内一致性判断。

推广意义

这题适合作为“相对判断比绝对分类更重要”的案例。类似问题包括找异常图片、字体/作者风格识别、商品图同款匹配和小样本 re-identification。