Skip to content

IOAI 2025 Antique Painting Authentication

  • 来源:noai-mis/IOAI/IOAI-2025/Individual-Contest/Antique
  • 类型:Tabular ML / semi-supervised learning
  • 原始资料:Antique.ipynbSolution/Antique_Solution.ipynbmetrics.py
  • 题面完整性:notebook 内完整
  • 解法资料完整性:有 reference solution

题面大意

判断古董画作是真品还是仿品。只有一小部分样本有真伪标签,大多数样本未标注;但数字特征存在强结构模式。任务要求利用有标注和无标注样本训练模型,对验证/测试集预测真伪。

数据特点

训练 CSV 中前 5 列为数值特征,第 6 列为标签;reference solution 中 y == 0 表示未标注,其他值为有标注类别。特征维度低,结构性强,适合聚类和半监督学习。样本标签少,直接监督分类可能不稳。

考点

核心考点是半监督表格分类。需要利用未标注数据的分布结构,先聚类/伪标注,再训练监督分类器。

涉及知识点

  • Spectral Clustering。
  • Pseudo labeling。
  • SVM / RBF kernel。
  • 低维数据可视化与聚类。
  • 半监督学习假设:同簇同标签。

解法思路

reference solution 先对全部训练特征做 SpectralClustering(n_clusters=2, affinity='rbf', gamma=10),然后用每个 cluster 中有标注样本的多数标签给整个 cluster 赋伪标签。随后用原始特征和伪标签训练 RBF SVM,对 validation/test 特征预测。

这个流程利用了“所有样本结构模式明显”的题设:未标注点的空间分布帮助确定决策边界,而少量标签只负责解释每个簇对应真/伪。

可选/多种解法

谱聚类 + SVM:官方参考思路。

KMeans/GMM + 标签映射:更简单,但非凸结构可能较弱。

Label propagation:直接在图上从有标注点传播标签。

特殊技巧

聚类数通常为 2,对应真品/仿品。RBF gamma 对谱聚类效果敏感,可在验证集调。未标注标签值 0 不是一个真实类别,训练监督模型前必须剔除或伪标注。

调参优化

古董价格/属性类表格题通常有长尾目标和类别稀疏问题。建议调目标变换(原值、log1p、分位数缩放)、类别编码方式、稀有类别合并阈值、文本/描述字段特征、GBDT 深度、叶子数、学习率和 early stopping。若指标是 RMSLE/MAE 一类,调参时必须在反变换后计算真实指标。异常高价样本会影响模型,裁剪或单独建模的分位点也应在验证集上选择。

注意事项

不要把 y==0 当作第三类。验证/测试 CSV 没有标签,仅 5 维特征。若聚类簇中没有有标注样本,需要 fallback,例如最近有标注点或全局多数类。

推广意义

这题是半监督学习的干净例子:当未标注数据揭示几何结构时,聚类/图传播可以显著超过只用少量标签的模型。适用于质检、风控、医学小标注场景。