IOAI 2025 Antique Painting Authentication

来源：noai-mis/IOAI/IOAI-2025/Individual-Contest/Antique
类型：Tabular ML / semi-supervised learning
原始资料：Antique.ipynb、Solution/Antique_Solution.ipynb、metrics.py
题面完整性：notebook 内完整
解法资料完整性：有 reference solution

题面大意

判断古董画作是真品还是仿品。只有一小部分样本有真伪标签，大多数样本未标注；但数字特征存在强结构模式。任务要求利用有标注和无标注样本训练模型，对验证/测试集预测真伪。

数据特点

训练 CSV 中前 5 列为数值特征，第 6 列为标签；reference solution 中 y == 0 表示未标注，其他值为有标注类别。特征维度低，结构性强，适合聚类和半监督学习。样本标签少，直接监督分类可能不稳。

考点

核心考点是半监督表格分类。需要利用未标注数据的分布结构，先聚类/伪标注，再训练监督分类器。

涉及知识点

Spectral Clustering。
Pseudo labeling。
SVM / RBF kernel。
低维数据可视化与聚类。
半监督学习假设：同簇同标签。

解法思路

reference solution 先对全部训练特征做 SpectralClustering(n_clusters=2, affinity='rbf', gamma=10)，然后用每个 cluster 中有标注样本的多数标签给整个 cluster 赋伪标签。随后用原始特征和伪标签训练 RBF SVM，对 validation/test 特征预测。

这个流程利用了“所有样本结构模式明显”的题设：未标注点的空间分布帮助确定决策边界，而少量标签只负责解释每个簇对应真/伪。

可选/多种解法

谱聚类 + SVM：官方参考思路。

KMeans/GMM + 标签映射：更简单，但非凸结构可能较弱。

Label propagation：直接在图上从有标注点传播标签。

特殊技巧

聚类数通常为 2，对应真品/仿品。RBF gamma 对谱聚类效果敏感，可在验证集调。未标注标签值 0 不是一个真实类别，训练监督模型前必须剔除或伪标注。

调参优化

古董价格/属性类表格题通常有长尾目标和类别稀疏问题。建议调目标变换（原值、log1p、分位数缩放）、类别编码方式、稀有类别合并阈值、文本/描述字段特征、GBDT 深度、叶子数、学习率和 early stopping。若指标是 RMSLE/MAE 一类，调参时必须在反变换后计算真实指标。异常高价样本会影响模型，裁剪或单独建模的分位点也应在验证集上选择。

注意事项

不要把 y==0 当作第三类。验证/测试 CSV 没有标签，仅 5 维特征。若聚类簇中没有有标注样本，需要 fallback，例如最近有标注点或全局多数类。

推广意义

这题是半监督学习的干净例子：当未标注数据揭示几何结构时，聚类/图传播可以显著超过只用少量标签的模型。适用于质检、风控、医学小标注场景。

IOAI 2025 Antique Painting Authentication ​

题面大意 ​

数据特点 ​

考点 ​

涉及知识点 ​

解法思路 ​

可选/多种解法 ​

特殊技巧 ​

调参优化 ​

注意事项 ​

推广意义 ​