IOAI 2025 Pixel Efficiency

来源：noai-mis/IOAI/IOAI-2025/Individual-Contest/Pixel
类型：CV / model interpretability and masking
原始资料：Pixel.ipynb、Pixel_Solution.ipynb、README.md、metrics.py
题面完整性：notebook 内完整
解法资料完整性：有 reference solution

题面大意

为野外相机陷阱图像选择最关键的少量像素，以便在带宽有限时只传输必要视觉信息。参赛者需要为每张图输出 mask，保留关键像素，使下游模型仍能完成识别/分类任务。baseline 是随机 mask，reference solution 使用 CLIP 视觉模型分析重要区域。

数据特点

输入是自然图像，目标是生成稀疏 mask，而不是直接分类。保留比例很低（reference 中 RETAIN_RATIO=0.0625），需要选择最能支持类别判断的区域。图像中主体动物和上下文可能都重要，但背景冗余大。

考点

核心考点是重要像素选择和模型可解释性。可以利用预训练视觉模型的 attention、patch 相似度或遮挡敏感性来估计哪些像素/patch 对预测最重要。

涉及知识点

Mask generation。
CLIP vision transformer。
Patch importance / attention rollout。
Occlusion sensitivity。
JSONL 提交格式。

解法思路

reference solution 加载 CLIP ViT-L/14，处理图像并估计 patch 重要性。常见方法是对每个 patch 计算与文本类别/图像 embedding 的贡献，选 top-k patch，再上采样成像素 mask。也可用滑动遮挡：遮掉某区域看模型置信度下降，下降越大越重要，但计算更慢。

可选/多种解法

CLIP attention/patch ranking：强且通用。

显著性检测/主体分割：优先保留动物区域。

梯度 saliency：若可访问模型梯度，对预测类别求输入梯度。

特殊技巧

mask 过碎可能不利于压缩和下游识别，选择连通 patch 往往比随机散点更好。保留主体头部、身体边缘和高对比纹理比保留均匀背景更有效。可以结合 top-k patch 与形态学膨胀，让 mask 更连续。

调参优化

这题的调参目标不是单纯精度，而是“像素预算下的信息效率”。建议把采样点数、采样策略（均匀/边缘优先/不确定性优先）、重建模型容量、平滑正则和后处理滤波强度作为主要超参数。若任务需要分类或分割，可在验证集上画出像素数与得分曲线，选择边际收益最高的预算点。不要只调模型深度；在有限像素条件下，采样位置和先验插值方法通常决定上限。

注意事项

输出 submission.jsonl 格式必须符合 metrics。保留比例要严格控制，超过限制可能无效或扣分。若从 HuggingFace 加载 CLIP，需保证评测环境可用或已缓存。

IOAI 2025 Pixel Efficiency ​

题面大意 ​

数据特点 ​

考点 ​

涉及知识点 ​

解法思路 ​

可选/多种解法 ​

特殊技巧 ​

调参优化 ​

注意事项 ​

推广意义 ​