Appearance
IOAI 2025 Concepts
- 来源:
noai-mis/IOAI/IOAI-2025/Individual-Contest/Concepts - 类型:Multimodal / LLM-assisted game
- 原始资料:
Concepts.ipynb、Concepts_Solution.ipynb、README.md、judge_api.py - 题面完整性:notebook 内完整
- 解法资料完整性:有 official solution 与 LLM proxy tutorial
题面大意
Concepts 是用有序图标序列提示 secret 词语的游戏。Clue-Giver 只能选择共享图标,Guesser 根据图标序列猜 secret。任务是为验证/测试 secret 生成图标序列,使黑盒 AI guesser 尽可能猜中。提交 clues_a.jsonl 和 clues_b.jsonl。
数据特点
每个图标有图像和文字描述,hint 是图标 ID 序列。AI guesser 是 LLM 驱动,存在一定随机性;比赛期间允许通过受限 proxy 调用 LLM 辅助开发,但 inference 阶段不能访问 judge API。提示序列的顺序有语义,首个图标通常表达核心概念。
考点
核心考点是 black-box prompt optimization。参赛者需要理解 guesser 的语义偏好,搜索或生成能让它输出目标 secret 的图标组合。它不是传统监督学习,而是受限动作空间下的语义提示设计。
涉及知识点
- LLM prompt engineering。
- 图标描述 embedding 检索。
- 黑盒评测与离线代理。
- 搜索/优化:beam search、候选生成、reranking。
- JSONL 提交工程。
解法思路
一种思路是把每个 secret 文本和所有图标描述嵌入到同一语义空间,选取与 secret 最相近的几个图标作为候选。再根据图标顺序组织:第一个图标放最核心概念,后续图标补充属性、场景或消歧。可用本地 LLM 或 sentence embeddings 生成候选,并用可访问的 judge API 在开发阶段验证。
官方 README 提到 solution 使用 LLM API/proxy。更强方法会对每个 secret 构造多套候选图标序列,使用本地 guesser 或历史 API 反馈筛选,最终提交稳定命中的序列。
可选/多种解法
Embedding 最近邻:无需大量 API,稳定可复现。
LLM 辅助候选生成:让 LLM 从图标描述中挑提示组合。
黑盒搜索:在调用预算内试探 guesser,对候选序列 rerank。
特殊技巧
顺序重要,首图标应最像目标词。对于抽象词,直接图标可能不存在,需要用多个图标组合表达隐喻。避免过长 hint,太多图标可能让 guesser 分散。开发阶段的 API 随机性需用多次评估或稳健候选。
调参优化
这题调参主要发生在候选图标选择与排序策略。建议在 validation 上扫描图标数量、首图标权重、相似度模型、候选池大小、去重规则、属性/场景/类别图标比例,以及是否使用 judge API 做重排。若使用 LLM 生成候选,可调 temperature、候选数和提示模板,但最终选择要由验证猜中率决定。常见问题是图标过泛或过细,前者靠提高语义相似阈值,后者靠加入上位类图标消歧。
注意事项
比赛限制包括 API 预算、上传大小和 inference 不能访问 judge API。本地 judge_api.py 可能随机性更高,不完全等同官方。提交必须是列表形式的图标 ID 序列。
推广意义
Concepts 是 LLM 黑盒交互优化的竞赛化版本。它启发了如何在没有模型权重的情况下,通过语义检索、prompt 搜索和反馈优化控制模型行为。