This repository allows reproduction of Poetiq's record-breaking submission to the ARC-AGI-1 and ARC-AGI-2 benchmarks.
以下内容由 AI 翻译,如有问题请 点此提交 issue 反馈
Poetiq:ARC-AGI 上的 SOTA 推理
本仓库可复现 Poetiq 提交至 ARC-AGI-1 和 ARC-AGI-2 基准测试的破纪录成果。
完整分析详见我们的发布文章:Traversing the Frontier of Superintelligence。
我们的方法现已位居官方排行榜榜首。更多信息请参阅后续文章:Poetiq Shatters ARC-AGI-2 State of the Art at Half the Cost。
📊 公开评估结果
您可以使用本仓库复现这些图表中的 Gemini 3 分数。
📊 官方私有评估结果
以下是我们在 ARC Prize 官方排行榜上的成绩,但相关题目为私有内容。
🛠️ 使用方法
前提条件
- Python 3.11 及以上版本
- 您希望测试的模型的 API 密钥(Gemini、OpenAI 等)
快速开始
-
配置环境:
python -m venv .venv source .venv/bin/activate pip install -r requirements.txt -
在根目录创建 .env 文件。您必须包含要运行的模型的密钥。
GEMINI_API_KEY=... OPENAI_API_KEY=... -
修改 main.py 中的常量以设置问题集、问题数量等。然后运行脚本:
python main.py -
默认情况下,代码运行博客文章中描述的 Poetiq 3 配置。您可以取消其他配置的注释,或在 config.py 中修改配置。
📄 联系方式
如果您在研究中使用了本代码或相关结果,请引用我们的博客文章:
Poetiq Team. (2025). Traversing the Frontier of Superintelligence. Poetiq AI. https://poetiq.ai/posts/arcagi_announcement/
如对推理技术的未来有任何疑问或想进行探讨,欢迎通过 poetiq@poetiq.ai 与我们联系。