poetiq-arc-agi-solver:基于 Python 的 ARC-AGI 基准测试项目

This repository allows reproduction of Poetiq's record-breaking submission to the ARC-AGI-1 and ARC-AGI-2 benchmarks.

分支7Tags1

Poetiq:ARC-AGI 上的 SOTA 推理

许可证:MIT Python 3.11+ ARC-AGI

本仓库可复现 Poetiq 提交至 ARC-AGI-1 和 ARC-AGI-2 基准测试的破纪录成果。

完整分析详见我们的发布文章:Traversing the Frontier of Superintelligence

我们的方法现已位居官方排行榜榜首。更多信息请参阅后续文章:Poetiq Shatters ARC-AGI-2 State of the Art at Half the Cost


📊 公开评估结果

您可以使用本仓库复现这些图表中的 Gemini 3 分数。

📊 官方私有评估结果

以下是我们在 ARC Prize 官方排行榜上的成绩,但相关题目为私有内容。

🛠️ 使用方法

前提条件

  • Python 3.11 及以上版本
  • 您希望测试的模型的 API 密钥(Gemini、OpenAI 等)

快速开始

  1. 配置环境:

    python -m venv .venv
    source .venv/bin/activate
    pip install -r requirements.txt
    
  2. 在根目录创建 .env 文件。您必须包含要运行的模型的密钥。

    GEMINI_API_KEY=...
    OPENAI_API_KEY=...
    
  3. 修改 main.py 中的常量以设置问题集、问题数量等。然后运行脚本:

    python main.py
    
  4. 默认情况下,代码运行博客文章中描述的 Poetiq 3 配置。您可以取消其他配置的注释,或在 config.py 中修改配置。

📄 联系方式

如果您在研究中使用了本代码或相关结果,请引用我们的博客文章:

Poetiq Team. (2025). Traversing the Frontier of Superintelligence. Poetiq AI. https://poetiq.ai/posts/arcagi_announcement/

如对推理技术的未来有任何疑问或想进行探讨,欢迎通过 poetiq@poetiq.ai 与我们联系。

X (formerly Twitter) LinkedIn Bluesky

项目介绍

本仓库可复现 Poetiq 提交至 ARC-AGI-1 和 ARC-AGI-2 基准测试的破纪录方案。【此简介由AI生成】

定制我的领域
201.28 K214访问 GitHub

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新

语言类型

Python100%