包含约66k个基于SWE-smith的问题解决轨迹,记录代理端到端处理过程。训练的Klear-Agent-8B显著优于同类8B模型,匹配部分32B系统,SWE-bench Verified解决率达39.0%。【此简介由AI生成】
以下内容由 AI 翻译,如有问题请 点此提交 issue 反馈
license: mit dataset_info: features:
- name: instance_id dtype: string
- name: messages
list:
- name: content dtype: string
- name: role dtype: string splits:
- name: train num_bytes: 4644348713 num_examples: 65994 download_size: 1579055064 dataset_size: 4644348713 configs:
- config_name: default
data_files:
- split: train path: data/train-*
数据集:SWE-smith-mini_swe_agent_plus-trajectories-66k
一个包含约66k个问题解决轨迹的语料库,这些轨迹是使用mini-swe-agent-plus在源自SWE-smith的问题上收集的。每条轨迹都记录了智能体的端到端处理过程。
我们使用不同规模的训练数据对Qwen3-8B模型进行了训练。结果如图所示,可以观察到在SWE-bench Verified上的解决率随着数据规模的对数(1k → 66k轨迹)近似线性提升。Klear-Agent-8B(使用mini-swe-agent-plus在本数据集上训练)显著优于其他约8B模型,并与多个开源32B系统性能相当。
| 方法/模型 | 参数规模 | 智能体框架 | SWE-bench Verified(%) |
|---|---|---|---|
| SWE-agent-LM-7B | 7B | SWE-agent | 15.2 |
| SWE-Mirror-LM-7B | 7B | OpenHands | 22.8 |
| SWE-gym-32B | 32B | OpenHands | 20.6 |
| Skywork-SWE-32B | 32B | OpenHands | 38.0 |
| DeepSWE-32B-Preview | 32B | OpenHands | 42.2 |
| SWE-Mirror-LM-32B | 32B | OpenHands | 52.2 |
| SWE-fixer-72B | 72B | SWE-Fixer | 32.8 |
| Lingma-SWE-GPT-72B | 72B | SWE-Syninfer | 32.8 |
| Klear-Agent-8B-SFT | 8B | mini-swe-agent-plus | 39.0 |
使用 🤗 Datasets 加载
from datasets import load_dataset
ds = load_dataset(
"Kwai-Klear/SWE-smith-mini_swe_agent_plus-trajectories-66k",
split="train"
)
print(ds)
print(ds[0].keys())