SWE-smith-mini_swe_agent_plus-trajectories-66k:66k代码问题解决轨迹数据集，助力提升SWE-bench表现

包含约66k个基于SWE-smith的问题解决轨迹，记录代理端到端处理过程。训练的Klear-Agent-8B显著优于同类8B模型，匹配部分32B系统，SWE-bench Verified解决率达39.0%。【此简介由AI生成】

750b2c11创建于 2025年11月6日10次提交

文件	最后提交记录	最后更新时间
data	Upload dataset	6 个月前
.gitattributes	initial commit	6 个月前
README.md	Update README.md	6 个月前
swe_bench_scaling_grid.svg	Upload swe_bench_scaling_grid.svg	6 个月前

自动翻译

license: mit dataset_info: features:

name: instance_id dtype: string
name: messages list:
- name: content dtype: string
- name: role dtype: string splits:
name: train num_bytes: 4644348713 num_examples: 65994 download_size: 1579055064 dataset_size: 4644348713 configs:
config_name: default data_files:
- split: train path: data/train-*

数据集：SWE-smith-mini_swe_agent_plus-trajectories-66k

一个包含约66k个问题解决轨迹的语料库，这些轨迹是使用mini-swe-agent-plus在源自SWE-smith的问题上收集的。每条轨迹都记录了智能体的端到端处理过程。

SWE-bench scaling grid

我们使用不同规模的训练数据对Qwen3-8B模型进行了训练。结果如图所示，可以观察到在SWE-bench Verified上的解决率随着数据规模的对数（1k → 66k轨迹）近似线性提升。Klear-Agent-8B（使用mini-swe-agent-plus在本数据集上训练）显著优于其他约8B模型，并与多个开源32B系统性能相当。

方法/模型	参数规模	智能体框架	SWE-bench Verified（%）
SWE-agent-LM-7B	7B	SWE-agent	15.2
SWE-Mirror-LM-7B	7B	OpenHands	22.8
SWE-gym-32B	32B	OpenHands	20.6
Skywork-SWE-32B	32B	OpenHands	38.0
DeepSWE-32B-Preview	32B	OpenHands	42.2
SWE-Mirror-LM-32B	32B	OpenHands	52.2
SWE-fixer-72B	72B	SWE-Fixer	32.8
Lingma-SWE-GPT-72B	72B	SWE-Syninfer	32.8
Klear-Agent-8B-SFT	8B	mini-swe-agent-plus	39.0

使用 🤗 Datasets 加载

from datasets import load_dataset

ds = load_dataset(
    "Kwai-Klear/SWE-smith-mini_swe_agent_plus-trajectories-66k",
    split="train"
)
print(ds)
print(ds[0].keys())

项目介绍

下载使用量

项目总下载次数（含Clone、Pull、 zip 包及 release 下载），每日凌晨更新

数据集：SWE-smith-mini_swe_agent_plus-trajectories-66k

使用 🤗 Datasets 加载

项目介绍

下载使用量

目录