SWE-smith-mini_swe_agent_plus-trajectories-66k:66k代码问题解决轨迹数据集,助力提升SWE-bench表现

包含约66k个基于SWE-smith的问题解决轨迹,记录代理端到端处理过程。训练的Klear-Agent-8B显著优于同类8B模型,匹配部分32B系统,SWE-bench Verified解决率达39.0%。【此简介由AI生成】

分支1Tags0
750b2c11创建于 2025年11月6日10次提交

license: mit dataset_info: features:

  • name: instance_id dtype: string
  • name: messages list:
    • name: content dtype: string
    • name: role dtype: string splits:
  • name: train num_bytes: 4644348713 num_examples: 65994 download_size: 1579055064 dataset_size: 4644348713 configs:
  • config_name: default data_files:
    • split: train path: data/train-*

数据集:SWE-smith-mini_swe_agent_plus-trajectories-66k

GitHub - mini-swe-agent-plus Hugging Face - Dataset Hugging Face - Model

一个包含约66k个问题解决轨迹的语料库,这些轨迹是使用mini-swe-agent-plus在源自SWE-smith的问题上收集的。每条轨迹都记录了智能体的端到端处理过程。

SWE-bench scaling grid

我们使用不同规模的训练数据对Qwen3-8B模型进行了训练。结果如图所示,可以观察到在SWE-bench Verified上的解决率随着数据规模的对数(1k → 66k轨迹)近似线性提升。Klear-Agent-8B(使用mini-swe-agent-plus在本数据集上训练)显著优于其他约8B模型,并与多个开源32B系统性能相当。

方法/模型 参数规模 智能体框架 SWE-bench Verified(%)
SWE-agent-LM-7B 7B SWE-agent 15.2
SWE-Mirror-LM-7B 7B OpenHands 22.8
SWE-gym-32B 32B OpenHands 20.6
Skywork-SWE-32B 32B OpenHands 38.0
DeepSWE-32B-Preview 32B OpenHands 42.2
SWE-Mirror-LM-32B 32B OpenHands 52.2
SWE-fixer-72B 72B SWE-Fixer 32.8
Lingma-SWE-GPT-72B 72B SWE-Syninfer 32.8
Klear-Agent-8B-SFT 8B mini-swe-agent-plus 39.0

使用 🤗 Datasets 加载

from datasets import load_dataset

ds = load_dataset(
    "Kwai-Klear/SWE-smith-mini_swe_agent_plus-trajectories-66k",
    split="train"
)
print(ds)
print(ds[0].keys())

项目介绍

包含约66k个基于SWE-smith的问题解决轨迹,记录代理端到端处理过程。训练的Klear-Agent-8B显著优于同类8B模型,匹配部分32B系统,SWE-bench Verified解决率达39.0%。【此简介由AI生成】

定制我的领域

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新