O

openharmony-datasets

暂无简介

公告
暂无公告
热门项目
1

开源MiniMind最终训练所用的所有数据集,因此无需再自行预处理大规模数据集,避免重复性的数据处理工作。

1
0
1

清理了40多种维基百科语言版本中对应实体的页面文本。数据集按语言分为训练、验证和测试集。通过页面过滤清除了歧义页、重定向页、删除页和非实体页。每个样本包含实体的wikidata id,以及经过处理去除非内容部分和结构化对象后的完整维基百科文章。

1
0
0

LiveCodeBench 是一个“实时”更新的基准,用于全面评估 LLMs 的代码相关能力。 特别是,它评估了 LLMs 在代码生成、自我修复、测试输出预测和代码执行等一系列能力上的表现。 这是 LiveCodeBench 的代码生成场景。它也用于使用测试用例反馈来评估自我修复能力。

0
0
0

本数据集为生成式3D人物模型数据集,包含所有3D模型均由通用3D人物框架生成得到,支持自动绑定驱动。

0
0
0

LiveCodeBench 是一个“实时”更新的基准测试,用于全面评估 LLMs 的代码相关能力。 特别地,它评估了 LLMs 在一系列能力上的表现,包括代码生成、自我修复、测试输出预测和代码执行。 这是 LiveCodeBench 的代码生成场景。它还用于通过测试用例反馈评估自我修复。

Python
0
0
  • one-line dataloaders for many public datasets: one-liners to download and pre-process any of the major public datasets (image datasets, audio datasets, text datasets in 467 languages and dialects, etc.) provided on the HuggingFace Datasets Hub. With a simple command like squad_dataset = load_dataset("rajpurkar/squad"), get any of these datasets ready to use in a dataloader for training/evaluating a ML model (Numpy/Pandas/PyTorch/TensorFlow/JAX), efficient data pre-processing: simple, fast and reproducible data pre-processing for the public datasets as well as your own local datasets in CSV, JSON, text, PNG, JPEG, WAV, MP3, Parquet, etc. With simple commands like processed_dataset = dataset.map(process_example), efficiently prepare the dataset for inspection and ML model evaluation and training.

    Python
    0
    0
    Apache-2.0
    更新于 2025年6月23日
    Star
  • 测试数据集描述

    0
    0
    更新于 8 天前
    Like
  • 开源MiniMind最终训练所用的所有数据集,因此无需再自行预处理大规模数据集,避免重复性的数据处理工作。

    1
    0
    更新于 2025年9月11日
    Like
  • 本数据集为生成式3D人物模型数据集,包含所有3D模型均由通用3D人物框架生成得到,支持自动绑定驱动。

    0
    0
    更新于 2025年9月11日
    Like
  • 清理了40多种维基百科语言版本中对应实体的页面文本。数据集按语言分为训练、验证和测试集。通过页面过滤清除了歧义页、重定向页、删除页和非实体页。每个样本包含实体的wikidata id,以及经过处理去除非内容部分和结构化对象后的完整维基百科文章。

    1
    0
    更新于 2025年9月15日
    Like
  • test

    0
    0
    更新于 2025年9月10日
    Like
  • LiveCodeBench 是一个“实时”更新的基准测试,用于全面评估 LLMs 的代码相关能力。 特别地,它评估了 LLMs 在一系列能力上的表现,包括代码生成、自我修复、测试输出预测和代码执行。 这是 LiveCodeBench 的代码生成场景。它还用于通过测试用例反馈评估自我修复。

    Python
    0
    0
    更新于 2025年9月11日
    Like
  • Approximately 860k math problems, where each solution is formatted in a Chain of Thought (CoT) manner. The sources of the dataset range from Chinese high school math exercises to US and international mathematics olympiad competition problems.

    0
    0
    更新于 2025年9月11日
    Like
  • LiveCodeBench 是一个“实时”更新的基准,用于全面评估 LLMs 的代码相关能力。 特别是,它评估了 LLMs 在代码生成、自我修复、测试输出预测和代码执行等一系列能力上的表现。 这是 LiveCodeBench 的代码生成场景。它也用于使用测试用例反馈来评估自我修复能力。

    0
    0
    更新于 2025年9月11日
    Like
查看全部项目 >
公告
暂无公告
成就
2
Star
0
Fork
1.13k
Download
常用语言
Python
Makefile