openharmony-datasets

暂无简介

公告

暂无公告

热门项目

开源MiniMind最终训练所用的所有数据集，因此无需再自行预处理大规模数据集，避免重复性的数据处理工作。

清理了40多种维基百科语言版本中对应实体的页面文本。数据集按语言分为训练、验证和测试集。通过页面过滤清除了歧义页、重定向页、删除页和非实体页。每个样本包含实体的wikidata id，以及经过处理去除非内容部分和结构化对象后的完整维基百科文章。

test_dataset

测试数据集描述

code_generation

LiveCodeBench 是一个“实时”更新的基准，用于全面评估 LLMs 的代码相关能力。特别是，它评估了 LLMs 在代码生成、自我修复、测试输出预测和代码执行等一系列能力上的表现。这是 LiveCodeBench 的代码生成场景。它也用于使用测试用例反馈来评估自我修复能力。

3DHuman_synthetic_dataset

本数据集为生成式3D人物模型数据集，包含所有3D模型均由通用3D人物框架生成得到，支持自动绑定驱动。

code_generation_lite

LiveCodeBench 是一个“实时”更新的基准测试，用于全面评估 LLMs 的代码相关能力。特别地，它评估了 LLMs 在一系列能力上的表现，包括代码生成、自我修复、测试输出预测和代码执行。这是 LiveCodeBench 的代码生成场景。它还用于通过测试用例反馈评估自我修复。

Python

项目展示

查看全部项目 >

hugging-face-datasets
one-line dataloaders for many public datasets: one-liners to download and pre-process any of the major public datasets (image datasets, audio datasets, text datasets in 467 languages and dialects, etc.) provided on the HuggingFace Datasets Hub. With a simple command like squad_dataset = load_dataset("rajpurkar/squad"), get any of these datasets ready to use in a dataloader for training/evaluating a ML model (Numpy/Pandas/PyTorch/TensorFlow/JAX), efficient data pre-processing: simple, fast and reproducible data pre-processing for the public datasets as well as your own local datasets in CSV, JSON, text, PNG, JPEG, WAV, MP3, Parquet, etc. With simple commands like processed_dataset = dataset.map(process_example), efficiently prepare the dataset for inspection and ML model evaluation and training.
Python
0
0
0
0
Apache-2.0
更新于 2025年6月23日
Star
test_dataset
测试数据集描述
0
0
0
0
更新于 8 天前
Like
minimind_dataset
开源MiniMind最终训练所用的所有数据集，因此无需再自行预处理大规模数据集，避免重复性的数据处理工作。
1
0
0
0
更新于 2025年9月11日
Like
3DHuman_synthetic_dataset
本数据集为生成式3D人物模型数据集，包含所有3D模型均由通用3D人物框架生成得到，支持自动绑定驱动。
0
0
0
0
更新于 2025年9月11日
Like
google-wiki40b
清理了40多种维基百科语言版本中对应实体的页面文本。数据集按语言分为训练、验证和测试集。通过页面过滤清除了歧义页、重定向页、删除页和非实体页。每个样本包含实体的wikidata id，以及经过处理去除非内容部分和结构化对象后的完整维基百科文章。
1
0
0
0
更新于 2025年9月15日
Like
test
test
0
0
0
0
更新于 2025年9月10日
Like
code_generation_lite
LiveCodeBench 是一个“实时”更新的基准测试，用于全面评估 LLMs 的代码相关能力。特别地，它评估了 LLMs 在一系列能力上的表现，包括代码生成、自我修复、测试输出预测和代码执行。这是 LiveCodeBench 的代码生成场景。它还用于通过测试用例反馈评估自我修复。
Python
0
0
0
0
更新于 2025年9月11日
Like
NuminaMath-CoT
Approximately 860k math problems, where each solution is formatted in a Chain of Thought (CoT) manner. The sources of the dataset range from Chinese high school math exercises to US and international mathematics olympiad competition problems.
0
0
0
0
更新于 2025年9月11日
Like
code_generation
LiveCodeBench 是一个“实时”更新的基准，用于全面评估 LLMs 的代码相关能力。特别是，它评估了 LLMs 在代码生成、自我修复、测试输出预测和代码执行等一系列能力上的表现。这是 LiveCodeBench 的代码生成场景。它也用于使用测试用例反馈来评估自我修复能力。
0
0
0
0
更新于 2025年9月11日
Like

查看全部项目 >

公告

暂无公告

成就

Star

Fork

1.13k

Download

项目

Issue

常用语言

Python

Makefile