包含超3000万条英语音频样本（超78000小时），源自Emilia-YODAS英语子集，经NeuCodec压缩，适用于语音编码与音频压缩研究。【此简介由AI生成】

CCherrytestUpload folder using ModelScope SDK (batch 1/1)

d6026de4创建于 2025年10月9日3次提交

文件	最后提交记录	最后更新时间
data	Upload folder using ModelScope SDK (batch 1/1)	7 个月前
.gitattributes	Upload folder using ModelScope SDK (batch 1/1)	7 个月前
README.md	Upload folder using ModelScope SDK (batch 1/1)	7 个月前

自动翻译

language:

en license:
cc-by-4.0 multilinguality:
monolingual size_categories:
10M<n<100M source_datasets:
amphion/Emilia-YODAS pretty_name: NeuCodec Emilia-YODAS tags:
speech
codec
audio
FSQ
audio-compression dataset_info: features:
- name: _id dtype: string
- name: dnsmos dtype: float64
- name: duration dtype: float64
- name: language dtype: string
- name: phone_count dtype: int64
- name: speaker dtype: string
- name: text dtype: string
- name: codes sequence: int64 splits:
- name: train num_bytes: 120073409108 num_examples: 30592309 download_size: 41111605599 dataset_size: 120073409108 configs:
config_name: default data_files:
- split: train path: data/train-*

NeuCodec Emilia-YODAS 数据集卡片

数据集描述

代码库： NeuCodec 代码库
论文： 即将发布

数据集摘要

NeuCodec Emilia-YODAS 数据集是一个英语语言数据集，包含超过 3000 万条音频样本（超过 78000 小时），这些样本取自 Emilia-YODAS 的英语子集，并使用 NeuCodec 进行了压缩。

使用方法

import torch
from datasets import load_dataset
from neucodec import NeuCodec

# load dataset and model
dataset = load_dataset("neuphonic/emilia-yodas-english-neucodec", split="train", streaming=True)
model = NeuCodec.from_pretrained("neuphonic/neucodec")
model.eval()

# reconstruct a sample
fsq_codes = torch.tensor(next(iter(dataset))["codes"])[None, None, :]
print(f"FSQ codes shape: {fsq_codes.shape}")
recon = model.decode_code(fsq_codes)
print(f"Recon shape: {recon.shape}")

数据集结构

数据实例

每个实例均保留了来自 Emilia-YODAS 数据集的对应信息。包含 id、dnsmos、duration、phone_count、speaker、text 和 codes 列。

{'id': 'EN_9eylmAUb-SQ_W000139',
 'dnsmos': 3.0064,
 'duration': 5.67,
 'phone_count': 102,
 'speaker': 'EN_9eylmAUb-SQ_SPEAKER_00',
 'text': 'In the Soviet Union during the 1920s, Yiddish...',
 'codes': [3254, 49895, 26484, 869, 23077, 27555, 20391,...]}

每个 Parquet 文件大小约为 200 MB，共有 241 个 Parquet 文件。每个码序列旨在与我们的 NeuCodec 解码器配合使用，该解码器目前支持 24 kHz 的输出采样率。

数据字段

id：字符串类型，包含来自 Emilia-YODAS 的对应 ID
dnsmos：浮点型，包含来自 Emilia-YODAS 的 DNSMOS 分数
duration：浮点型，包含来自 Emilia-YODAS 的样本时长
phone_count：整数型，来自 Emilia-YODAS 的样本中包含的音素数量
speaker：字符串类型，包含来自 Emilia-YODAS 的对应说话人信息
text：字符串类型，包含 utterance 文本
codes：列表类型，包含作为 NeuCodec 码的压缩音频片段

数据集创建

源数据

数据来源于 Emilia-YODAS

其他信息

许可信息

NeuCodec Emilia-YODAS 数据集以 CC-BY-4.0 许可协议发布。

引用信息

即将推出

项目介绍