包含超3000万条英语音频样本(超78000小时),源自Emilia-YODAS英语子集,经NeuCodec压缩,适用于语音编码与音频压缩研究。【此简介由AI生成】
以下内容由 AI 翻译,如有问题请 点此提交 issue 反馈
language:
- en license:
- cc-by-4.0 multilinguality:
- monolingual size_categories:
- 10M<n<100M source_datasets:
- amphion/Emilia-YODAS pretty_name: NeuCodec Emilia-YODAS tags:
- speech
- codec
- audio
- FSQ
- audio-compression
dataset_info:
features:
- name: _id dtype: string
- name: dnsmos dtype: float64
- name: duration dtype: float64
- name: language dtype: string
- name: phone_count dtype: int64
- name: speaker dtype: string
- name: text dtype: string
- name: codes sequence: int64 splits:
- name: train num_bytes: 120073409108 num_examples: 30592309 download_size: 41111605599 dataset_size: 120073409108 configs:
- config_name: default
data_files:
- split: train path: data/train-*
NeuCodec Emilia-YODAS 数据集卡片
数据集描述
- 代码库: NeuCodec 代码库
- 论文: 即将发布
数据集摘要
NeuCodec Emilia-YODAS 数据集是一个英语语言数据集,包含超过 3000 万条音频样本(超过 78000 小时),这些样本取自 Emilia-YODAS 的英语子集,并使用 NeuCodec 进行了压缩。
使用方法
import torch
from datasets import load_dataset
from neucodec import NeuCodec
# load dataset and model
dataset = load_dataset("neuphonic/emilia-yodas-english-neucodec", split="train", streaming=True)
model = NeuCodec.from_pretrained("neuphonic/neucodec")
model.eval()
# reconstruct a sample
fsq_codes = torch.tensor(next(iter(dataset))["codes"])[None, None, :]
print(f"FSQ codes shape: {fsq_codes.shape}")
recon = model.decode_code(fsq_codes)
print(f"Recon shape: {recon.shape}")
数据集结构
数据实例
每个实例均保留了来自 Emilia-YODAS 数据集的对应信息。包含 id、dnsmos、duration、phone_count、speaker、text 和 codes 列。
{'id': 'EN_9eylmAUb-SQ_W000139',
'dnsmos': 3.0064,
'duration': 5.67,
'phone_count': 102,
'speaker': 'EN_9eylmAUb-SQ_SPEAKER_00',
'text': 'In the Soviet Union during the 1920s, Yiddish...',
'codes': [3254, 49895, 26484, 869, 23077, 27555, 20391,...]}
每个 Parquet 文件大小约为 200 MB,共有 241 个 Parquet 文件。每个码序列旨在与我们的 NeuCodec 解码器配合使用,该解码器目前支持 24 kHz 的输出采样率。
数据字段
id:字符串类型,包含来自 Emilia-YODAS 的对应 IDdnsmos:浮点型,包含来自 Emilia-YODAS 的 DNSMOS 分数duration:浮点型,包含来自 Emilia-YODAS 的样本时长phone_count:整数型,来自 Emilia-YODAS 的样本中包含的音素数量speaker:字符串类型,包含来自 Emilia-YODAS 的对应说话人信息text:字符串类型,包含 utterance 文本codes:列表类型,包含作为 NeuCodec 码的压缩音频片段
数据集创建
源数据
数据来源于 Emilia-YODAS
其他信息
许可信息
NeuCodec Emilia-YODAS 数据集以 CC-BY-4.0 许可协议发布。
引用信息
即将推出