emilia-yodas-english-neucodec:超3000万英语音频样本的NeuCodec压缩数据集

包含超3000万条英语音频样本(超78000小时),源自Emilia-YODAS英语子集,经NeuCodec压缩,适用于语音编码与音频压缩研究。【此简介由AI生成】

分支1Tags0

language:

  • en license:
  • cc-by-4.0 multilinguality:
  • monolingual size_categories:
  • 10M<n<100M source_datasets:
  • amphion/Emilia-YODAS pretty_name: NeuCodec Emilia-YODAS tags:
  • speech
  • codec
  • audio
  • FSQ
  • audio-compression dataset_info: features:
    • name: _id dtype: string
    • name: dnsmos dtype: float64
    • name: duration dtype: float64
    • name: language dtype: string
    • name: phone_count dtype: int64
    • name: speaker dtype: string
    • name: text dtype: string
    • name: codes sequence: int64 splits:
    • name: train num_bytes: 120073409108 num_examples: 30592309 download_size: 41111605599 dataset_size: 120073409108 configs:
  • config_name: default data_files:
    • split: train path: data/train-*

NeuCodec Emilia-YODAS 数据集卡片

数据集描述

数据集摘要

NeuCodec Emilia-YODAS 数据集是一个英语语言数据集,包含超过 3000 万条音频样本(超过 78000 小时),这些样本取自 Emilia-YODAS 的英语子集,并使用 NeuCodec 进行了压缩。

使用方法

import torch
from datasets import load_dataset
from neucodec import NeuCodec

# load dataset and model
dataset = load_dataset("neuphonic/emilia-yodas-english-neucodec", split="train", streaming=True)
model = NeuCodec.from_pretrained("neuphonic/neucodec")
model.eval()

# reconstruct a sample
fsq_codes = torch.tensor(next(iter(dataset))["codes"])[None, None, :]
print(f"FSQ codes shape: {fsq_codes.shape}")
recon = model.decode_code(fsq_codes)
print(f"Recon shape: {recon.shape}")

数据集结构

数据实例

每个实例均保留了来自 Emilia-YODAS 数据集的对应信息。包含 id、dnsmos、duration、phone_count、speaker、text 和 codes 列。

{'id': 'EN_9eylmAUb-SQ_W000139',
 'dnsmos': 3.0064,
 'duration': 5.67,
 'phone_count': 102,
 'speaker': 'EN_9eylmAUb-SQ_SPEAKER_00',
 'text': 'In the Soviet Union during the 1920s, Yiddish...',
 'codes': [3254, 49895, 26484, 869, 23077, 27555, 20391,...]}

每个 Parquet 文件大小约为 200 MB,共有 241 个 Parquet 文件。每个码序列旨在与我们的 NeuCodec 解码器配合使用,该解码器目前支持 24 kHz 的输出采样率。

数据字段

  • id:字符串类型,包含来自 Emilia-YODAS 的对应 ID
  • dnsmos:浮点型,包含来自 Emilia-YODAS 的 DNSMOS 分数
  • duration:浮点型,包含来自 Emilia-YODAS 的样本时长
  • phone_count:整数型,来自 Emilia-YODAS 的样本中包含的音素数量
  • speaker:字符串类型,包含来自 Emilia-YODAS 的对应说话人信息
  • text:字符串类型,包含 utterance 文本
  • codes:列表类型,包含作为 NeuCodec 码的压缩音频片段

数据集创建

源数据

数据来源于 Emilia-YODAS

其他信息

许可信息

NeuCodec Emilia-YODAS 数据集以 CC-BY-4.0 许可协议发布。

引用信息

即将推出

项目介绍

包含超3000万条英语音频样本(超78000小时),源自Emilia-YODAS英语子集,经NeuCodec压缩,适用于语音编码与音频压缩研究。【此简介由AI生成】

定制我的领域

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新