Facebook的Wav2Vec2基础模型,仅在瑞典语上预训练,使用VoxPopuli语料库16.3k无标签数据,采样率16kHz,需创建分词器并微调以用于语音识别。【此简介由AI生成】
以下内容由 AI 翻译,如有问题请 点此提交 issue 反馈
language: sv tags:
- audio
- automatic-speech-recognition
- voxpopuli-v2 datasets:
- voxpopuli license: cc-by-nc-4.0 inference: false
Wav2Vec2-base-VoxPopuli-V2
Facebook的Wav2Vec2基础模型,仅基于瑞典语(sv) 并使用VoxPopuli语料库中16.3千小时的无标注数据进行预训练。
该模型采用16kHz采样的语音音频进行预训练。使用模型时,请确保输入的语音数据同样以16kHz频率采样。
注意:本模型未配备分词器,因其仅通过音频进行预训练。若要将该模型用于语音识别任务,需创建分词器并基于瑞典语(sv) 的标注文本数据进行微调。详细微调方法可参阅这篇技术博客获取进阶说明。
论文:VoxPopuli:用于表示学习、半监督学习与可解释性研究的大规模多语言语音语料库
作者:Changhan Wang, Morgane Riviere, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary Williamson, Juan Pino, Emmanuel Dupoux(来自Facebook AI)
更多信息请访问官方网站此处。