将音频转换为频谱图后应用Vision Transformer,在多个音频分类基准上实现最先进结果,可用于AudioSet类别音频分类。【此简介由AI生成】
以下内容由 AI 翻译,如有问题请 点此提交 issue 反馈
license: bsd-3-clause tags:
- audio-classification
音频频谱图转换器(在 AudioSet 上微调)
音频频谱图转换器(AST)模型在 AudioSet 上进行了微调。它由 Gong 等人在论文《AST: Audio Spectrogram Transformer》中提出,并首次在此仓库中发布。
免责声明:发布音频频谱图转换器的团队未为此模型撰写模型卡片,因此本模型卡片由 Hugging Face 团队编写。
模型描述
音频频谱图转换器与 ViT 类似,但应用于音频领域。首先将音频转换为图像(作为频谱图),然后应用视觉转换器。该模型在多个音频分类基准测试中取得了最先进的结果。
用途
您可以使用原始模型将音频分类到 AudioSet 的某个类别中。更多信息请参见文档。