将音频转换为频谱图后应用Vision Transformer,在多个音频分类基准上实现最先进结果,可用于AudioSet类别音频分类。【此简介由AI生成】
以下内容由 AI 翻译,如有问题请 点此提交 issue 反馈
license: bsd-3-clause tags:
- audio-classification
音频频谱变换器(基于AudioSet微调)
本模型为基于AudioSet数据集微调的音频频谱变换器(AST)。该模型由Gong等人在论文AST: Audio Spectrogram Transformer中首次提出,并发布于此代码库。
免责声明:Audio Spectrogram Transformer的研发团队未提供本模型的模型卡片,本文档由Hugging Face团队编写。
模型描述
音频频谱变换器与ViT架构等效,但应用于音频领域。其工作原理是先将音频转换为频谱图形式的图像表示,再采用视觉变换器进行处理。该模型在多个音频分类基准测试中取得了最先进的性能表现。
使用方式
您可以直接使用本模型对音频进行AudioSet类别分类。更多信息请参阅官方文档。