ast-finetuned-audioset-10-10-0.4593:基于AudioSet微调的音频频谱Transformer模型

将音频转换为频谱图后应用Vision Transformer,在多个音频分类基准上实现最先进结果,可用于AudioSet类别音频分类。【此简介由AI生成】

分支1Tags0
文件最后提交记录最后更新时间
initial commit3 年前
Update README.md3 年前
Update config.json3 年前
Adding safetensors variant of this model (#5) - Adding safetensors variant of this model (e1dc486f4fb3b5ec51a4476e30e5e30b2dafc099) Co-authored-by: Safetensors convertbot <SFconvertbot@users.noreply.huggingface.co> 2 年前
Upload feature extractor3 年前
Upload ASTForSequenceClassification3 年前

license: bsd-3-clause tags:

  • audio-classification

音频频谱图转换器(在 AudioSet 上微调)

音频频谱图转换器(AST)模型在 AudioSet 上进行了微调。它由 Gong 等人在论文《AST: Audio Spectrogram Transformer》中提出,并首次在此仓库中发布。

免责声明:发布音频频谱图转换器的团队未为此模型撰写模型卡片,因此本模型卡片由 Hugging Face 团队编写。

模型描述

音频频谱图转换器与 ViT 类似,但应用于音频领域。首先将音频转换为图像(作为频谱图),然后应用视觉转换器。该模型在多个音频分类基准测试中取得了最先进的结果。

用途

您可以使用原始模型将音频分类到 AudioSet 的某个类别中。更多信息请参见文档

项目介绍

将音频转换为频谱图后应用Vision Transformer,在多个音频分类基准上实现最先进结果,可用于AudioSet类别音频分类。【此简介由AI生成】

定制我的领域

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新