ast-finetuned-audioset-14-14-0.443:基于AudioSet微调的音频频谱Transformer模型

将音频转换为频谱图后应用Vision Transformer,在多个音频分类基准上实现最先进结果,可用于AudioSet类别音频分类。【此简介由AI生成】

分支2Tags0
文件最后提交记录最后更新时间
initial commit3 年前
Create README.md3 年前
Update config.json3 年前
Adding safetensors variant of this model (#1) - Adding safetensors variant of this model (b30eed07be9380fcc8db4bbce2b57ef0886ffed6) Co-authored-by: Safetensors convertbot <SFconvertbot@users.noreply.huggingface.co> 2 年前
Upload feature extractor3 年前
Upload ASTForSequenceClassification3 年前

license: bsd-3-clause tags:

  • audio-classification

音频频谱变换器(基于AudioSet微调)

本模型为基于AudioSet数据集微调的音频频谱变换器(AST)。该模型由Gong等人在论文AST: Audio Spectrogram Transformer中首次提出,并发布于此代码库

免责声明:Audio Spectrogram Transformer的研发团队未提供本模型的模型卡片,本文档由Hugging Face团队编写。

模型描述

音频频谱变换器与ViT架构等效,但应用于音频领域。其工作原理是先将音频转换为频谱图形式的图像表示,再采用视觉变换器进行处理。该模型在多个音频分类基准测试中取得了最先进的性能表现。

使用方式

您可以直接使用本模型对音频进行AudioSet类别分类。更多信息请参阅官方文档

项目介绍

将音频转换为频谱图后应用Vision Transformer,在多个音频分类基准上实现最先进结果,可用于AudioSet类别音频分类。【此简介由AI生成】

定制我的领域

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新