ast-finetuned-audioset-14-14-0.443:基于AudioSet微调的音频频谱Transformer模型

0

0

将音频转换为频谱图后应用Vision Transformer，在多个音频分类基准上实现最先进结果，可用于AudioSet类别音频分类。【此简介由AI生成】

SsystemAdding safetensors variant of this model (#1 )

b11a9849创建于 2024年4月17日8次提交

文件	最后提交记录	最后更新时间
.gitattributes	initial commit	3 年前
README.md	Create README.md	3 年前
config.json	Update config.json	3 年前
model.safetensorsLFS	Adding `safetensors` variant of this model (#1) - Adding `safetensors` variant of this model (b30eed07be9380fcc8db4bbce2b57ef0886ffed6) Co-authored-by: Safetensors convertbot <SFconvertbot@users.noreply.huggingface.co>	2 年前
preprocessor_config.json	Upload feature extractor	3 年前
pytorch_model.binLFS	Upload ASTForSequenceClassification	3 年前

自动翻译

license: bsd-3-clause tags:

audio-classification

音频频谱变换器（基于AudioSet微调）

本模型为基于AudioSet数据集微调的音频频谱变换器（AST）。该模型由Gong等人在论文AST: Audio Spectrogram Transformer中首次提出，并发布于此代码库。

免责声明：Audio Spectrogram Transformer的研发团队未提供本模型的模型卡片，本文档由Hugging Face团队编写。

模型描述

音频频谱变换器与ViT架构等效，但应用于音频领域。其工作原理是先将音频转换为频谱图形式的图像表示，再采用视觉变换器进行处理。该模型在多个音频分类基准测试中取得了最先进的性能表现。

使用方式

您可以直接使用本模型对音频进行AudioSet类别分类。更多信息请参阅官方文档。

项目介绍

将音频转换为频谱图后应用Vision Transformer，在多个音频分类基准上实现最先进结果，可用于AudioSet类别音频分类。【此简介由AI生成】

定制我的领域

下载使用量

0

项目总下载次数（含Clone、Pull、 zip 包及 release 下载），每日凌晨更新

目录

音频频谱变换器（基于AudioSet微调）