timesformer-hr-finetuned-k400:高分辨率时空注意力视频分类模型,Kinetics-400精细调优

基于TimeSformer的高分辨率变体,经Kinetics-400数据集精细调优,可对视频进行400类标签分类,助力视频理解任务。【此简介由AI生成】

分支1Tags0

license: "cc-by-nc-4.0" tags:

  • vision
  • video-classification

TimeSformer(高分辨率变体,基于 Kinetics-400 微调)

TimeSformer 模型基于 Kinetics-400 数据集预训练而成。该模型由 Tong 等人在论文 TimeSformer: Is Space-Time Attention All You Need for Video Understanding? 中提出,并首发于此代码库

免责声明:发布 TimeSformer 的团队未为此模型编写模型卡片,故本模型卡片由 fcakyon 撰写。

用途与限制

您可以使用该原始模型将视频分类为 Kinetics-400 数据集中 400 个可能的类别之一。

使用方法

以下展示如何使用该模型对视频进行分类:

from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(16, 3, 448, 448))

processor = AutoImageProcessor.from_pretrained("fcakyon/timesformer-hr-finetuned-k400")
model = TimesformerForVideoClassification.from_pretrained("fcakyon/timesformer-hr-finetuned-k400")

inputs = processor(images=video, return_tensors="pt")

with torch.no_grad():
  outputs = model(**inputs)
  logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

更多代码示例,请参阅文档

BibTeX 条目与引用信息

@inproceedings{bertasius2021space,
  title={Is Space-Time Attention All You Need for Video Understanding?},
  author={Bertasius, Gedas and Wang, Heng and Torresani, Lorenzo},
  booktitle={International Conference on Machine Learning},
  pages={813--824},
  year={2021},
  organization={PMLR}
}

项目介绍

基于TimeSformer的高分辨率变体,经Kinetics-400数据集精细调优,可对视频进行400类标签分类,助力视频理解任务。【此简介由AI生成】

定制我的领域

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新