基于TimeSformer的高分辨率变体，经Kinetics-400数据集精细调优，可对视频进行400类标签分类，助力视频理解任务。【此简介由AI生成】

7b88c458创建于 2022年12月11日6次提交

文件	最后提交记录	最后更新时间
.gitattributes	initial commit	3 年前
README.md	Update README.md	3 年前
config.json	Upload TimesformerForVideoClassification	3 年前
preprocessor_config.json	Upload processor	3 年前
pytorch_model.binLFS	Upload TimesformerForVideoClassification	3 年前

自动翻译

license: "cc-by-nc-4.0" tags:

vision
video-classification

TimeSformer（高分辨率变体，基于 Kinetics-400 微调）

TimeSformer 模型基于 Kinetics-400 数据集预训练而成。该模型由 Tong 等人在论文 TimeSformer: Is Space-Time Attention All You Need for Video Understanding? 中提出，并首发于此代码库。

免责声明：发布 TimeSformer 的团队未为此模型编写模型卡片，故本模型卡片由 fcakyon 撰写。

用途与限制

您可以使用该原始模型将视频分类为 Kinetics-400 数据集中 400 个可能的类别之一。

使用方法

以下展示如何使用该模型对视频进行分类：

from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(16, 3, 448, 448))

processor = AutoImageProcessor.from_pretrained("fcakyon/timesformer-hr-finetuned-k400")
model = TimesformerForVideoClassification.from_pretrained("fcakyon/timesformer-hr-finetuned-k400")

inputs = processor(images=video, return_tensors="pt")

with torch.no_grad():
  outputs = model(**inputs)
  logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

更多代码示例，请参阅文档。

BibTeX 条目与引用信息

@inproceedings{bertasius2021space,
  title={Is Space-Time Attention All You Need for Video Understanding?},
  author={Bertasius, Gedas and Wang, Heng and Torresani, Lorenzo},
  booktitle={International Conference on Machine Learning},
  pages={813--824},
  year={2021},
  organization={PMLR}
}

项目介绍

基于TimeSformer的高分辨率变体，经Kinetics-400数据集精细调优，可对视频进行400类标签分类，助力视频理解任务。【此简介由AI生成】

下载使用量

项目总下载次数（含Clone、Pull、 zip 包及 release 下载），每日凌晨更新

timesformer-hr-finetuned-k400:高分辨率时空注意力视频分类模型，Kinetics-400精细调优