基于TimeSformer的高分辨率变体,经Kinetics-400数据集精细调优,可对视频进行400类标签分类,助力视频理解任务。【此简介由AI生成】
以下内容由 AI 翻译,如有问题请 点此提交 issue 反馈
license: "cc-by-nc-4.0" tags:
- vision
- video-classification
TimeSformer(高分辨率变体,基于 Kinetics-400 微调)
TimeSformer 模型基于 Kinetics-400 数据集预训练而成。该模型由 Tong 等人在论文 TimeSformer: Is Space-Time Attention All You Need for Video Understanding? 中提出,并首发于此代码库。
免责声明:发布 TimeSformer 的团队未为此模型编写模型卡片,故本模型卡片由 fcakyon 撰写。
用途与限制
您可以使用该原始模型将视频分类为 Kinetics-400 数据集中 400 个可能的类别之一。
使用方法
以下展示如何使用该模型对视频进行分类:
from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch
video = list(np.random.randn(16, 3, 448, 448))
processor = AutoImageProcessor.from_pretrained("fcakyon/timesformer-hr-finetuned-k400")
model = TimesformerForVideoClassification.from_pretrained("fcakyon/timesformer-hr-finetuned-k400")
inputs = processor(images=video, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
更多代码示例,请参阅文档。
BibTeX 条目与引用信息
@inproceedings{bertasius2021space,
title={Is Space-Time Attention All You Need for Video Understanding?},
author={Bertasius, Gedas and Wang, Heng and Torresani, Lorenzo},
booktitle={International Conference on Machine Learning},
pages={813--824},
year={2021},
organization={PMLR}
}