text-2-video-human-preferences-veo3.1:视频生成模型人类偏好数据集,含对齐、连贯性和美学评分

包含约74k人类反馈数据,来自23k标注者,用于评估视频生成模型的对齐度、连贯性及美学偏好,支持大规模数据标注与模型优化。【此简介由AI生成】

分支1Tags0
5d9fb3e4创建于 2025年11月6日9次提交
文件最后提交记录最后更新时间
Upload dataset6 个月前
Upload 79 files6 个月前
initial commit6 个月前
Update README.md6 个月前

language:

  • en license: apache-2.0 size_categories:
  • 1K<n<10K task_categories:
  • video-classification
  • text-to-video
  • text-classification pretty_name: Veo 3.1 Human Preferences dataset_info: features:
    • name: prompt dtype: string
    • name: video1 dtype: string
    • name: video2 dtype: string
    • name: weighted_results1_Alignment dtype: float64
    • name: weighted_results2_Alignment dtype: float64
    • name: detailedResults_Alignment list:
      • name: userDetails struct:
        • name: age dtype: string
        • name: country dtype: string
        • name: gender dtype: string
        • name: language dtype: string
        • name: occupation dtype: string
        • name: userScores struct:
          • name: global dtype: float64
      • name: votedFor dtype: string
    • name: weighted_results1_Coherence dtype: float64
    • name: weighted_results2_Coherence dtype: float64
    • name: detailedResults_Coherence list:
      • name: userDetails struct:
        • name: age dtype: string
        • name: country dtype: string
        • name: gender dtype: string
        • name: language dtype: string
        • name: occupation dtype: string
        • name: userScores struct:
          • name: global dtype: float64
      • name: votedFor dtype: string
    • name: weighted_results1_Preference dtype: float64
    • name: weighted_results2_Preference dtype: float64
    • name: detailedResults_Preference list:
      • name: userDetails struct:
        • name: age dtype: string
        • name: country dtype: string
        • name: gender dtype: string
        • name: language dtype: string
        • name: occupation dtype: string
        • name: userScores struct:
          • name: global dtype: float64
      • name: votedFor dtype: string
    • name: file_name1 dtype: string
    • name: file_name2 dtype: string
    • name: model1 dtype: string
    • name: model2 dtype: string splits:
    • name: train num_bytes: 6227078 num_examples: 1643 download_size: 660798 dataset_size: 6227078 configs:
  • config_name: default data_files:
    • split: train path: data/train-* tags:
  • videos
  • t2v
  • text-2-video
  • text2video
  • text-to-video
  • human
  • annotations
  • preferences
  • likert
  • coherence
  • alignment
  • wan
  • wan 2.1
  • veo2
  • veo
  • pikka
  • alpha
  • sora
  • hunyuan
  • veo3
  • mochi-1
  • seedance-1-pro
  • seedance
  • seedance 1
  • Marey
  • moonvalley
  • sora2
  • openai
  • veo 3.1

Rapidata 视频生成 Veo 3.1 人类偏好

Dataset visualization

本数据集中,我们收集了来自约 23k 名人类标注员的约 74k 条人类反馈,用于在我们的基准测试中评估 Veo 3.1 视频生成模型。该数据集是使用 Rapidata Python API 收集的,任何人都可以访问,非常适合大规模数据标注。

在我们的 网站 上探索我们最新的模型排名。

如果您从这个数据集中获得了价值,并希望未来看到更多类似内容,请考虑点赞 ❤️

概述

本数据集中,我们收集了来自约 23k 名人类标注员的约 74k 条人类反馈,用于在我们的基准测试中评估 Veo 3.1 视频生成模型。使用 Rapidata Python API 收集此数据集大约花费了 30 分钟,该 API 任何人都可以访问,非常适合大规模数据标注。 基准测试数据可直接在 huggingface 上获取。

列说明

该数据集包含成对的视频比较。每个条目都包含 'video1' 和 'video2' 字段,其中包含用于便捷查看的降分辨率 GIF 链接。全分辨率视频可在 此处 找到。

weighted_results 列包含 0 到 1 之间的分数,表示聚合的用户反馈。 individual user responses 可在 detailedResults 列中找到。

对齐度

对齐度评分用于量化视频与提示词的匹配程度。我们向用户提出的问题是:“哪个视频更符合描述?”

示例

一场3D动画之旅,穿越一片魔法森林,树木散发着霓虹光芒,神秘生物在其间漫步。摄像机在发光的植物和闪烁的溪流之间穿梭,背景是暮色天空。

Veo 3.1

(评分:80.78%)

Mochi 1

(评分:19.22%)
超写实视角下,一辆摩托车在夜晚霓虹闪烁的城市中飞驰,灯光倒映在潮湿的街道上。摄像机紧紧跟随,记录下骑手倾斜车身驶过急转弯的瞬间,捕捉速度与敏捷的动感。

Veo 3.1

(评分:29.62%)

Veo 3

(评分:70.37%)

连贯性

连贯性评分用于衡量生成视频的逻辑一致性,以及是否存在伪影或视觉瑕疵。在不查看原始提示词的情况下,我们向用户提出的问题是:“哪个视频的瑕疵更多,更像是AI生成的?”

示例

Veo 3.1

(失真评分:31.24%)
Dataset visualization

Veo 2

(失真评分:68.76%)
Dataset visualization

Veo 3.1

(失真评分:82.31%)
Dataset visualization

Marey

(失真评分:17.69%)
Dataset visualization

偏好度

偏好度评分反映了参与者对每个视频的视觉吸引力评价,与提示词无关。用户被问及:“从美学角度,你更喜欢哪个视频?”

示例

Veo 3.1

(评分:64.23%)
Dataset visualization

Veo 2

(评分:35.77%)
Dataset visualization

Veo 3.1

(评分:22.76%)
Dataset visualization

Kling v2.1

(评分:77.24%)
Dataset visualization

关于Rapidata

Rapidata的技术让大规模收集人类反馈比以往任何时候都更加快速和便捷。访问rapidata.ai,了解我们如何为AI开发革新人类反馈收集方式。

其他数据集

我们对主流视频生成模型进行了基准测试,测试结果可在我们的网站上查看。我们根据模型的连贯性/合理性、与给定提示的对齐度以及风格偏好对其进行排名。相关的200多万条标注可在以下位置获取:

项目介绍

包含约74k人类反馈数据,来自23k标注者,用于评估视频生成模型的对齐度、连贯性及美学偏好,支持大规模数据标注与模型优化。【此简介由AI生成】

定制我的领域

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新