通过潜在一致性蒸馏方法优化,可从单张图像生成表面法线图,支持1-4步快速推理,适用于野外场景零样本图像分析任务。【此简介由AI生成】
以下内容由 AI 翻译,如有问题请 点此提交 issue 反馈
language:
- en license: apache-2.0 pipeline_tag: image-to-image library_name: diffusers tags:
- normals estimation
- latent consistency model
- image analysis
- computer vision
- in-the-wild
- zero-shot new_version: prs-eth/marigold-normals-v1-1
Marigold Normals LCM v0-1 模型卡
此模型已弃用。请使用新版 Marigold Normals v1-1 模型。
新版:Marigold Normals v1-1 模型
本文档为 marigold-normals-lcm-v0-1 模型的说明卡,该模型用于从单张图像进行单目法线估计。
该模型基于 marigold-normals-v0-1 模型
通过潜在一致性蒸馏方法微调而成,相关技术细节详见我们的论文:
- CVPR'2024 论文 《Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation》
- 期刊扩展版 《Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis》
如何使用该模型
- 体验交互式 Hugging Face Spaces 演示:查看模型如何处理示例图像或上传您自己的图像。
- 结合 diffusers 使用,仅需几行代码即可计算结果。
- 通过我们的 官方代码库 深入了解实现细节。
模型详情
- 开发团队: Bingxin Ke、Kevin Qu、Tianfu Wang、Nando Metzger、Shengyu Huang、Bo Li、Anton Obukhov、Konrad Schindler。
- 模型类型: 基于生成式潜在扩散的单图像法线估计模型。
- 语言: 英文。
- 许可证: Apache 许可证 2.0 版。
- 模型描述: 该模型可用于生成输入图像的表面法线估计图。
- 分辨率: 虽然可处理任意分辨率,但模型继承了基础扩散模型约 768 像素的有效分辨率。 这意味着为获得最佳预测效果,任何较大输入图像在输入模型前应调整尺寸,使较长边保持为 768 像素。
- 步数与调度器: 本模型专为配合 LCM 调度器使用而设计,建议去噪步数介于 1 到 4 步。
- 输出内容:
- 表面法线图: 预测值为屏幕空间坐标系中的三维单位向量。
- 不确定性图: 仅当集成预测次数大于 2 时生成。
- 更多信息参考: 项目网站、论文、代码库。
- 引用格式:
@misc{ke2025marigold,
title={Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis},
author={Bingxin Ke and Kevin Qu and Tianfu Wang and Nando Metzger and Shengyu Huang and Bo Li and Anton Obukhov and Konrad Schindler},
year={2025},
eprint={2505.09358},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
@InProceedings{ke2023repurposing,
title={Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation},
author={Bingxin Ke and Anton Obukhov and Shengyu Huang and Nando Metzger and Rodrigo Caye Daudt and Konrad Schindler},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2024}
}