实验性DiT模型，基于Alpha-VLLM/Lumina-Image-2.0，采用Gemma-2-2b文本编码器，通过2200万图文对训练，旨在实现专注插画领域的小模型快速适配。【此简介由AI生成】

be78b4dd创建于 2025年4月23日5次提交

文件	最后提交记录	最后更新时间
.gitattributes	Upload Illustrious_Lumina_0.03_ema.safetensors	1 年前
Illustrious_Lumina_0.03_ema.safetensorsLFS	Upload Illustrious_Lumina_0.03_ema.safetensors	1 年前
Illustrious_Lumina_2b_22100_ema_unified_fp32.safetensorsLFS	Upload folder using ModelScope SDK	1 年前
README.md	Upload folder using ModelScope SDK	1 年前
configuration.json	Upload folder using ModelScope SDK	1 年前
consolidated.00-of-01.pthLFS	Upload folder using ModelScope SDK	1 年前
consolidated_ema.00-of-01.pthLFS	Upload folder using ModelScope SDK	1 年前
demo-proper.py	Upload folder using ModelScope SDK	1 年前
model_args.pthLFS	Upload folder using ModelScope SDK	1 年前

自动翻译

license: apache-2.0 base_model:

Illustrious-Lumina-v0.03

本模型基于 Alpha-VLLM/Lumina-Image-2.0 构建，这是一个功能完备的精简 DiT 模型！官方代码库请参阅：https://github.com/Alpha-VLLM/Lumina-Image-2.0
论文

在深入探讨「Illustrious-Lumina-v0.03」的细节之前，我们激动地宣布：您现在可以通过我们的官方站点 illustrious-xl.ai 直接使用 Illustrious XL 系列模型生成图像。

我们推出了完整的图像生成平台，支持高分辨率输出、自然语言提示词和自定义预设——此外还包含多个其他平台无法获取的独家模型。

最新模型层级与命名体系请参见：模型系列
需要入门指导？请查阅生成功能使用指南：ILXL 图像生成用户指南

image/png

1. 模型概览

Illustrious-Lumina-v0.03 是基于 Lumina-2.0 训练方案的实验性版本，旨在验证仅通过 LLM 能否实现专注于插画领域的小型 DiT 模型。
原始模型在插画生成方面表现欠佳且缺乏相关知识，因此本次训练重点在于补足这类知识缺失。

经过 26,500 步训练后，Illustrious-Lumina-v0.03 模型展现出对数据集的快速适应能力。

但需注意：原始模型本身不擅长插画生成，而我们的目标专注于插画领域——要达到理想水平仍需持续优化。

生成示例已发布于博客文章
测试模型请访问 HuggingFace 空间

若需本地运行模型，请使用 pth 文件并参照官方安装指南
safetensors 文件仅包含权重数据——兼容 ComfyUI 的格式将尽快准备发布

项目	数值
总处理图像数	2200 万图像-文本对
训练步数	26,500
全局批大小	768
分辨率	1024, 256
检查点文件	`Illustrious_Lumina_2b_22100_ema_unified_fp32.safetensors`