实验性DiT模型,基于Alpha-VLLM/Lumina-Image-2.0,采用Gemma-2-2b文本编码器,通过2200万图文对训练,旨在实现专注插画领域的小模型快速适配。【此简介由AI生成】
license: apache-2.0 base_model:
- Alpha-VLLM/Lumina-Image-2.0
Illustrious-Lumina-v0.03
本模型基于 Alpha-VLLM/Lumina-Image-2.0 构建,这是一个功能完备的精简 DiT 模型!官方代码库请参阅:https://github.com/Alpha-VLLM/Lumina-Image-2.0
论文
在深入探讨「Illustrious-Lumina-v0.03」的细节之前,我们激动地宣布:您现在可以通过我们的官方站点 illustrious-xl.ai 直接使用 Illustrious XL 系列模型生成图像。
我们推出了完整的图像生成平台,支持高分辨率输出、自然语言提示词和自定义预设——此外还包含多个其他平台无法获取的独家模型。
最新模型层级与命名体系请参见:模型系列
需要入门指导?请查阅生成功能使用指南:ILXL 图像生成用户指南

1. 模型概览
- 架构:20 亿参数的 DiT 模型
- 文本编码器:纯 LLM 架构,采用 Gemma-2-2b
- 本分支目标:验证图像主干网络能否在不重新训练 LLM 组件的情况下学习插画概念
Illustrious-Lumina-v0.03 是基于 Lumina-2.0 训练方案的实验性版本,旨在验证仅通过 LLM 能否实现专注于插画领域的小型 DiT 模型。
原始模型在插画生成方面表现欠佳且缺乏相关知识,因此本次训练重点在于补足这类知识缺失。
经过 26,500 步训练后,Illustrious-Lumina-v0.03 模型展现出对数据集的快速适应能力。
但需注意:原始模型本身不擅长插画生成,而我们的目标专注于插画领域——要达到理想水平仍需持续优化。
生成示例已发布于博客文章
测试模型请访问 HuggingFace 空间
若需本地运行模型,请使用 pth 文件并参照官方安装指南
safetensors 文件仅包含权重数据——兼容 ComfyUI 的格式将尽快准备发布
2. 训练配置
| 项目 | 数值 |
|---|---|
| 总处理图像数 | 2200 万图像-文本对 |
| 训练步数 | 26,500 |
| 全局批大小 | 768 |
| 分辨率 | 1024, 256 |
| 检查点文件 | Illustrious_Lumina_2b_22100_ema_unified_fp32.safetensors |
模型已处理 2200 万图像-文本对。为加速训练过程,采用了多分辨率训练技术。
3. 推理演示代码
若需本地运行模型,请使用 pth 文件并参照官方安装指南。
标题图像的生成可通过以下配置复现:

4. 免责声明
本模型不代表任何最终产品,仅限研究分析用途。模型尚未达到生产就绪状态,使用风险自负。
当前为概念验证阶段——仅使用全训练所需计算资源的 3%,通过低分辨率联合训练处理了 2200 万样本,训练设备为 A6000 GPU。
如需加速训练进程,请通过支持网站为我们提供支持!