Illustrious-Lumina-v0.03:基于Gemma-2-2b的小型DiT模型,专注插画概念学习与图像生成

实验性DiT模型,基于Alpha-VLLM/Lumina-Image-2.0,采用Gemma-2-2b文本编码器,通过2200万图文对训练,旨在实现专注插画领域的小模型快速适配。【此简介由AI生成】

分支1Tags0

license: apache-2.0 base_model:

  • Alpha-VLLM/Lumina-Image-2.0

Illustrious-Lumina-v0.03

本模型基于 Alpha-VLLM/Lumina-Image-2.0 构建,这是一个功能完备的精简 DiT 模型!官方代码库请参阅:https://github.com/Alpha-VLLM/Lumina-Image-2.0
论文


在深入探讨「Illustrious-Lumina-v0.03」的细节之前,我们激动地宣布:您现在可以通过我们的官方站点 illustrious-xl.ai 直接使用 Illustrious XL 系列模型生成图像。

我们推出了完整的图像生成平台,支持高分辨率输出、自然语言提示词和自定义预设——此外还包含多个其他平台无法获取的独家模型。

最新模型层级与命名体系请参见:模型系列
需要入门指导?请查阅生成功能使用指南:ILXL 图像生成用户指南


image/png

1. 模型概览

  • 架构20 亿参数的 DiT 模型
  • 文本编码器:纯 LLM 架构,采用 Gemma-2-2b
  • 本分支目标:验证图像主干网络能否在不重新训练 LLM 组件的情况下学习插画概念

Illustrious-Lumina-v0.03 是基于 Lumina-2.0 训练方案的实验性版本,旨在验证仅通过 LLM 能否实现专注于插画领域的小型 DiT 模型。
原始模型在插画生成方面表现欠佳且缺乏相关知识,因此本次训练重点在于补足这类知识缺失。

经过 26,500 步训练后,Illustrious-Lumina-v0.03 模型展现出对数据集的快速适应能力。

但需注意:原始模型本身不擅长插画生成,而我们的目标专注于插画领域——要达到理想水平仍需持续优化。

生成示例已发布于博客文章
测试模型请访问 HuggingFace 空间

若需本地运行模型,请使用 pth 文件并参照官方安装指南
safetensors 文件仅包含权重数据——兼容 ComfyUI 的格式将尽快准备发布

2. 训练配置

项目 数值
总处理图像数 2200 万图像-文本对
训练步数 26,500
全局批大小 768
分辨率 1024, 256
检查点文件 Illustrious_Lumina_2b_22100_ema_unified_fp32.safetensors

模型已处理 2200 万图像-文本对。为加速训练过程,采用了多分辨率训练技术。

3. 推理演示代码

若需本地运行模型,请使用 pth 文件并参照官方安装指南

标题图像的生成可通过以下配置复现:

image/png

4. 免责声明

本模型不代表任何最终产品,仅限研究分析用途。模型尚未达到生产就绪状态,使用风险自负。

当前为概念验证阶段——仅使用全训练所需计算资源的 3%,通过低分辨率联合训练处理了 2200 万样本,训练设备为 A6000 GPU。

如需加速训练进程,请通过支持网站为我们提供支持!

项目介绍

实验性DiT模型,基于Alpha-VLLM/Lumina-Image-2.0,采用Gemma-2-2b文本编码器,通过2200万图文对训练,旨在实现专注插画领域的小模型快速适配。【此简介由AI生成】

定制我的领域

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新

语言类型

Python100%