Boogu-Image-0.1

助推开源统一多模态理解与生成

Boogu-Image-0.1 是一个在当前开源模型中具备强竞争力的 Apache-2.0 开源统一图像生成与编辑模型家族,包含 Base、Turbo、Edit 等多个变体,在高质量文生图、快速生成、图像编辑和中英文文字渲染等任务上提供稳定实用的能力,并在许多场景下具备媲美顶级闭源模型的表现。

在线体验 三个版本 Hugging Face 模型权重 GitHub 代码仓库 技术报告 即将发布 视觉画廊 灵感探索

Boogu 愿景

像 Nano Banana Pro 和 GPT-Image-2 这样的闭源多模态理解与生成系统之所以表现卓越,并非依赖单一模型,而是得益于一整套高度统一的系统能力。然而,在训练资源相较于闭源模型非常有限的条件下,我们发现,通过系统性地增强模型的理解能力、数据质量和训练流程,仍然能够显著提升图像生成与编辑的性能。具体而言,相比部分已有开源模型,我们使用的训练数据规模大约少一个数量级。我们希望这项经验研究与开源发布,能够推动统一多模态理解与生成领域的开源生态发展。

具有竞争力的综合表现

我们发现不同模型有各自的优势,也很难客观地用单一结论判断哪个模型更好;即便在不同 benchmark 上,各模型的相对表现也并不完全相同。不过,Boogu 确实在众多场景和 benchmark 上展现出具有竞争力的表现。

Boogu Arena
整体表现领先
在所有参与评测的模型中,Boogu-Image-0.1 系列稳居前列。
Qwen-Image-Bench
开源模型顶级表现
Boogu-Image-0.1 在已评测的开源模型中位列 Qwen-Image-Bench 第一。
Image Editing
统一生成与编辑能力
Boogu 在保持强文生图质量的同时,也具备有竞争力的图像编辑表现。

Boogu Arena。 由于我们无法使用 LM Arena 进行测试,因此创建了 Boogu Arena。下表展示了面向主流闭源与开源图像生成系统的 Arena 式偏好排行榜结果。在所有参与评测的模型中,Boogu-Image-0.1 系列稳居前列。我们也欢迎对结果有疑问的团队联系我们,一起推动更客观、公平且可复现的评测。

我们认为图像生成系统的效果评估也应考虑推理时间。不过,由于不同模型运行在不同硬件平台和服务环境上,我们没有在此直接给出横向推理时间对比。值得注意的是,在高性能硬件上,Boogu-Image-0.1-Turbo 裸模型的单次推理时间可以低于 1 秒。

评测设置。 Boogu Arena 参考 LM Arena 的评测方式构建。我们使用 LLM 生成大量多样化用户角色,并让每个用户角色生成一定数量的图像生成 prompt,最终形成超过 1K 条测试数据。我们会公开这些 prompts,以便社区复现和审查。

Boogu Arena ELO 图表

Boogu-Image-0.1

我们在 Boogu Arena 视觉对比中的生成结果。

Qwen-Image-2512

来自领先文生图评测场景的强开源基线。

HiDream-O1

来自 arena 式评测场景的强开源基线。

Seedream 5.0

用于偏好对比的强闭源基线模型。

Boogu-Image-0.1

我们在 Boogu Arena 视觉对比中的生成结果。

Qwen-Image-2512

来自领先文生图评测场景的强开源基线。

HiDream-O1

来自 arena 式评测场景的强开源基线。

Seedream 5.0

用于偏好对比的强闭源基线模型。

Qwen-Image-Bench。 Qwen-Image-Bench 是一个近期发布的高质量图像生成评测集,发布时间晚于我们冻结文生图训练数据的时间。相比一些长期使用的 benchmark,它受数据泄漏等常见问题影响更小,因此是评估现代图像生成模型的有用测试场景。在该 benchmark 上,Boogu-Image-0.1 在已评测的开源模型中达到顶级表现。受时间限制,本次评测尚未覆盖所有可用开源基线。

参数效率
Qwen-Image-Bench 最终得分与模型规模对比
0 20 40 60 80 47 48 49 50 51 52 53 54 55 参数量(B) 最终得分 GLM-Image (7B) Qwen-Image (20B) Qwen-Image-2512 (20B) Hunyuan-Image-3.0 (80B) Boogu-Image-0.1 (10B)
Boogu-Image-0.1 (10B, 53.58) 其他开源基线

Qwen-Image-Bench 上的参数效率。 Boogu-Image-0.1(10B)在对比模型中取得最高最终得分(53.58),超过了参数量更大的 Qwen-Image-2512(20B,52.06)和 Hunyuan-Image-3.0(80B,50.81)。这表明,在不显著扩大参数规模的情况下,也可以获得有竞争力的 benchmark 表现。

模型 开源 质量 ↑ 美学 ↑ 对齐 ↑ 真实世界保真度 ↑ 创意生成 ↑ 总体 ↑
GPT Image 2Closed58.6567.5365.8557.3875.2364.69
Nano Banana 2.0Closed54.7761.0862.4054.2867.0559.82
GPT Image 1.5Closed55.1460.8861.7253.9566.3559.65
Nano Banana ProClosed55.6760.2661.2554.0766.2359.45
Qwen Image 2.0 ProClosed54.3958.6759.2851.8364.9457.84
Seedream 5.0Closed52.5558.4058.9051.9265.2957.22
Seedream 4.5Closed54.4158.7257.3151.6960.6456.78
Seedream 4.0Closed54.0158.8156.6451.0558.1556.21
FLUX 2 MaxClosed53.6456.8557.3549.3556.5055.33
FLUX 2 ProClosed52.3056.9457.0147.2956.1854.57
GPT Image 1Closed52.3455.0956.2848.1455.7854.07
Boogu-Image-0.1Apache-2.051.1955.4255.7848.0155.5553.58
Qwen Image 2512Apache-2.051.7654.7452.7247.0050.1952.06
Imagen 4.0 UltraClosed50.9054.2554.0245.5951.1451.99
HunyuanImage 3.0Other50.3553.5752.0044.3149.1250.81
Imagen 4.0Closed50.1652.6851.6444.8447.9450.29
Qwen ImageApache-2.048.4452.2550.7243.1647.3049.23
Kling Image 2.1Closed49.1150.1549.1844.7444.6748.26
GLM ImageApache-2.049.2650.6447.9044.6945.2348.19
本列最佳
本列第二
Closed = 闭源  |  Open = 开源许可未在此处展开

关于 ImgEdit。 我们将 ImgEdit_O 结果作为补充参考。实际观察中,我们发现该评测与人工观感并不总是一致,且对 In-Context Generation 场景覆盖有限,可能难以全面反映当前图像编辑模型的真实体验,也可能低估部分闭源模型在真实交互场景中的效果。因此,未来是否将 ImgEdit 作为主要评测依据仍需要谨慎考虑;这里保留结果主要是为了便于与已有工作对照。

模型 开源 ImgEdit_O ↑
Boogu-Image-0.1-Edit4.64
JoyAI4.57
FireRed-Image-Edit4.56
Qwen-Image-Edit-25114.51
LongCat-Image-Edit4.50
Nano Banana Pro4.37
FLUX.2 [Dev]4.35
Seedream 4.54.32
Qwen-Image-Edit-25094.31
Seedream 4.04.30
Nano Banana4.29
Step1X-Edit-v1.23.95
本列最佳
本列第二
✗ 闭源  |  ✓ 开源

五个强大变体,
一个统一家族

Boogu-Image-0.1 家族提供覆盖生成、编辑和通用基础能力的完整模型选择。我们也期待与开源社区携手,共同孕育更多的家族成员。

文生图变体选择示意
示意图仅表达相对取舍:越靠右推理时间越长,越靠上生成效果越强。
Boogu-Image-0.1-Pro 是一个结合 Boogu-Image-0.1-Base 和 Boogu-Image-0.1-Turbo 的文生图系统,更偏向高质量生成场景。
推理时间 效果 Boogu-Image-0.1-Turbo Boogu-Image-0.1-Turbo-PE Boogu-Image-0.1-Turbo-Thinking Boogu-Image-0.1-Pro
G
Boogu-Image-0.1-Base
Boogu-Image-0.1-Turbo 背后的核心文生图基础模型,专注于高质量生成、丰富美学、多样性和可控性,适合创意工作流、微调和下游开发。它主要面向超密集文字渲染(超过 100 字)等复杂文本场景;在摄影真实感上,Turbo 模型通常更适合作为默认选择。
T
Boogu-Image-0.1-Turbo
Boogu-Image-0.1-Base 的蒸馏变体,与基础模型具有相同参数量,通常仅需 3-4 步即可完成推理。我们重点优化了它的摄影真实感,同时保持中英文文字渲染和 prompt 遵循能力。
FP8
Boogu-Image-0.1-fp8
面向部署的量化变体,支持更低显存推理。它在保留 Boogu-Image-0.1 核心行为的同时降低服务成本,适合受限硬件和高吞吐部署场景。
E
Boogu-Image-0.1-Edit
面向图像编辑和图生图工作流构建。它能够遵循中英文自然语言指令,完成从局部调整到创意变换的精准编辑。目前重点关注摄影类编辑场景;对于大角度变换的 In-Context Generation,效果仍然相对一般。
ET
Boogu-Image-0.1-Edit-Turbo
面向快速图生图迭代的编辑变体。它更关注低延迟编辑工作流,同时在摄影、文字密集型编辑和创意变换中保持实用的指令遵循能力。

许多实践者知道,
但很少被论文强调的事情

我们的报告关注一组实践观察:这些经验对闭源团队并不陌生,但在公开技术报告中仍然讨论不足。

教训 01
理解与推理能力是比直觉上更大的瓶颈。
仅有强视觉质量并不够。许多失败来自较弱的多模态理解、组合推理和指令解析能力。GPT-Image、Nano Banana 以及 Seedream 团队具有非常强大的理解模型,因此他们在这方面具有巨大的优势。对于开源团队而言,只能够使用开源的理解模型,这一差距很难弥补。
教训 02
更强的多模态理解模型是更好的文本编码器。
我们发现,使用更强大的多模态理解模型作为文本编码器,能够显著提升模型对复杂 prompt、细粒度概念和上下文关系的理解能力,从而带来更出色的生成与编辑效果。
教训 03
Caption 质量比想象中更加重要。
更好的 caption 不只是提升对齐能力,还会重塑模型学习关注的内容,尤其是细粒度对象、版式和用户意图。不是越长越好,也不是越短越好。不同的概念需要特定的 caption。
教训 04
测试时扩展可以稳定提升效果,但必须权衡时间成本。
测试时扩展(Test-Time Scaling)通常可以稳定提升生成质量,包括但不限于指令改写、候选结果检查和基于反馈的再生成等策略。但这些方法也会增加推理链路和出图时间,因此需要在质量收益与用户等待成本之间选择合适的平衡点。客观的评测方式需要同时考虑效果和推理时间。
教训 05
当前 benchmark 并不完全匹配真实用户体验。
已有 benchmark 就像“房间里的大象”:大家都假装看不到它们其实已经不再适合完整评估模型表现。这些 benchmark 曾经极大地推动了领域发展,但现在它们经常与真实用户在交互式产品中感知到的“好结果”存在明显偏差。在项目前期,过度围绕公开测试集进行研究一度显著拖慢了我们的研发节奏;最终,我们选择完全放弃围绕公开测试集进行优化,而是更多依赖真实使用场景、人工审查和面向用户体验的评估。
教训 06
统一模型很重要,但可扩展基础设施更加重要。
统一的理解与生成架构很有价值,但更大的优势在于复用成熟的 LLM 基础设施,使训练、服务和扩展更加容易。我们认为,对于 LLM 基础设施较弱的团队,尝试使用统一架构的收益有限。
教训 07
高质量图片数据仍然是开源模型最难补齐的差距。
高质量图片数据至关重要,但在实践中,开放数据集的质量仍然明显低于大型实验室精心采集或商业授权的数据。

我们的局限

局限 01
世界知识仍远不如闭源模型,且这种差距极难评测。
在需要丰富常识、专业知识、真实品牌与人物背景或复杂语境理解的任务中(例如艺术风格、著名地标、名人、产品等),Boogu 与强闭源系统仍有明显差距。而这类能力的评测成本极高——仅一个地标类别就可能需要 3000 个以上的测试样本才能覆盖,即便是 Arena 式评测也很难充分衡量,因此现有 benchmark 几乎无法量化这一维度,真实差距很可能比测得的结果更大。
局限 02
图生图一致性与部分 In-Context Generation 场景仍有差距。
在需要严格保持输入图像主体、身份、布局或细节的编辑任务中,Boogu 的图生图一致性仍不够稳定。由于我们的图生图能力更关注摄影、文本生成等应用,在一些 In-Context Generation 场景中,Boogu 仍不如 Seedream 5.0 和 Nano Banana Pro。
局限 03
文字生成还不够稳定。
Boogu 已经能处理不少中英文文字场景,但在长文本、密集排版、小字号和复杂设计版式中,仍可能出现错字、漏字或布局漂移。目前文字生成重点支持中英文,其他语言尚未做针对性优化,效果可能明显下降。
局限 04
复杂姿态下仍可能出现肢体畸形。
在多人互动、遮挡、夸张动作或不常见视角中,手部、四肢和身体结构仍可能出现不自然或不一致的问题。
局限 05
小人脸和小肢体仍有问题。
由于我们使用的是开源 FLUX.1 VAE,模型的重建损失较大,因此在小人脸、小肢体、眼睛、文字等细节上仍可能出现问题。
局限 06
开源范围仍然有限。
受资源、工程复杂度和发布边界等因素影响,我们暂时无法开源所有训练与系统细节。当前开源版本希望在可复现、可使用和可持续维护之间取得平衡,并为社区后续研究和改进提供一个可靠起点。
致谢。 GPT-Image、Nano Banana、Seedream 系列等闭源系统让我们更清楚地看到了理解生成一体化系统的前沿能力与现实边界。我们也感谢 Qwen、Z-Image、OmniGen2、FLUX 等团队以及更广泛的开源社区,提供了重要的基础、参考与帮助。同时,我们感谢 DeepSeek 提供足够强的开源理解模型,为开源多模态理解生成一体化系统的发展提供了重要支撑。

完整技术报告即将发布,敬请关注。