助推开源统一多模态理解与生成
Boogu-Image-0.1 是一个在当前开源模型中具备强竞争力的 Apache-2.0 开源统一图像生成与编辑模型家族,包含 Base、Turbo、Edit 等多个变体,在高质量文生图、快速生成、图像编辑和中英文文字渲染等任务上提供稳定实用的能力,并在许多场景下具备媲美顶级闭源模型的表现。
像 Nano Banana Pro 和 GPT-Image-2 这样的闭源多模态理解与生成系统之所以表现卓越,并非依赖单一模型,而是得益于一整套高度统一的系统能力。然而,在训练资源相较于闭源模型非常有限的条件下,我们发现,通过系统性地增强模型的理解能力、数据质量和训练流程,仍然能够显著提升图像生成与编辑的性能。具体而言,相比部分已有开源模型,我们使用的训练数据规模大约少一个数量级。我们希望这项经验研究与开源发布,能够推动统一多模态理解与生成领域的开源生态发展。
Boogu 能够准确理解摄影类 prompt,并生成具备自然光照、连贯构图和可信细节的高质量画面。即使在更复杂的真实场景中,也能保持主体、背景和空间关系连贯。我们希望文生图不只停留在“正确”,也能呈现出更真实且富有吸引力的视觉效果。
Boogu 支持多种文字密集型视觉设计,包括海报、邮票、文档、公式、界面、品牌规范、产品包装和手写黑板等。我们关注的不只是文字是否出现,而是整体结构是否可读、排版是否稳定,以及中英文在不同版式下是否可靠。
Boogu 覆盖多种风格化场景。我们的目标不是简单的风格迁移,而是稳定、美观且能够理解 prompt 意图的创意生成。
我们发现不同模型有各自的优势,也很难客观地用单一结论判断哪个模型更好;即便在不同 benchmark 上,各模型的相对表现也并不完全相同。不过,Boogu 确实在众多场景和 benchmark 上展现出具有竞争力的表现。
Boogu Arena。 由于我们无法使用 LM Arena 进行测试,因此创建了 Boogu Arena。下表展示了面向主流闭源与开源图像生成系统的 Arena 式偏好排行榜结果。在所有参与评测的模型中,Boogu-Image-0.1 系列稳居前列。我们也欢迎对结果有疑问的团队联系我们,一起推动更客观、公平且可复现的评测。
我们认为图像生成系统的效果评估也应考虑推理时间。不过,由于不同模型运行在不同硬件平台和服务环境上,我们没有在此直接给出横向推理时间对比。值得注意的是,在高性能硬件上,Boogu-Image-0.1-Turbo 裸模型的单次推理时间可以低于 1 秒。
评测设置。 Boogu Arena 参考 LM Arena 的评测方式构建。我们使用 LLM 生成大量多样化用户角色,并让每个用户角色生成一定数量的图像生成 prompt,最终形成超过 1K 条测试数据。我们会公开这些 prompts,以便社区复现和审查。
我们在 Boogu Arena 视觉对比中的生成结果。
来自领先文生图评测场景的强开源基线。
来自 arena 式评测场景的强开源基线。
用于偏好对比的强闭源基线模型。
我们在 Boogu Arena 视觉对比中的生成结果。
来自领先文生图评测场景的强开源基线。
来自 arena 式评测场景的强开源基线。
用于偏好对比的强闭源基线模型。
Qwen-Image-Bench。 Qwen-Image-Bench 是一个近期发布的高质量图像生成评测集,发布时间晚于我们冻结文生图训练数据的时间。相比一些长期使用的 benchmark,它受数据泄漏等常见问题影响更小,因此是评估现代图像生成模型的有用测试场景。在该 benchmark 上,Boogu-Image-0.1 在已评测的开源模型中达到顶级表现。受时间限制,本次评测尚未覆盖所有可用开源基线。
Qwen-Image-Bench 上的参数效率。 Boogu-Image-0.1(10B)在对比模型中取得最高最终得分(53.58),超过了参数量更大的 Qwen-Image-2512(20B,52.06)和 Hunyuan-Image-3.0(80B,50.81)。这表明,在不显著扩大参数规模的情况下,也可以获得有竞争力的 benchmark 表现。
| 模型 | 开源 | 质量 ↑ | 美学 ↑ | 对齐 ↑ | 真实世界保真度 ↑ | 创意生成 ↑ | 总体 ↑ |
|---|---|---|---|---|---|---|---|
| GPT Image 2 | Closed | 58.65 | 67.53 | 65.85 | 57.38 | 75.23 | 64.69 |
| Nano Banana 2.0 | Closed | 54.77 | 61.08 | 62.40 | 54.28 | 67.05 | 59.82 |
| GPT Image 1.5 | Closed | 55.14 | 60.88 | 61.72 | 53.95 | 66.35 | 59.65 |
| Nano Banana Pro | Closed | 55.67 | 60.26 | 61.25 | 54.07 | 66.23 | 59.45 |
| Qwen Image 2.0 Pro | Closed | 54.39 | 58.67 | 59.28 | 51.83 | 64.94 | 57.84 |
| Seedream 5.0 | Closed | 52.55 | 58.40 | 58.90 | 51.92 | 65.29 | 57.22 |
| Seedream 4.5 | Closed | 54.41 | 58.72 | 57.31 | 51.69 | 60.64 | 56.78 |
| Seedream 4.0 | Closed | 54.01 | 58.81 | 56.64 | 51.05 | 58.15 | 56.21 |
| FLUX 2 Max | Closed | 53.64 | 56.85 | 57.35 | 49.35 | 56.50 | 55.33 |
| FLUX 2 Pro | Closed | 52.30 | 56.94 | 57.01 | 47.29 | 56.18 | 54.57 |
| GPT Image 1 | Closed | 52.34 | 55.09 | 56.28 | 48.14 | 55.78 | 54.07 |
| Boogu-Image-0.1 | Apache-2.0 | 51.19 | 55.42 | 55.78 | 48.01 | 55.55 | 53.58 |
| Qwen Image 2512 | Apache-2.0 | 51.76 | 54.74 | 52.72 | 47.00 | 50.19 | 52.06 |
| Imagen 4.0 Ultra | Closed | 50.90 | 54.25 | 54.02 | 45.59 | 51.14 | 51.99 |
| HunyuanImage 3.0 | Other | 50.35 | 53.57 | 52.00 | 44.31 | 49.12 | 50.81 |
| Imagen 4.0 | Closed | 50.16 | 52.68 | 51.64 | 44.84 | 47.94 | 50.29 |
| Qwen Image | Apache-2.0 | 48.44 | 52.25 | 50.72 | 43.16 | 47.30 | 49.23 |
| Kling Image 2.1 | Closed | 49.11 | 50.15 | 49.18 | 44.74 | 44.67 | 48.26 |
| GLM Image | Apache-2.0 | 49.26 | 50.64 | 47.90 | 44.69 | 45.23 | 48.19 |
关于 ImgEdit。 我们将 ImgEdit_O 结果作为补充参考。实际观察中,我们发现该评测与人工观感并不总是一致,且对 In-Context Generation 场景覆盖有限,可能难以全面反映当前图像编辑模型的真实体验,也可能低估部分闭源模型在真实交互场景中的效果。因此,未来是否将 ImgEdit 作为主要评测依据仍需要谨慎考虑;这里保留结果主要是为了便于与已有工作对照。
| 模型 | 开源 | ImgEdit_O ↑ |
|---|---|---|
| Boogu-Image-0.1-Edit | ✓ | 4.64 |
| JoyAI | ✓ | 4.57 |
| FireRed-Image-Edit | ✓ | 4.56 |
| Qwen-Image-Edit-2511 | ✓ | 4.51 |
| LongCat-Image-Edit | ✓ | 4.50 |
| Nano Banana Pro | ✗ | 4.37 |
| FLUX.2 [Dev] | ✓ | 4.35 |
| Seedream 4.5 | ✗ | 4.32 |
| Qwen-Image-Edit-2509 | ✓ | 4.31 |
| Seedream 4.0 | ✗ | 4.30 |
| Nano Banana | ✗ | 4.29 |
| Step1X-Edit-v1.2 | ✓ | 3.95 |
Boogu-Image-0.1 家族提供覆盖生成、编辑和通用基础能力的完整模型选择。我们也期待与开源社区携手,共同孕育更多的家族成员。
我们的报告关注一组实践观察:这些经验对闭源团队并不陌生,但在公开技术报告中仍然讨论不足。
完整技术报告即将发布,敬请关注。