该模型核心规模为 9.3B 参数,延续近期开源模型的单流架构路线,让文本 tokens 与图像 tokens 共享同 1 个自注意力序列,并把设计控制放在训练和推理格式的中心。
官方展示的样例显示,该模型可以生成覆盖人物、场景和设计类图像,适合需要创作、
该模型最突出的能力是文字绘制。模型可在图像中更准确地呈现较长文本,这对海报、商品图、封面和社媒素材很关键。
Ideogram 还通过训练中的对象和文本边界框,让模型理解元素位置关系。配合结构化 JSON字幕数据训练后,用户可更清楚地用提示词指定版式、对象位置和文本布局。
DesignArena 的排名显示,Ideogram 4.0 超过 Nano Banana Pro,位列全球第 4。该榜单采用隐藏模型名称后由人类评价生成结果质量的方法,因此这项成绩来自人工观感评估,具有较高可信度。










