本文作者团队来自阿里巴巴集团,共同第一作者为深度学习研究员刘锦龙和何旺贵,通讯作者为姜浩。

用强化学习(RL)优化文生图模型的 prompt following 能力,是一条被广泛验证的路径 —— 让模型根据 prompt 用不同随机种子生成多张图片,通过 reward model 计算 reward,再利用相关 RL 算法优化模型。

这里面最核心的问题在于:reward 信号从哪来?

传统的对齐指标如 CLIP Score 粒度过粗,无法捕捉属性绑定、空间关系、计数等复杂语义。当前一些开源的 reward 模型(PickScore、ImageReward、HPS v2 等)受限于模型规模和有限的标注数据,难以为最前沿的工业级的文生图模型提供有效反馈信号。而训练一个高质量的 reward 模型往往代价不低 —— 需要耗费大量人力和成本进行标注和训练。

另一方面,开源社区的多模态大模型(VLM)持续发展,这些模型在预训练中见过海量图文数据,本身就具备丰富的图文对齐知识,是天然的图文一致性 reward 信号来源。问题在于:如何把这些知识从 VLM 中高效地提取出来作为 reward?

为此,来自阿里巴巴的研究团队提出了PromptEcho—— 一种无需任何标注、无需训练 reward 模型,仅通过冻结 VLM 的一次前向推理就能获得高质量 reward 的方法。



核心方法:「PromptEcho」

一个直觉:如果图画对了,VLM 就能「复述」出 prompt

想象一下:你根据 prompt 画了一幅画,然后把画给一位朋友看,然后问他「请描述这幅画」。如果画面忠实地描绘了「一只红色的猫站在蓝色的桌子上」,他大概率能准确复述出这些内容。VLM 也是一样 —— 如果生成图像忠实遵循了 prompt,VLM 在看到图像后就能以很高的概率(似然)逐 token 复述出原始 prompt。或者说把 prompt 的内容「回响」(Echo)了回来,而这个复述的对数似然就是我们要找的 reward。

反过来,如果画面中猫的颜色搞错了,或者桌子不见了,VLM 复述出原始 prompt 的概率就会显著下降,reward 随之降低。



图 1:PromptEcho 流程。给定生成图像和引导 query,冻结 VLM 在 teacher-forcing 模式下计算原始 prompt 的 token 级交叉熵损失,取负值作为 reward。

具体而言,PromptEcho 有三个输入:



然后,将图像和 query 输入冻结的 VLM,在teacher-forcing模式下(即不让模型自由生成,而是强制输入 prompt 的每个 token),计算 VLM 对原始 prompt 中每个 token 的预测概率。最终的 reward 就是:



一句话总结:reward = VLM 看到图像后,能多大概率「复述」出原始 prompt。

这个 reward 与 VLM 预训练的损失函数完全一致,只是优化对象从 VLM 的模型权重变成了文生图模型生成的图片。这种一致性正是 PromptEcho 高效的原因,它复用了 VLM 在预训练中习得的图文对齐知识。

为什么不直接让 VLM 打分?

一个自然的问题是:既然用的是冻结 VLM,为什么不直接输入 prompt 和图片让 VLM 推理图文一致性评分做 reward?为了回答这个问题,研究团队设计了一个对比方法「InferScore」—— 使用同一个冻结 VLM,但让它以自回归方式生成对图文一致性的评分,作为 reward 信号。两者的区别在于:

后续实验将直接验证这一点 —— 同样基于 Qwen3-VL-32B,PromptEcho 全面优于 InferScore。

实验

PromptEcho 在两个当前最前沿的开源文生图模型(Z-Image 和 QwenImage-2512)上进行了实验,使用 Qwen3-VL-32B 作为 reward VLM。

训练数据构建。 研究团队收集了约 10 万张高质量图片,使用 Qwen3-VL-32B 配合指令 "Describe this image in detail" 为每张图片生成约 200–400 词的详细描述(dense caption),涵盖对象、属性、空间关系、颜色、纹理等多维信息。这些 caption 构成了 RL 训练的 prompt 集合。

DenseAlignBench :密集描述场景下对前沿模型的大幅改进

研究团队从同源数据中划出 2000 条不在训练集中的 caption,构建了DenseAlignBench测试集。该测试集与训练数据同源同分布,用于直接验证 PromptEcho 的有效性。使用 Gemini-3-flash-preview 进行成对指令遵循维度的 GSB 评估:



在密集描述的场景下,PromptEcho 取得了对前沿模型的大幅改进。

公开 Benchmark:指令遵循能力提升的泛化测试

需要强调的是,以下公开 benchmark 的测试 prompt 与训练数据在分布上存在显著差异 PromptEcho 没有针对任何 benchmark 做针对性训练,以下结果完全反映指令遵循能力的泛化提升:



PromptEcho 在所有公开 benchmark 上均取得了一致的提升,体现了其 reward 信号源自 VLM 海量预训练数据中的图文对齐知识,具备跨分布、跨架构的泛化能力。

Reward VLM 越大越好:Scaling 有效

为了验证 VLM 模型本身的质量对 PromptEcho 效果的影响,研究团队在 Z-Image 上分别使用 Qwen3-VL-32B 和 Qwen3-VL-8B 作为 reward VLM 进行了对比实验:



32B 在所有关键指标上领先 8B,表明 reward 质量随 VLM 规模增长。这意味着随着开源 VLM 持续进化,PromptEcho 的效果上限也会不断提高。

PromptEcho vs InferScore

同样使用 Qwen3-VL-32B,PromptEcho 和 InferScore 的对比:



InferScore 在 DenseAlignBench 上甚至不如 baseline。这个验证了前面的结论:通过预训练损失函数计算连续对数似然值,远比让 VLM 自回归生成离散评分更可靠。

文字渲染:通用性验证

PromptEcho 作为通用 Reward 范式

PromptEcho 的核心机制(VLM 交叉熵 reward)并不局限于文生图模型的指令遵循优化。为了验证其通用性,研究团队将其迁移到了一个截然不同的任务:电商海报文字渲染。

迁移过程中,PromptEcho 的核心计算完全不变,仅需适配两个输入:

经过 PromptEcho 强化学习之后,在 5000 条测试样本上,海报生成模型全图文字正确率从68% 提升到 75%(+7pp)。这说明 PromptEcho 是一种通用的 reward 构建范式—— 只需调整引导 query 和标签格式,同一套机制就能适配不同的图像生成模型和优化目标,无需为每个新任务重新训练专用 reward 模型。

Case 展示

下图展示了一些实际的 case: QwenImage-2512(Baseline)与经过 PromptEcho 训练后的模型在同一 prompt 下的生成对比。QwenImage-2512 作为当前最先进的开源文生图模型,整体指令遵循能力已经不错。可以看到,经过 PromptEcho 训练后,模型在画面细节、空间关系、对象计数等方面有了进一步的显著改进。



图 2:QwenImage-2512 Baseline vs PromptEcho 生成结果对比。

总结与展望

PromptEcho 揭示了一个简洁而深刻的洞察:VLM 的预训练损失函数本身就是一个高质量的文图对齐 reward 信号。 不需要标注数据,不需要训练 reward 模型,直接利用开源 VLM 的一次前向推理,就能提供高质量的指令遵循 reward 信号。

这开辟了一条全新的 reward 构建路径 —— 未来随着开源社区 VLM 持续改进,PromptEcho 将获得更高质量的 reward 信号,带来更好的优化效果。

为了方便社区的进一步研究,研究团队已开源代码、模型权重和 DenseAlignBench 测试集,详见:https://github.com/roooobotx/prompt_echo。