首个统一多模态模型评测标准，DeepSeek Janus理解能力领跑开源

MME-Benchmarks团队投稿量子位 | 公众号 QbitAI

统一多模态大模型（U-MLLMs）逐渐成为研究热点，近期GPT-4o，Gemini-2.0-flash都展现出了非凡的理解和生成能力，而且还能实现跨模态输入输出，比如图像+文本输入，生成图像或文本。

相比传统的多模态模型（比如 GPT-4V 或 DALL·E 3），这类模型在任务适应性和灵活性上更具优势。然而，当前研究领域还存在几个突出的问题：

1. 评测标准混乱：不同研究选用的评测数据集与指标各不相同，使得模型之间难以公平比较；

2. 混合模态生成能力缺乏评测体系：例如，在图像中画辅助线解题、根据推理结果生成图像等案例虽然很有代表性，但没有统一的 benchmark 能够全面测评这类能力。

这些问题严重限制了U-MLLMs的发展和落地应用，因此迫切需要一个系统、标准的评测框架。

主要贡献

MME-Unify（简称 MME-U）正是为了解决上述问题而提出的，具体贡献如下：

首次提出统一评测框架：MME-U 是第一个涵盖“理解”、“生成”与“统一任务（混合模态生成）”的 benchmark，支持从不同维度系统性评估 U-MLLMs 的综合能力。

构建覆盖广泛的任务体系：

从12个现有数据集中筛选整理，形成10大类任务，包含30个子任务理解类任务涵盖：单图感知、多图推理、视频理解等；生成类任务涵盖：文本生成图像、图像编辑、图像转视频等。

统一评测标准：

将理解任务统一转为多选题，使用准确率作为评测指标；将生成任务的多种指标标准化、归一化，输出统一分数，便于横向比较。

设计五类“统一任务”，考察模型对多模态信息的协同处理能力：

图像编辑与解释：模型需理解编辑指令并执行；常识问答生成图像：模型需根据问答内容生成合适图像；辅助线任务：要求模型画出解几何题所需的辅助线并解题；找不同（SpotDiff）：在两张图中找并画出差异；视觉链式推理（Visual CoT）：边推理边生成下一步图像结果。

实测分析12个主流U-MLLMs表现：包括 Janus-Pro、EMU3、Gemini 2 等，发现它们在多项任务中差异显著，尤其是在复杂生成任务和指令理解方面仍有很大提升空间。

揭示了开放模型与闭源模型之间的差距：闭源模型如GPT-4o、Gemini 2.0 Flash在生成质量与细节还原度方面甚至优于一些专用生成模型（如 DALL·E-3）；而开放模型的性能则尚显不足。

MME-Unify不仅为统一多模态大模型的评估提供了缺失已久的标准化工具，也进一步推动了这一方向从“炫技”向“实用”迈进，是当前U-MLLMs 领域不可或缺的基准评测体系。

分为三个主要评测能力板块，涵盖数据构建、任务设计与评估策略，整体条理清晰、便于理解。

MME-Unify 评测框架设计详解

本节介绍MME-Unify的数据构建方式、任务标注流程以及统一的评测方法。MME-U将多模态统一模型能力划分为三大类：

- 多模态理解能力- 多模态生成能力- 统一任务能力

多模态理解（Multimodal Understanding)

数据构建

理解类任务根据视觉输入类型划分为三类：

- SIPU（单图感知与理解）：评估图文对的理解能力。- MITIU（多图/图文交叉理解）：评估模型处理多张图和交替图文输入的能力。- VPU（视频感知与理解）：评估模型的视频理解能力。

共收集1900个样本，覆盖OCR、图表解析、空间感知、属性/行为推理等24种任务，其中感知类任务1600条，推理类任务300条，每类子任务不少于50对 QA 样本。

QA 标准化转化

为统一评估标准，所有理解类任务转为四选一多选题，干扰项与正确选项语义接近；无法处理视频的模型则使用关键帧，单图模型取首图。

评估策略

采用规则匹配法过滤答案（如 MME-Realworld），并随机打乱选项顺序以避免位置偏差。最终以平均准确率评估理解能力。

2.2 多模态生成（Multimodal Generation）

任务类型（6类）

1. FIR：图像细节重建2. TIE：文本指导图像编辑3. TIG：文本生成图像4. CIVG：图像+文本生成视频5. TVG：文本生成视频6. VP：视频预测（预测后续帧）

每类任务不少于 200 个样本，数据来源包括 COCO、MSR-VTT、Pexel 等。

数据标准化流程

- 属性统一：将 30 多种属性统一为 Text Prompt、Src Image、Ref Image、Video 等。- 任务专属提示语：为每类生成任务设计 prompt 模板，并统一数据格式。

评估策略

各任务先用专属指标（如 CLIP-I、FID、FVD）评估；再将所有指标标准化到 0–100 分数区间；取标准化后的平均分作为最终生成能力分数，实现跨任务可比性。

2.3 统一任务能力（Unify Capability）

MME-Unify 精心设计了5类混合模态统一任务，每类任务包括文本与图像双重输入输出，体现 U-MLLMs 的综合处理能力：

1. 常识问答生成图像（CSQ）

任务：根据常识谜语类问题选出正确答案并生成相应图像（如“国宝” → 熊猫）。流程：GPT-4o 生成问题，人工搜图，模型需同时答题并作图。

2. 图像编辑与解释（IEE）

任务：理解复杂编辑指令，生成修改图，并解释修改内容。构建方式：文本选项由 GPT-4o 生成，图像干扰项由 InstructPix2Pix 生成。模型需先解释修改内容（文本问答），再输出修改图（图像问答）。

3. 找不同任务（SpotDiff）

来源：SpotDiff 网站模型需识别图像对的不同区域，输出数目和定位图，考察空间记忆和视觉推理能力。

4. 几何题辅助线任务（Auxiliary Lines）

来源：Geometry3K模型需在图上画出解题辅助线，并作答（含逻辑和视觉两部分），考察推理+生成整合能力。

5. 视觉链式推理（Visual CoT）

任务：通过逐步生成导航动作、坐标和迷宫图像来走迷宫，模拟现实中的多步视觉决策过程。每一步包括动作、坐标和图像输出，后续步骤包含历史信息，实现逐步 reasoning。

统一任务评估策略

文本部分：

用 CLIP-T 相似度判断模型生成解释与正确选项的接近程度；或直接选择选项。

图像部分：

用 CLIP-I 计算生成图与选项图像的相似度，选出最高者。

acc 与 acc+：

acc：文本准确率与图像准确率的平均值；acc+：文本和图像都答对的样本占比；

对于 Visual CoT，则分别统计动作、坐标、图像的 acc，再取平均。

最终，MME-U 总得分为理解分 + 生成分 + 统一任务分的平均值，构成系统的、全面的模型评估体系。

有趣的实验发现总结

本文对多模态大模型（MLLMs）和统一多模态大模型（U-MLLMs）进行了系统性评测，总共涵盖了22个主流模型。研究重点集中在三个维度：理解能力（Understanding）生成能力（Generation）以及统一能力（Unify Capability）。评估采用MME-U评分体系，并包含多个细粒度子任务。以下为实验中的关键发现与亮点总结：

理解能力方面

表现最强的模型是闭源的Gemini2.0-flash-exp，在所有理解类任务中遥遥领先。开源阵营中表现最好的是Janus-Flow与Janus-Pro，它们采用了两个独立的视觉编码器，分别用于理解与生成任务，成功避开了如VQGAN等通用 tokenizer 在图像理解上的局限。采用单一tokenizer 的模型（如 Emu3、Show-o）在理解任务上表现普遍较差，即便模型体量相当，也难以达到Janus系列的水准。MIO-Instruct展现了强大的理解能力，其背后是海量多模态数据（包含图像、视频、音频）与复杂三阶段训练流程的支持，强调了数据多样性在理解任务中的重要性。

生成能力方面

在图像生成任务中，U-MLLMs的表现与专注型生成模型的差距不如理解任务那么大举例来说，Gemini2.0-flash-exp 在Text-to-Image任务中甚至超过了DALL·E 3 六个点，展现出强大的生成潜力。多数U-MLLMs（如 EMU3、HermersFlow、GILL）在图像生成任务的平均得分均高于48，显示基础图像生成已具一定可用性。不过，在视频生成任务上仍是短板。尽管如Emu3声称具备视频生成能力，但由于缺乏相应 checkpoint，暂时无法验证。从图像细节还原的角度看，当前开源U-MLLMs与DALL·E等模型仍有显著差距，尤其是在特定文本细节（如T恤号码、背景标语等）上的还原。

统一能力方面（Unify Tasks）

统一任务对模型提出了更高要求——既要生成合理图像，又要完成对应文本推理。目前，开源模型中表现最好的 Anole 在简单任务上也仅有约60%的准确率，在复杂统一任务上几乎没有模型超过30%准确率。在视觉链式推理（Visual CoT）任务中，无一模型能够成功完成多步推理与图像生成结合的完整流程分析显示，统一任务对模型的多模态交叉能力提出了极高要求，目前仍是行业技术瓶颈。

深入分析与趋势观察

当前模型在基础能力（理解/生成）与统一能力之间普遍存在“性能权衡困境”

例如，MiniGPT-5、GILL、Anole 在统一任务设计上更激进，但牺牲了基础理解与生成能力，导致整体分数偏低。

而如MIO-Instruct虽然在基础能力上表现优秀，但在图文交错生成的统一任务中表现不佳。

这种表现差异提示：现有训练范式未能有效整合基础任务与跨模态任务的学习目标，可能需要重新设计对齐策略或任务混合训练流程。

总结

整体来看，U-MLLMs虽然展示了多模态统一任务的潜力，但距离实际可用仍有明显距离。特别是在如何协调理解与生成、单步与多步、图文协同等维度，仍存在诸多技术挑战。MME-Unify提供了一套系统性测评框架，并量化了主流模型的能力上限，为未来模型设计提供了清晰参照与方向指引。

项目地址：

https://mme-unify.github.io

《aisheshe66》，《y85ouztigy6ysf5y》

微勃破解版官方网入口

“憨憨倩和恬恬国产的后续发展如何”