MME-Benchmarks团队 投稿量子位 | 公众号 QbitAI
统一多模态大模型(U-MLLMs)逐渐成为研究热点,近期GPT-4o,Gemini-2.0-flash都展现出了非凡的理解和生成能力,而且还能实现跨模态输入输出,比如图像+文本输入,生成图像或文本。
相比传统的多模态模型(比如 GPT-4V 或 DALL·E 3),这类模型在任务适应性和灵活性上更具优势。然而,当前研究领域还存在几个突出的问题:
1. 评测标准混乱:不同研究选用的评测数据集与指标各不相同,使得模型之间难以公平比较;
2. 混合模态生成能力缺乏评测体系:例如,在图像中画辅助线解题、根据推理结果生成图像等案例虽然很有代表性,但没有统一的 benchmark 能够全面测评这类能力。
这些问题严重限制了U-MLLMs的发展和落地应用,因此迫切需要一个系统、标准的评测框架。
主要贡献
MME-Unify(简称 MME-U)正是为了解决上述问题而提出的,具体贡献如下:
首次提出统一评测框架:MME-U 是第一个涵盖“理解”、“生成”与“统一任务(混合模态生成)”的 benchmark,支持从不同维度系统性评估 U-MLLMs 的综合能力。
构建覆盖广泛的任务体系:
从12个现有数据集中筛选整理,形成10大类任务,包含30个子任务理解类任务涵盖:单图感知、多图推理、视频理解等;生成类任务涵盖:文本生成图像、图像编辑、图像转视频等。
统一评测标准:
将理解任务统一转为多选题,使用准确率作为评测指标;将生成任务的多种指标标准化、归一化,输出统一分数,便于横向比较。
设计五类“统一任务”,考察模型对多模态信息的协同处理能力:
图像编辑与解释:模型需理解编辑指令并执行;常识问答生成图像:模型需根据问答内容生成合适图像;辅助线任务:要求模型画出解几何题所需的辅助线并解题;找不同(SpotDiff):在两张图中找并画出差异;视觉链式推理(Visual CoT):边推理边生成下一步图像结果。
实测分析12个主流U-MLLMs表现:包括 Janus-Pro、EMU3、Gemini 2 等,发现它们在多项任务中差异显著,尤其是在复杂生成任务和指令理解方面仍有很大提升空间。
揭示了开放模型与闭源模型之间的差距:闭源模型如GPT-4o、Gemini 2.0 Flash在生成质量与细节还原度方面甚至优于一些专用生成模型(如 DALL·E-3);而开放模型的性能则尚显不足。
MME-Unify不仅为统一多模态大模型的评估提供了缺失已久的标准化工具,也进一步推动了这一方向从“炫技”向“实用”迈进,是当前U-MLLMs 领域不可或缺的基准评测体系。
分为三个主要评测能力板块,涵盖数据构建、任务设计与评估策略,整体条理清晰、便于理解。
MME-Unify 评测框架设计详解
本节介绍MME-Unify的数据构建方式、任务标注流程以及统一的评测方法。MME-U将多模态统一模型能力划分为三大类:
- 多模态理解能力- 多模态生成能力- 统一任务能力
多模态理解(Multimodal Understanding)
数据构建
理解类任务根据视觉输入类型划分为三类:
- SIPU(单图感知与理解):评估图文对的理解能力。- MITIU(多图/图文交叉理解):评估模型处理多张图和交替图文输入的能力。- VPU(视频感知与理解):评估模型的视频理解能力。
共收集1900个样本,覆盖OCR、图表解析、空间感知、属性/行为推理等24种任务,其中感知类任务1600条,推理类任务300条,每类子任务不少于50对 QA 样本。
QA 标准化转化
为统一评估标准,所有理解类任务转为四选一多选题,干扰项与正确选项语义接近;无法处理视频的模型则使用关键帧,单图模型取首图。
评估策略
采用规则匹配法过滤答案(如 MME-Realworld),并随机打乱选项顺序以避免位置偏差。最终以平均准确率评估理解能力。
2.2 多模态生成(Multimodal Generation)
任务类型(6类)
1. FIR:图像细节重建2. TIE:文本指导图像编辑3. TIG:文本生成图像4. CIVG:图像+文本生成视频5. TVG:文本生成视频6. VP:视频预测(预测后续帧)
每类任务不少于 200 个样本,数据来源包括 COCO、MSR-VTT、Pexel 等。
数据标准化流程
- 属性统一:将 30 多种属性统一为 Text Prompt、Src Image、Ref Image、Video 等。- 任务专属提示语:为每类生成任务设计 prompt 模板,并统一数据格式。
评估策略
各任务先用专属指标(如 CLIP-I、FID、FVD)评估;再将所有指标标准化到 0–100 分数区间;取标准化后的平均分作为最终生成能力分数,实现跨任务可比性。
2.3 统一任务能力(Unify Capability)
MME-Unify 精心设计了5类混合模态统一任务,每类任务包括文本与图像双重输入输出,体现 U-MLLMs 的综合处理能力:
1. 常识问答生成图像(CSQ)
任务:根据常识谜语类问题选出正确答案并生成相应图像(如“国宝” → 熊猫)。流程:GPT-4o 生成问题,人工搜图,模型需同时答题并作图。
2. 图像编辑与解释(IEE)
任务:理解复杂编辑指令,生成修改图,并解释修改内容。构建方式:文本选项由 GPT-4o 生成,图像干扰项由 InstructPix2Pix 生成。模型需先解释修改内容(文本问答),再输出修改图(图像问答)。
3. 找不同任务(SpotDiff)
来源:SpotDiff 网站模型需识别图像对的不同区域,输出数目和定位图,考察空间记忆和视觉推理能力。
4. 几何题辅助线任务(Auxiliary Lines)
来源:Geometry3K模型需在图上画出解题辅助线,并作答(含逻辑和视觉两部分),考察推理+生成整合能力。
5. 视觉链式推理(Visual CoT)
任务:通过逐步生成导航动作、坐标和迷宫图像来走迷宫,模拟现实中的多步视觉决策过程。每一步包括动作、坐标和图像输出,后续步骤包含历史信息,实现逐步 reasoning。
统一任务评估策略
文本部分:
用 CLIP-T 相似度判断模型生成解释与正确选项的接近程度;或直接选择选项。
图像部分:
用 CLIP-I 计算生成图与选项图像的相似度,选出最高者。
acc 与 acc+:
acc:文本准确率与图像准确率的平均值;acc+:文本和图像都答对的样本占比;
对于 Visual CoT,则分别统计动作、坐标、图像的 acc,再取平均。
最终,MME-U 总得分为理解分 + 生成分 + 统一任务分的平均值,构成系统的、全面的模型评估体系。
有趣的实验发现总结
本文对多模态大模型(MLLMs)和统一多模态大模型(U-MLLMs)进行了系统性评测,总共涵盖了22个主流模型。研究重点集中在三个维度:理解能力(Understanding)生成能力(Generation)以及统一能力(Unify Capability)。评估采用MME-U评分体系,并包含多个细粒度子任务。以下为实验中的关键发现与亮点总结:
理解能力方面
表现最强的模型是闭源的Gemini2.0-flash-exp,在所有理解类任务中遥遥领先。开源阵营中表现最好的是Janus-Flow与Janus-Pro,它们采用了两个独立的视觉编码器,分别用于理解与生成任务,成功避开了如VQGAN等通用 tokenizer 在图像理解上的局限。采用单一tokenizer 的模型(如 Emu3、Show-o)在理解任务上表现普遍较差,即便模型体量相当,也难以达到Janus系列的水准。MIO-Instruct展现了强大的理解能力,其背后是海量多模态数据(包含图像、视频、音频)与复杂三阶段训练流程的支持,强调了数据多样性在理解任务中的重要性。
生成能力方面
在图像生成任务中,U-MLLMs的表现与专注型生成模型的差距不如理解任务那么大举例来说,Gemini2.0-flash-exp 在Text-to-Image任务中甚至超过了DALL·E 3 六个点,展现出强大的生成潜力。多数U-MLLMs(如 EMU3、HermersFlow、GILL)在图像生成任务的平均得分均高于48,显示基础图像生成已具一定可用性。不过,在视频生成任务上仍是短板。尽管如Emu3声称具备视频生成能力,但由于缺乏相应 checkpoint,暂时无法验证。从图像细节还原的角度看,当前开源U-MLLMs与DALL·E等模型仍有显著差距,尤其是在特定文本细节(如T恤号码、背景标语等)上的还原。
统一能力方面(Unify Tasks)
统一任务对模型提出了更高要求——既要生成合理图像,又要完成对应文本推理。目前,开源模型中表现最好的 Anole 在简单任务上也仅有约60%的准确率,在复杂统一任务上几乎没有模型超过30%准确率。在视觉链式推理(Visual CoT)任务中,无一模型能够成功完成多步推理与图像生成结合的完整流程分析显示,统一任务对模型的多模态交叉能力提出了极高要求,目前仍是行业技术瓶颈。
深入分析与趋势观察
当前模型在基础能力(理解/生成)与统一能力之间普遍存在“性能权衡困境”
例如,MiniGPT-5、GILL、Anole 在统一任务设计上更激进,但牺牲了基础理解与生成能力,导致整体分数偏低。
而如MIO-Instruct虽然在基础能力上表现优秀,但在图文交错生成的统一任务中表现不佳。
这种表现差异提示:现有训练范式未能有效整合基础任务与跨模态任务的学习目标,可能需要重新设计对齐策略或任务混合训练流程。
总结
整体来看,U-MLLMs虽然展示了多模态统一任务的潜力,但距离实际可用仍有明显距离。特别是在如何协调理解与生成、单步与多步、图文协同等维度,仍存在诸多技术挑战。MME-Unify提供了一套系统性测评框架,并量化了主流模型的能力上限,为未来模型设计提供了清晰参照与方向指引。
项目地址:
https://mme-unify.github.io
《久久久久无码精品国产H动漫猫咪》,《y85ouztigy6ysf5y》18禁成人🍆🍑🔞漫画
“女仆扒开🍑跪着给客人玩”
男同精品AV㊙️无码网站
……
04月10日
“中国老太太的毛耳耳”楚乔传
↓↓↓
04月10日,(巴黎奥运)羽毛球女单决赛:韩国选手安洗莹摘金 中国选手何冰娇摘银,原神同人游戏18禁黄油,日本做受❌❌❌喷水,⚠️歪歪漫画sss在线观看,女女女女女女HDⅩXXXHD
04月10日,数字中国建设的起点,性瘾大总裁被c呻吟双腿大张bl,全程露脸63老太,FerrPorno💋👙81,男男成人🔞高潮片
04月10日,培育“一县一特”劳务品牌 湖南益阳推动就业民生双向奔赴,香蕉文化漫画黄漫免费网站,uu幼儿儿童网站密码,动漫学生裸体被❌歪歪漫画,玩男生下部的100种方法
04月10日|“十四冬”群众比赛决赛日:河北队包揽速度滑冰双金|雷电将军裸身被❌3D动漫|成人扒开🍑伸进小玩具❌视频|欧美男男GAy露j自慰HD|斗罗大陆❌18禁成人游戏
04月10日|加拿大将也门胡塞武装列为恐怖组织|VK妆主大大的母狗|人与野鲁❌毛片699|体育生裸体㊙️无遮挡头条|老热妇性色506070老热妇
04月10日|贵州玉屏:小骑手比拼儿童滑步车|欧美做爰BBB性BBBBB8|中国❌❌❌❌ZZZZZ视频|偷拍撒尿㊙️视频无打码|蜜桃㊙️av一区二区三区……
04月10日,“五一”假期湖南接待游客1849.47万人次 过夜游客近七成,免费❤成人黄本子,被闺蜜玩到哭百合文肉,含羞草传媒免费进入app老版本,学生的胸❌又黄❌又大原神
04月10日,天舟货运飞船发射频次调整为“两年三发”,爽⋯好大⋯快⋯深点黄瓜视频动漫,校花扒开🐻动漫在线观看网站,免费看污黄网站大全大胸九一,高中男男中国Gay互吃鳮网站
04月10日|还在刮!北京今天大风仍在线阵风6级 最高气温1℃|黄色直播间a|苍井空人乳教师2|91在线无码精品㊙️孕妇|嗯~啊~快点死我游戏
04月10日,宋涛会见台湾三三会参访团,高清码🔞❌♋免费软件,男生吃美女胸❤视频麻豆AV,小心🐤入🍑🍑绅士黄油游戏,巨胸爆乳露双头被❌图片
04月10日,港股继续走强,恒指实现“十连涨”,被npc们啪哭高H肉双男主动漫,斯嘉丽裸被✘到喷水,中国公厕偷拍网站,all散兵肉车污文全肉
04月10日,中欧日韩专家前瞻“6G标准”:需要全球合作,久色熟女PORNO,小静秋·中国,动漫❌少萝❌❌视频,三年片在线看免费高清小说
04月10日|驻菲律宾使馆提醒在菲中国公民加强节假日期间安全防护|marlerbrinx欧美激情|Genshin扒衣服爆乳r18禁止|男人隔着裤子揉j伸进我的下面|扒下内裤露出打嫩嫩的屁股视频
04月10日|(巴黎奥运)李越宏允文允武话射击|鸣人和手鞠打扑克|杨钰莹奶头全乳露出|.擼擼社|撕开👙摸美女奶头和屁股爽
04月10日|推动高质量发展·权威发布|吉林风光电资源发展空间广阔|二次元裸体❌❌网站|国产❌❌❌做受视频|国产裸体美女开腿被❌高清|16女学生小嫩嫩裸体自慰网站
陈芋汐银牌,国足巴林都迫切从对方身上抢分|报告预测:文旅行业和情感消费将成为数字经济增长主要方面|女人扒开腿让男人桶爽|博人❌佐良娜18禁污污|男男GaYGAYS✅男同|洗澡无码自慰av久久久
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺