猫眼电影
猫眼电影记者 卡姆 报道y85ouztigy6ysf5y
MME-Benchmarks团队 投稿量子位 | 公众号 QbitAI
统一多模态大模型(U-MLLMs)逐渐成为研究热点,近期GPT-4o,Gemini-2.0-flash都展现出了非凡的理解和生成能力,而且还能实现跨模态输入输出,比如图像+文本输入,生成图像或文本。
相比传统的多模态模型(比如 GPT-4V 或 DALL·E 3),这类模型在任务适应性和灵活性上更具优势。然而,当前研究领域还存在几个突出的问题:
1. 评测标准混乱:不同研究选用的评测数据集与指标各不相同,使得模型之间难以公平比较;
2. 混合模态生成能力缺乏评测体系:例如,在图像中画辅助线解题、根据推理结果生成图像等案例虽然很有代表性,但没有统一的 benchmark 能够全面测评这类能力。
这些问题严重限制了U-MLLMs的发展和落地应用,因此迫切需要一个系统、标准的评测框架。
主要贡献
MME-Unify(简称 MME-U)正是为了解决上述问题而提出的,具体贡献如下:
首次提出统一评测框架:MME-U 是第一个涵盖“理解”、“生成”与“统一任务(混合模态生成)”的 benchmark,支持从不同维度系统性评估 U-MLLMs 的综合能力。
构建覆盖广泛的任务体系:
从12个现有数据集中筛选整理,形成10大类任务,包含30个子任务理解类任务涵盖:单图感知、多图推理、视频理解等;生成类任务涵盖:文本生成图像、图像编辑、图像转视频等。
统一评测标准:
将理解任务统一转为多选题,使用准确率作为评测指标;将生成任务的多种指标标准化、归一化,输出统一分数,便于横向比较。
设计五类“统一任务”,考察模型对多模态信息的协同处理能力:
图像编辑与解释:模型需理解编辑指令并执行;常识问答生成图像:模型需根据问答内容生成合适图像;辅助线任务:要求模型画出解几何题所需的辅助线并解题;找不同(SpotDiff):在两张图中找并画出差异;视觉链式推理(Visual CoT):边推理边生成下一步图像结果。
实测分析12个主流U-MLLMs表现:包括 Janus-Pro、EMU3、Gemini 2 等,发现它们在多项任务中差异显著,尤其是在复杂生成任务和指令理解方面仍有很大提升空间。
揭示了开放模型与闭源模型之间的差距:闭源模型如GPT-4o、Gemini 2.0 Flash在生成质量与细节还原度方面甚至优于一些专用生成模型(如 DALL·E-3);而开放模型的性能则尚显不足。
MME-Unify不仅为统一多模态大模型的评估提供了缺失已久的标准化工具,也进一步推动了这一方向从“炫技”向“实用”迈进,是当前U-MLLMs 领域不可或缺的基准评测体系。
分为三个主要评测能力板块,涵盖数据构建、任务设计与评估策略,整体条理清晰、便于理解。
MME-Unify 评测框架设计详解
本节介绍MME-Unify的数据构建方式、任务标注流程以及统一的评测方法。MME-U将多模态统一模型能力划分为三大类:
- 多模态理解能力- 多模态生成能力- 统一任务能力
多模态理解(Multimodal Understanding)
数据构建
理解类任务根据视觉输入类型划分为三类:
- SIPU(单图感知与理解):评估图文对的理解能力。- MITIU(多图/图文交叉理解):评估模型处理多张图和交替图文输入的能力。- VPU(视频感知与理解):评估模型的视频理解能力。
共收集1900个样本,覆盖OCR、图表解析、空间感知、属性/行为推理等24种任务,其中感知类任务1600条,推理类任务300条,每类子任务不少于50对 QA 样本。
QA 标准化转化
为统一评估标准,所有理解类任务转为四选一多选题,干扰项与正确选项语义接近;无法处理视频的模型则使用关键帧,单图模型取首图。
评估策略
采用规则匹配法过滤答案(如 MME-Realworld),并随机打乱选项顺序以避免位置偏差。最终以平均准确率评估理解能力。
2.2 多模态生成(Multimodal Generation)
任务类型(6类)
1. FIR:图像细节重建2. TIE:文本指导图像编辑3. TIG:文本生成图像4. CIVG:图像+文本生成视频5. TVG:文本生成视频6. VP:视频预测(预测后续帧)
每类任务不少于 200 个样本,数据来源包括 COCO、MSR-VTT、Pexel 等。
数据标准化流程
- 属性统一:将 30 多种属性统一为 Text Prompt、Src Image、Ref Image、Video 等。- 任务专属提示语:为每类生成任务设计 prompt 模板,并统一数据格式。
评估策略
各任务先用专属指标(如 CLIP-I、FID、FVD)评估;再将所有指标标准化到 0–100 分数区间;取标准化后的平均分作为最终生成能力分数,实现跨任务可比性。
2.3 统一任务能力(Unify Capability)
MME-Unify 精心设计了5类混合模态统一任务,每类任务包括文本与图像双重输入输出,体现 U-MLLMs 的综合处理能力:
1. 常识问答生成图像(CSQ)
任务:根据常识谜语类问题选出正确答案并生成相应图像(如“国宝” → 熊猫)。流程:GPT-4o 生成问题,人工搜图,模型需同时答题并作图。
2. 图像编辑与解释(IEE)
任务:理解复杂编辑指令,生成修改图,并解释修改内容。构建方式:文本选项由 GPT-4o 生成,图像干扰项由 InstructPix2Pix 生成。模型需先解释修改内容(文本问答),再输出修改图(图像问答)。
3. 找不同任务(SpotDiff)
来源:SpotDiff 网站模型需识别图像对的不同区域,输出数目和定位图,考察空间记忆和视觉推理能力。
4. 几何题辅助线任务(Auxiliary Lines)
来源:Geometry3K模型需在图上画出解题辅助线,并作答(含逻辑和视觉两部分),考察推理+生成整合能力。
5. 视觉链式推理(Visual CoT)
任务:通过逐步生成导航动作、坐标和迷宫图像来走迷宫,模拟现实中的多步视觉决策过程。每一步包括动作、坐标和图像输出,后续步骤包含历史信息,实现逐步 reasoning。
统一任务评估策略
文本部分:
用 CLIP-T 相似度判断模型生成解释与正确选项的接近程度;或直接选择选项。
图像部分:
用 CLIP-I 计算生成图与选项图像的相似度,选出最高者。
acc 与 acc+:
acc:文本准确率与图像准确率的平均值;acc+:文本和图像都答对的样本占比;
对于 Visual CoT,则分别统计动作、坐标、图像的 acc,再取平均。
最终,MME-U 总得分为理解分 + 生成分 + 统一任务分的平均值,构成系统的、全面的模型评估体系。
有趣的实验发现总结
本文对多模态大模型(MLLMs)和统一多模态大模型(U-MLLMs)进行了系统性评测,总共涵盖了22个主流模型。研究重点集中在三个维度:理解能力(Understanding)生成能力(Generation)以及统一能力(Unify Capability)。评估采用MME-U评分体系,并包含多个细粒度子任务。以下为实验中的关键发现与亮点总结:
理解能力方面
表现最强的模型是闭源的Gemini2.0-flash-exp,在所有理解类任务中遥遥领先。开源阵营中表现最好的是Janus-Flow与Janus-Pro,它们采用了两个独立的视觉编码器,分别用于理解与生成任务,成功避开了如VQGAN等通用 tokenizer 在图像理解上的局限。采用单一tokenizer 的模型(如 Emu3、Show-o)在理解任务上表现普遍较差,即便模型体量相当,也难以达到Janus系列的水准。MIO-Instruct展现了强大的理解能力,其背后是海量多模态数据(包含图像、视频、音频)与复杂三阶段训练流程的支持,强调了数据多样性在理解任务中的重要性。
生成能力方面
在图像生成任务中,U-MLLMs的表现与专注型生成模型的差距不如理解任务那么大举例来说,Gemini2.0-flash-exp 在Text-to-Image任务中甚至超过了DALL·E 3 六个点,展现出强大的生成潜力。多数U-MLLMs(如 EMU3、HermersFlow、GILL)在图像生成任务的平均得分均高于48,显示基础图像生成已具一定可用性。不过,在视频生成任务上仍是短板。尽管如Emu3声称具备视频生成能力,但由于缺乏相应 checkpoint,暂时无法验证。从图像细节还原的角度看,当前开源U-MLLMs与DALL·E等模型仍有显著差距,尤其是在特定文本细节(如T恤号码、背景标语等)上的还原。
统一能力方面(Unify Tasks)
统一任务对模型提出了更高要求——既要生成合理图像,又要完成对应文本推理。目前,开源模型中表现最好的 Anole 在简单任务上也仅有约60%的准确率,在复杂统一任务上几乎没有模型超过30%准确率。在视觉链式推理(Visual CoT)任务中,无一模型能够成功完成多步推理与图像生成结合的完整流程分析显示,统一任务对模型的多模态交叉能力提出了极高要求,目前仍是行业技术瓶颈。
深入分析与趋势观察
当前模型在基础能力(理解/生成)与统一能力之间普遍存在“性能权衡困境”
例如,MiniGPT-5、GILL、Anole 在统一任务设计上更激进,但牺牲了基础理解与生成能力,导致整体分数偏低。
而如MIO-Instruct虽然在基础能力上表现优秀,但在图文交错生成的统一任务中表现不佳。
这种表现差异提示:现有训练范式未能有效整合基础任务与跨模态任务的学习目标,可能需要重新设计对齐策略或任务混合训练流程。
总结
整体来看,U-MLLMs虽然展示了多模态统一任务的潜力,但距离实际可用仍有明显距离。特别是在如何协调理解与生成、单步与多步、图文协同等维度,仍存在诸多技术挑战。MME-Unify提供了一套系统性测评框架,并量化了主流模型的能力上限,为未来模型设计提供了清晰参照与方向指引。
项目地址:
https://mme-unify.github.io
??时事1:男仆撑开🍑让人玩弄
??04月12日,全国政协十四届二次会议在京闭幕,
这么长的一段时间里,小不点熬祭灵血肉为宝药,加以辅助,开出第四座“火山口”,出现在其背后,“岩浆”流淌,精气滚滚,深是神秘。
,芙宁娜狂揉下部❌喷水图片。??04月12日,税务部门创新举措助力京津冀协同发展,
“到了初始地,最高能只能发挥出搬血境的实力,纪录依然难破。”
,捆绑草草18🈲调教女仆,黑土被❌🐻黄漫,免费观看视频网站。??时事2:惩罚女女仆拨开🍑用冰块动漫
??04月12日,戏剧巡游《朋克星球 2060》亮相桂林艺术节,
所以,必须切实加强干部的廉洁自律意识。说到廉洁自律,既是做人之本,更是为政为官之本。领导干部坚持廉洁自律,既是基本的工作要求和纪律要求,更是一种基本的道德要求和修养要求。廉洁自律,贵在廉洁,难在自律。要做到廉洁自律,就要从灵魂深处自重、自省、自警、自制、自励;就要慎微、慎独、慎权;就要受得住委屈。从细微之处做起,多思"一丝一粒,我之名节;一厘一毫,民之脂膏",勿以恶小而为之,自觉抵御金钱和美色的诱惑,筑牢反腐堤坝。要始终坚持自律意识,常修为政之德,常思贪欲之害,常怀律己之心,时常对照党章,在日常工作和生活中严格要求自我,不断提升自我的道德水准和精神品质,不断提高拒腐防变的本领,做廉洁自律的表率。
,亚洲AV18🈲️❤️在线观看,朵莉亚裸乳被爆❌白浆漫画,无码自慰成人游戏。??04月12日,云南迪庆纳帕海首次记录到国家二级保护动物赤狐,
但凡敢去挑战这类生物的人族强者,都注定要史上留名,而且将来肯定要进入百族战场,进行争霸,为人族争取利益。
,美女扒开内裤羞羞❌漫画,美女被绑起来扒开私密部位,3D❌❌❌giantess网站。??时事3:MM131杨晨晨被❌到喷水
??04月12日,北大师生看红河,有何不同?,
一群孩子闻言都一震,盯着小不点看个不停,他们这样的天才注定要上那个可怕战场,早晚有一天要面对。
,欧美∨iboss,揉⋯啊⋯嗯~出水了震动电视剧,18XXXxⅩHD100%。??04月12日,“五一”假期乐山大佛景区游客畅游人气旺,
二是要端正学习态度,明确学习目标。我们要树立“在工作中学习,在学习中工作”的学习理念,形成了“工作就是学习,学习就是工作”的全新理念。各村委会干部要端正自己的学习态度,结合各自实际,研究制定学习培训,明确学习培训目标任务、学习内容、方式方法和实施步骤,营造了人人皆学、时时能学、处处可学的浓厚氛围,广大村干部的学习能力、实践能力和创新能力要得到进一步提高。
,妲己含精肉臀迎合娇吟小说,绫华被❌吸乳羞羞漫画在线,嗯灬啊灬把腿张开灬A片功能介绍。??时事4:美女漫画网站㊙️免费
??04月12日,东西问丨包亚明:电视剧《繁花》“港风”绽放,沪港双城如何“双星辉映”?,
作为教师,在新学期里,我们依然会本着“对学生负责”的宗旨,以敬业务实的工作精神开拓进取;立足于讲台,向课堂教学要效率、要质量,奏响大面积提高教学质量的凯歌!用新鲜的活水浇灌求知的心灵,用灵动的智慧音符去弹奏学生的“心灵之乐”,用和煦的道德微风去抚慰学生稚嫩的灵魂!力争在新的学期里取得更大的成绩。学生的内心世界就像一张纯洁的白纸,让我们用爱和智慧描绘一幅幅多姿多彩的图画,谱写出一曲曲美妙的乐章;让我们用生命之火点燃孩子们理想的明灯。虽然我们的名字不会名垂千古,流芳百世,但我们会骄傲地说:“我们的青春和生命将在一批又一批学生身上得到延续和永生!”“人间春色本无价,笔底耕耘总有情”只要从内心深处充满了对教育事业的无限忠诚,就能实现我们中国人高素质、高修养的宏伟目标。
,丝袜上裹🈵了精子,碧蓝航线喂奶涩图,女仆扒开🍑让客人添动漫。??04月12日,解锁复兴号智能动车组更多体验,
“应该是骨文的神秘力量,令那处神藏沉入了大地下,漂移向了远方,无人知晓在何处了。”族长一声叹息。
,司马ゆうじ动画官方网站,面具公社在线网页登录入口,免费白丝jk乳。责编:林志强
审核:郑茯苓
责编:阿斯兰诺娃