bc贷

搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源

2025-04-11 08:25:24
来源:

猫眼电影

作者:

苟芸慧

手机查看

  猫眼电影记者 李鹏翔 报道y85ouztigy6ysf5y

MME-Benchmarks团队 投稿量子位 | 公众号 QbitAI

统一多模态大模型(U-MLLMs)逐渐成为研究热点,近期GPT-4o,Gemini-2.0-flash都展现出了非凡的理解和生成能力,而且还能实现跨模态输入输出,比如图像+文本输入,生成图像或文本。

相比传统的多模态模型(比如 GPT-4V 或 DALL·E 3),这类模型在任务适应性和灵活性上更具优势。然而,当前研究领域还存在几个突出的问题:

1. 评测标准混乱:不同研究选用的评测数据集与指标各不相同,使得模型之间难以公平比较;

2. 混合模态生成能力缺乏评测体系:例如,在图像中画辅助线解题、根据推理结果生成图像等案例虽然很有代表性,但没有统一的 benchmark 能够全面测评这类能力。

这些问题严重限制了U-MLLMs的发展和落地应用,因此迫切需要一个系统、标准的评测框架。

主要贡献

MME-Unify(简称 MME-U)正是为了解决上述问题而提出的,具体贡献如下:

首次提出统一评测框架:MME-U 是第一个涵盖“理解”、“生成”与“统一任务(混合模态生成)”的 benchmark,支持从不同维度系统性评估 U-MLLMs 的综合能力。

构建覆盖广泛的任务体系:

从12个现有数据集中筛选整理,形成10大类任务,包含30个子任务理解类任务涵盖:单图感知、多图推理、视频理解等;生成类任务涵盖:文本生成图像、图像编辑、图像转视频等。

统一评测标准:

将理解任务统一转为多选题,使用准确率作为评测指标;将生成任务的多种指标标准化、归一化,输出统一分数,便于横向比较。

设计五类“统一任务”,考察模型对多模态信息的协同处理能力:

图像编辑与解释:模型需理解编辑指令并执行;常识问答生成图像:模型需根据问答内容生成合适图像;辅助线任务:要求模型画出解几何题所需的辅助线并解题;找不同(SpotDiff):在两张图中找并画出差异;视觉链式推理(Visual CoT):边推理边生成下一步图像结果。

实测分析12个主流U-MLLMs表现:包括 Janus-Pro、EMU3、Gemini 2 等,发现它们在多项任务中差异显著,尤其是在复杂生成任务和指令理解方面仍有很大提升空间。

揭示了开放模型与闭源模型之间的差距:闭源模型如GPT-4o、Gemini 2.0 Flash在生成质量与细节还原度方面甚至优于一些专用生成模型(如 DALL·E-3);而开放模型的性能则尚显不足。

MME-Unify不仅为统一多模态大模型的评估提供了缺失已久的标准化工具,也进一步推动了这一方向从“炫技”向“实用”迈进,是当前U-MLLMs 领域不可或缺的基准评测体系。

分为三个主要评测能力板块,涵盖数据构建、任务设计与评估策略,整体条理清晰、便于理解。

MME-Unify 评测框架设计详解

本节介绍MME-Unify的数据构建方式、任务标注流程以及统一的评测方法。MME-U将多模态统一模型能力划分为三大类:

- 多模态理解能力- 多模态生成能力- 统一任务能力

多模态理解(Multimodal Understanding)

数据构建

理解类任务根据视觉输入类型划分为三类:

- SIPU(单图感知与理解):评估图文对的理解能力。- MITIU(多图/图文交叉理解):评估模型处理多张图和交替图文输入的能力。- VPU(视频感知与理解):评估模型的视频理解能力。

共收集1900个样本,覆盖OCR、图表解析、空间感知、属性/行为推理等24种任务,其中感知类任务1600条,推理类任务300条,每类子任务不少于50对 QA 样本。

QA 标准化转化

为统一评估标准,所有理解类任务转为四选一多选题,干扰项与正确选项语义接近;无法处理视频的模型则使用关键帧,单图模型取首图。

评估策略

采用规则匹配法过滤答案(如 MME-Realworld),并随机打乱选项顺序以避免位置偏差。最终以平均准确率评估理解能力。

2.2 多模态生成(Multimodal Generation)

任务类型(6类)

1. FIR:图像细节重建2. TIE:文本指导图像编辑3. TIG:文本生成图像4. CIVG:图像+文本生成视频5. TVG:文本生成视频6. VP:视频预测(预测后续帧)

每类任务不少于 200 个样本,数据来源包括 COCO、MSR-VTT、Pexel 等。

数据标准化流程

- 属性统一:将 30 多种属性统一为 Text Prompt、Src Image、Ref Image、Video 等。- 任务专属提示语:为每类生成任务设计 prompt 模板,并统一数据格式。

评估策略

各任务先用专属指标(如 CLIP-I、FID、FVD)评估;再将所有指标标准化到 0–100 分数区间;取标准化后的平均分作为最终生成能力分数,实现跨任务可比性。

2.3 统一任务能力(Unify Capability)

MME-Unify 精心设计了5类混合模态统一任务,每类任务包括文本与图像双重输入输出,体现 U-MLLMs 的综合处理能力:

1. 常识问答生成图像(CSQ)

任务:根据常识谜语类问题选出正确答案并生成相应图像(如“国宝” → 熊猫)。流程:GPT-4o 生成问题,人工搜图,模型需同时答题并作图。

2. 图像编辑与解释(IEE)

任务:理解复杂编辑指令,生成修改图,并解释修改内容。构建方式:文本选项由 GPT-4o 生成,图像干扰项由 InstructPix2Pix 生成。模型需先解释修改内容(文本问答),再输出修改图(图像问答)。

3. 找不同任务(SpotDiff)

来源:SpotDiff 网站模型需识别图像对的不同区域,输出数目和定位图,考察空间记忆和视觉推理能力。

4. 几何题辅助线任务(Auxiliary Lines)

来源:Geometry3K模型需在图上画出解题辅助线,并作答(含逻辑和视觉两部分),考察推理+生成整合能力。

5. 视觉链式推理(Visual CoT)

任务:通过逐步生成导航动作、坐标和迷宫图像来走迷宫,模拟现实中的多步视觉决策过程。每一步包括动作、坐标和图像输出,后续步骤包含历史信息,实现逐步 reasoning。

统一任务评估策略

文本部分:

用 CLIP-T 相似度判断模型生成解释与正确选项的接近程度;或直接选择选项。

图像部分:

用 CLIP-I 计算生成图与选项图像的相似度,选出最高者。

acc 与 acc+:

acc:文本准确率与图像准确率的平均值;acc+:文本和图像都答对的样本占比;

对于 Visual CoT,则分别统计动作、坐标、图像的 acc,再取平均。

最终,MME-U 总得分为理解分 + 生成分 + 统一任务分的平均值,构成系统的、全面的模型评估体系。

有趣的实验发现总结

本文对多模态大模型(MLLMs)和统一多模态大模型(U-MLLMs)进行了系统性评测,总共涵盖了22个主流模型。研究重点集中在三个维度:理解能力(Understanding)生成能力(Generation)以及统一能力(Unify Capability)。评估采用MME-U评分体系,并包含多个细粒度子任务。以下为实验中的关键发现与亮点总结:

理解能力方面

表现最强的模型是闭源的Gemini2.0-flash-exp,在所有理解类任务中遥遥领先。开源阵营中表现最好的是Janus-Flow与Janus-Pro,它们采用了两个独立的视觉编码器,分别用于理解与生成任务,成功避开了如VQGAN等通用 tokenizer 在图像理解上的局限。采用单一tokenizer 的模型(如 Emu3、Show-o)在理解任务上表现普遍较差,即便模型体量相当,也难以达到Janus系列的水准。MIO-Instruct展现了强大的理解能力,其背后是海量多模态数据(包含图像、视频、音频)与复杂三阶段训练流程的支持,强调了数据多样性在理解任务中的重要性。

生成能力方面

在图像生成任务中,U-MLLMs的表现与专注型生成模型的差距不如理解任务那么大举例来说,Gemini2.0-flash-exp 在Text-to-Image任务中甚至超过了DALL·E 3 六个点,展现出强大的生成潜力。多数U-MLLMs(如 EMU3、HermersFlow、GILL)在图像生成任务的平均得分均高于48,显示基础图像生成已具一定可用性。不过,在视频生成任务上仍是短板。尽管如Emu3声称具备视频生成能力,但由于缺乏相应 checkpoint,暂时无法验证。从图像细节还原的角度看,当前开源U-MLLMs与DALL·E等模型仍有显著差距,尤其是在特定文本细节(如T恤号码、背景标语等)上的还原。

统一能力方面(Unify Tasks)

统一任务对模型提出了更高要求——既要生成合理图像,又要完成对应文本推理。目前,开源模型中表现最好的 Anole 在简单任务上也仅有约60%的准确率,在复杂统一任务上几乎没有模型超过30%准确率。在视觉链式推理(Visual CoT)任务中,无一模型能够成功完成多步推理与图像生成结合的完整流程分析显示,统一任务对模型的多模态交叉能力提出了极高要求,目前仍是行业技术瓶颈。

深入分析与趋势观察

当前模型在基础能力(理解/生成)与统一能力之间普遍存在“性能权衡困境”

例如,MiniGPT-5、GILL、Anole 在统一任务设计上更激进,但牺牲了基础理解与生成能力,导致整体分数偏低。

而如MIO-Instruct虽然在基础能力上表现优秀,但在图文交错生成的统一任务中表现不佳。

这种表现差异提示:现有训练范式未能有效整合基础任务与跨模态任务的学习目标,可能需要重新设计对齐策略或任务混合训练流程。

总结

整体来看,U-MLLMs虽然展示了多模态统一任务的潜力,但距离实际可用仍有明显距离。特别是在如何协调理解与生成、单步与多步、图文协同等维度,仍存在诸多技术挑战。MME-Unify提供了一套系统性测评框架,并量化了主流模型的能力上限,为未来模型设计提供了清晰参照与方向指引。

项目地址:

https://mme-unify.github.io

??时事1:挠白丝美女脚心🦶🏻

??04月11日,述评:运动员退役,人生“新起点”如何开启?,

  最近一段时间,小不点石昊常与三头幼鸟厮混,摸索出了不少门道,族长石云峰也乐得他们凑在一起。

,美女cos裸体被❌羞羞。

??04月11日,海南以更高标准推进生态文明建设 争创美丽中国先行区,

  “行,有把力气啊,还真轮起来了。”有人点头。

,FreeⅩXXXVHD,亚洲AV无码㊙️北野未奈,jm350234黑土。

??时事2:美女扒开腿❌裸体网

??04月11日,2024东莞全球招商大会签约总金额达2565亿元,

  “真爽啊!”我心里美美的,“哼!我的妈妈还说我骑车不行,要慢点,真没劲!”我在想着得时候,听到一个小伙伴的呼叫,心一走神,我的车把来了一个360度的大转弯。我的头脑一下子空白了,听到伙伴的着急的叫声,我回过神来。啊!我看到了血,腿上,胳膊上都流了血,嘴太疼了,一摸,嘴唇上掉了皮,嘴里的两颗前门牙磕掉了一半。我的新裤子也裂了个大口子。我动了动胳膊和腿没太大问题。我真后悔,如果把嘴磕裂了,把胳膊摔折了,我如何去上学呀!我的泪掉了下来。

,Video纲手❌自慰爽naruto,曹颖被扒开腿坐做❌同人小说,furry狼人Gay榨精网站。

??04月11日,评论:外部势力对黎智英案的造谣抹黑注定无功且自辱,

  最后,是加强基层民主*建设,促进农村社会稳定,推进和谐鄞江建设的需要。改革开放以来,我镇经济得到迅猛发展,广大农民的生活水平有了大幅度提高并逐步走向富裕。同时,农村发展中也暴露和反映出一些民主建设问题。从我镇实际情况看,个别村级管理制度不健全,村民法制观念淡薄;一些村“两委”关系不协调,村党支部书记和村民委员会主任相互争权,班子内耗严重;还有个别村财务管理长期混乱,村务公开不正常不规范,群众意见很大。这些都极大地影响了村级班子和干部在群众中的威信,影响了当前我镇各项工作的开展。因此,村级组织存在的这些突出问题,迫切需要一套行之有效的制度来加以规范和约束。我们举办这次培训班,目的就是给大家培训关于规范村务管理方面的知识,并结合各村实际,探讨如何规范我镇村务管理的具体办法。通过这次培训,进一步提高各村领导干部的政策业务水平,增强大家的法治意识和民主意识,推动我镇村务工作逐步实现民主化、制度化、规范化和公开化,落实好广大群众在村务管理工作中的知情权、管理权、决策权和监督权,把我镇的村务管理工作推上一个新的台阶,为开展和谐鄞江建设提供强有力的组织保证。

,亲妺妺的小泬让我进去微博,不知火舞裸乳被爆❌白浆的漫漫画,歪歪网站小黃片㊙️🈲真人。

??时事3:雏田爆乳被捏胸吃奶的视频

??04月11日,兴业银行2024年半年报:持续打造价值银行 营收利润增速回正,

  一是领导重视,精心组织。 “磨刀不误砍柴工。”举办全镇镇村干部培训会议是新形势新任务新要求下进行的一项非常重要的工作,是培养高素质的基层干部队伍的重要途径。镇党委政府十分重视这次培训工作,提前精心谋划,召开书记办公会议,安排专人负责,落实专人授课,反复研究课题,明确专人从事后勤保障工作,可以说是早计划、早安排、早落实,确保培训会议在年假刚一结束就及时召开。在三天多的培训中,我们也是严密组织,有条不紊,秩序井然。

,扒开狂揉喷水动漫,欧美夜外XXXXX高清在线,唐三脱了小舞内裤猛烈进入。

??04月11日,江西九江八里湖新区打造特色民宿 唤醒区域旅游新业态,

  人们吃惊的发现,他脱下了一层老皮,黑色的焦皮剥落后,露出一具洁白晶莹的小小躯体,流动宝光。

,原神夜兰裸体❌开腿本子,91嫩草在线观看无套中出,妲己含精肉臀迎合娇吟小说。

??时事4:美女露出🐻让男生揉扑克热吻

??04月11日,港澳居民“北上”+内地居民出境游 深圳各口岸迎来暑期客流高峰,

  小红鸟想阻击,可是人族体魄太弱,只要稍微一触碰,所有人就会在血盆大口中爆碎,化成血雾,因为这些人都在凶兽的宝术笼罩范围内。

,二次元18禁裸乳无遮挡图片,初高中校园女厕偷拍,中美做受高潮6。

??04月11日,中国赴黎维和医疗分队与友军联合开展伤员救治演练,

  “咦……”老妪皱眉,觉得像是遗漏了什么,眸子中银色符文闪烁,宛若一片星河在幻灭。

,动漫裸体❌挤奶羞羞,雷电将军被❌疯狂自慰喷水,珐露珊裸体爆乳露双奶头。

责编:肖塘

审核:朱思发

责编:张和民

相关推荐 换一换

Copyright (C) 2001- Dzwww   鲁ICP备09023866号-1

Sitemap