本文系网易新闻?网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。
作者 | 陈骏达编辑 | 心缘
智东西3月27日报道,今天,阿里巴巴通义千问发布了新一代端到端多模态旗舰模型Qwen2.5-Omni-7B。这一模型能够实时处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。
该模型现已在Hugging Face、魔搭、DashScope和GitHub上开源,采用宽松的Apache 2.0开源协议,模型论文也全面开源,详解了背后的技术细节。同时,用户可以在Demo中体验互动功能,或是在Qwen Chat中像打电话或视频通话一样与Qwen聊天。
千问团队称,Qwen2.5-Omni采用了全新的Thinker-Talker架构,支持跨模态理解和流式文本、语音响应,支持分块输入和即时输出。
在与同等规模的模型进行基准测试比较时,Qwen2.5-Omni表现出一定优势,并超过了Gemini 1.5 Pro和GPT-4o-mini等闭源模型。
Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio,并与Qwen2.5-VL-7B保持同等水平。在权威多模态理解测试OmniBench上,Qwen2.5-Omni获得了SOTA表现,超越Gemini 1.5 Pro,提升幅度达30.8%。
Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理类似的效果,在MMLU通用知识理解和GSM8K数学推理等基准测试获得了不错的成绩。
开源地址:https://huggingface.co/Qwen/Qwen2.5-Omni-7B
论文地址:https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
Demo体验:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo
一、全模态实时交互,看一眼食材秒出食谱
在博客文章中,千问团队放出了多个Qwen2.5-Omni在现实世界多模态场景中的测试案例。
目前,Qwen2.5-Omni共有Cherry和Ethan两种语音可供选择。Cherry音色对应的是女声,Ethan音色对应的是男声。从听感来看,这两种语音真实、自然,会在说话时加入停顿、语气词等内容。
Qwen2.5-Omni能在场景中实时处理、分析多模态内容。
例如,在下厨时,可以拿着食材询问通义应该如何处理,或是环视厨房里的调料,看究竟应该用哪些调料,可谓是厨房小白福音了。
Qwen2.5-Omni能听懂音乐,判断歌曲是什么风格,采用了何种音调,并提出对原创歌曲歌词、节奏等方面的意见。
在绘画时,Qwen2.5-Omni可以根据草图判断绘画内容,还能给出画面的构图建议。
此外,Qwen2.5-Omni还可以在户外场景判断天气、在学习场景中辅助解题、论文阅读,具备较好的通用多模态能力。
二、自研端到端架构,获得多模态理解基准测试SOTA
Qwen2.5-Omni采用Thinker-Talker双核架构。Thinker模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容。
Talker模块则类似发声器官,以流式方式接收Thinker实时输出的语义表征与文本,流畅合成离散语音单元。
Thinker基于Transformer解码器架构,融合音频/图像编码器进行特征提取;Talker则采用双轨自回归Transformer解码器设计,在训练和推理过程中直接接收来自Thinker的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。
千问团队还提出了一种新的位置编码技术,称为TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的同步。
在多项基准测试中,Qwen2.5-Omni在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及闭源模型。
值得一提的是,在多模态理解基准测试OmniBench上,Qwen2.5-Omni达到了SOTA表现,其得分为56.13%,超过第2名Gemini 1.5 Pro的42.91%。
在视频到文本任务上,Qwen2.5-Omni也超过了原本的开源SOTA模型和GPT-4o-mini。
在其他基准测试中,如语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感),Qwen2.5-Omni的成绩均超过了Qwen家族的其他单模态模型。
结语:更强大的Qwen2.5-Omni还在路上
Qwen2.5-Omni-7B一经发布便获得海内外用户的关注,有不少网友已经开启了催更模式,比如增加对小语种的支持、开发千问海外App,或是与智能眼镜等硬件结合。
据千问团队介绍,未来,他们还会发布能力更强、速度更快的模型,并扩展其多模态输出能力,涵盖图像、视频和音乐等多种形式。
《小舞开腿㊙️让人桶爽的网站》,《y85ouztigy6ysf5y》69日本人XXXX16-18
“成人高潮片无爱不欢”
欧美vps与windows性能比较1
……
04月05日
“蜜桃隐藏补单视频”被南海沉船打捞出的文物惊艳了
↓↓↓
04月05日,东莞诞生首个“百亿村”,黑土裸体❌开腿视频,扒掉乳罩秘露出奶头视软件,美女脱内衣露㊙️视频,白丝秦怡宁被啪到腿软
04月05日,巴基斯坦发生两起翻车事故 已造成至少35人死亡,照美冥被扒开腿做❌视频,女生用懒羊羊音色帮保安录音,原神芙宁娜裸体❌开腿羞羞,AI聊天成人18禁秘
04月05日,习言道|让传统医药更好造福各国人民,打纲手光屁股调教,女女les🈲🔞,男同gv自慰🔞免费软件,紧急大通知狼拿笔记的用途和作用
04月05日|中国南北互赠特产引农业“大摸底” 多款“隐藏特产”走俏|吃初二学生的小馒头|我被同桌调教到水都出来了|1000部免费A片毛片|做受❌❌❌高潮AAAA动漫
04月05日|(两会观察)外媒聚焦中国经济发展关键词|GaYGAYS✅腹肌猛男洗澡|娇妻裸体交换俱乐部61|哪灬你的鸣巴好大好爽男男|小🐔🐔伸进🈲🔞🔞重口
04月05日|美国大选独立竞选人小肯尼迪宣布暂停竞选并支持特朗普|聚友客栈-人人为我飞龙回来了|bestiaⅠity3D性狼交!|云缨裸体被❌羞羞漫画app|MMD➕无码➕高潮➕……
04月05日,(文化中国行)天下三分明月夜 文脉活化看扬州,男人下部㊙️免费视频,www.免费视频🈲🈲🈲网站,小小拗女BBwBBwBBw视频,扒开美女狂揉下部
04月05日,福建省花鸟画名家邀请展开展 迎新春,原神涩涩❌18禁游戏,贞子成人版在线播放,美女蹲着拉屎无遮挡㊙️,gey男男亚洲✅✅✅网站
04月05日|【新春纪事】“民”星登台 “村晚”展示乡村新风貌|国产婬妇❌❌❌❌❌半推半就|玛奇玛被❌裸黄动漫|13岁女孩全身光检查|惩罚女扒开用棉签和冰块视频
04月05日,南京高温“卷土重来” 滑冰场里觅清凉,男生露出🐔🐔给别人摸作文,成人国产AV精品㊙️APP,成人小说网站❌免费入口,小黄片视频
04月05日,山西临汾通报7起违规使用医保基金案例 侯马市人民医院两次违规,国产精品18🈲高潮网站,国语对白少妇SPA私密按摩,女人裸体❌❌AI去衣APP,强摸双乳18禁视频下载
04月05日,“世运蓉港行”主题列车发车警惕掼蛋沉迷助长消颓之气 ,旧番H无码里番6080在线观看,女人一级A片色情直播,裸体㊙️无遮挡打屁股黄瓜视频,女性脱👙给我揉🐻漫画
04月05日|和谐共生|我们的生活与“碳”有什么关系?|偷自拍搓逼视频|十八禁🔞免费网软件视频下载|初音未来18禁爆❌裸体|白丝袜❌裸体爽出白浆网站
04月05日|河南:三门峡水库实时调整下泄流量确保安全度汛|芙宁娜裸体被❌黄漫|男同🔞被🌿出|男同被c黄秘网站麻豆|pr社 私人玩物福利姬
04月05日|三亚冲浪“网红”村“五一”假期备受亲子客群青睐|亚洲18🈲在线看污www麻豆|17女上课自慰喷水了|may18女rapper|日本女人自慰
陈如桂一审被判无期徒刑,黄金连跌四天|【新春纪事】探访春运里的“京沪神车”|男GayGays✅亚洲体育生|小🐤🐤戳进🍑无遮挡调教|黑料🔞在线观看喷潮数学|老师把腿抬高撕开白丝袜喷水视频
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺