阿里开源首个全模态大模型,将给产业带来哪些机会?
界面新闻记者 | 肖芳界面新闻编辑 | 文姝琪
3月27日凌晨,阿里巴巴发布并开源首个端到端全模态大模型通义千问Qwen2.5-Omni,可同时处理文本、图像、音频和视频等多种输入,并实时生成文本与自然语音合成输出。
目前,市场上的全模态大模型较为有限。在此之前,国内外主流科技公司只有OpenAI发布过全模态大模型GPT-4o。GPT-4o的参数规模为200B,而Qwen2.5-Omni仅为7B,这一尺寸对于端侧部署特别是手机本地部署十分友好。
在一系列同等规模的单模态模型权威基准测试中,Qwen2.5-Omni展现出了全球最强的全模态优异性能。其中,Hugging Face的测试显示,Qwen2.5-Omni在语音理解、图片理解、视频理解、语音生成等领域的测评分数,均领先于专门的Qwen2-Audio以及Qwen2.5-VL模型,且语音生成测评分数(4.51)达到了与人类持平的能力。
据界面新闻了解,Qwen2.5-Omni在低参数规模情况下全模态性能表现优异的主要原因是技术的创新突破。Qwen2.5-Omni采用了通义团队全新首创的Thinker-Talker双核架构、Position Embedding(位置嵌入)融合音视频技术、位置编码算法TMRoPE(Time-aligned Multimodal RoPE)。相比之下,GPT-4o的基础仍然是Transformer架构,只是针对多模态数据进行了优化。
具体来讲,Transformer架构是单一流式计算,采用自注意力机制,一次性处理整个输入序列,不区分“思考”和“表达”,所有计算都在同一层次上完成,导致大模型在推理复杂问题时计算开销较高。Thinker-Talker双核架构区分“思考”和“表达”,Thinker负责深度推理、逻辑思维和复杂认知任,Talker负责将思考结果高效转化为流畅的语言表达或其他输出。Thinker进行多步推理,而Talker只需高效生成结果,从而优化计算效率。
在全新的技术架构下,这款全模态模型的交互能力又上了一个新的台阶,不仅让阿里AI在C端(用户)的应用多了几分想象空间,也给智能终端行业带来了更多的想象空间。
以接近人类的多感官方式交互,还能感知情绪
界面新闻记者在Qwen Chat中体验到了这款模型。在对话框中,用户可选择语音或者视频通过和Qwen2.5-Omni进行交互。
记者输入语音指令,要求Qwen2.5-Omni帮忙总结一篇文章的主要内容,它能通过语音的方式进行总结,说话的声音有语调、语气的变化,整体的交互感受是像和屏幕之外的另一个人进行语音电话。当记者要求Qwen2.5-Omni唱一首歌时,它目前还无法实现,但它的回复并不生硬:“哎呀,我还不会唱歌呢。你可以使用QQ音乐,上面有很多人唱歌。”
在播放歌曲《老男孩》的一个片段时,Qwen2.5-Omni能够听出来这是一段民谣曲风的音乐,还能听出来这是C大调。同时,它还推荐了赵雷的《成都》、周杰伦的《七里香》并询问使用者是否喜欢。当记者用非常焦躁的语气和它说话时,它不仅能感知到的情绪异常,还能像朋友一样来开导称不要把烦心事放在心上。
记者和它进行视频通话时,它能通过视频画面中的窗户和窗帘判断使用者在室内,并以此为话题展开聊天。在多人的场景中,Qwen2.5-Omni还能够理解不同说话人的语音和视频的对应关系,定位到不同说话人的穿着等状态,判断意识流视频里的情绪,这是以往单一模态的模型和AI应用所不具备的能力。
体验之后,界面新闻记者整体的感觉是,Qwen2.5-Omni在多模态方面的交互能力已经非常接近人类的交互方式,说话的音色和语气、语调也更接近真人,在实时交互的过程中的延迟较小,基本感觉不到卡顿。和几年前的智能音箱相比,Qwen2.5-Omni不再只是单纯的回复用户给出的指令,还会主动询问用户问题,让聊天变成一个可持续的过程。
除了日常的对话之外,界面新闻从一位阿里云内部人士处了解到,Qwen2.5-Omni还能处理更加复杂、专业的问题。比如,在医疗领域,诊断通常需要结合影像、病历文本和患者的语言描述完成,Qwen2.5-Omni的多模态能力能够满足这些需求,相关医疗机构在使用大模型辅助诊断时,无需为不同模态任务部署独立模型,降低开发和维护成本。
C端应用呼之欲出
Qwen2.5-Omni更接近人类的交互方式,且能感知到人的情绪,这让此前被业界看好的AI陪伴应用有了规模化落地的空间。
据界面新闻了解,阿里AI to C的应用也在尝试这个方向。去年12月,阿里旗下AI应用“通义”近期正式从阿里云分拆,并入阿里智能信息事业群。调整后通义PC及App团队与智能搜索产品“夸克”平级,通义To C方向的产品经理以及相关的工程团队,他们将一并调整至阿里智能信息事业群。
界面新闻从一位阿里智能信息事业群人士处了解到,架构调整之后,夸克和通义在定位上进行了区分,夸克主要解决用户在学习工作场景中的问题,而通义主要解决用户生活中的问题以及情感陪伴需求。
Qwen2.5-Omni发布之后,底层模型能力已经能够满足用户各种复杂的需求,通义团队需要把产品打磨好来抢占先机。
除此之外,Qwen2.5-Omni的小尺寸更方便智能终端行业进行部署。在GPT-4o仍然保持闭源的情况下,Qwen2.5-Omni以宽松的Apache2.0协议开源,且阿里云百炼平台提供API服务,所有人均可下载和商用。无论是手机、智能音箱还是家电,都在寻求更好的用户交互体验,Qwen2.5-Omni的交互能力给了这些行业更多想象空间。
比如,目前老板电器等厨房电器企业正在探索通过大模型把菜谱推荐、智能烹饪、个性化交互整合到全流程服务中,打造更智能的厨房体验。全模态大模型的核心优势在于能够理解文本、语音、图像、视频、传感器数据等多种模态的数据,从而提供更加自然、精准的烹饪辅助。
Qwen2.5-Omni具备视觉、听觉、语音等多感官交互能力,在家庭机器人领域有着较为广阔的应用前景。它不仅能完成日常任务,还能更智能地理解用户需求、实时适应环境,并提供更加人性化的互动。尤其在家庭陪伴和护理等场景中,识别老人摔倒等异常情况以及识别用户低落情绪都是非常关键的底层能力。
此前,阿里巴巴联合创始人、董事局主席蔡崇信已确认苹果和阿里巴巴将合作为中国iPhone用户开发AI功能。实际上,OPPO、vivo、荣耀、传音等国内超90%的手机品牌都已接入千问。Qwen2.5-Omni的出现或许也会给这些品牌的手机带来新的用户交互体验。
阿里在AI大模型上的布局上显示出了非常大的决心。阿里巴巴集团CEO吴泳铭此前宣布,未来三年,阿里将投入超过3800亿元,用于建设云和AI硬件基础设施,总额超过过去十年总和。
AI也让资本市场重估阿里的价值。2025年以来,阿里巴巴美股股价已上涨55.96%。
莉莉艾扒开腿做❌同人游戏
成人免费ppt网站
被女同学绑着脱裤玩jiji知乎
劳拉3D同人18❌AV
继夫不戴套挺进我的身体视频
女性向❌片在线观看拒绝改写
国产精品㊙️麻豆啊朱
小舞被打屁屁拨开乳房
那个纹黑桃♠️ROXY推特账号
大学女厕撒尿偷窥洗澡
女子脱揉动漫直播
一只霸王兽土豪视角在线观看全集
女同被调教黄秘B站
女同被❌到爽🔞痉挛
香蕉文化漫画
成人做爰视频WWW
无尽❌裸体❌大胸❌3D
SDMM—054魔镜号
美女㊙️撒尿免费看
女人自慰✅免费观看
成人做爰A片100部免费
成人性做爰全过程免费
男♂️生的j往男♂️屁股后面
刚手XXX同人网站
裸体初音未来被❌吸乳羞羞图片
丝袜动漫
国产高清精品软男同
樱空桃在线无码AV播放628
国产熟妇码视频app
HDPorn4kVideo8✅
姐孕第1-4集免费观看
美女扒开胸罩👙给男生图片
主动把奶头放进男朋友嘴巴里
美女裸全身无奶胸罩内裤内衣网站
扒開腿灌牛奶🥛調教
好爽⋯好紧⋯H电车痴汉视频
原神散兵18禁涩涩漫画
成人的网战亚洲无🈚喷水
惩罚女扒开用棉签和冰块小说
QQ黄群免费秒进
被❌到爽🔞高潮痉挛动漫
班花脱裤子让我进去禁广告
美女疯狂柔❌脱脱内内漫画
三男一女前双后菊视频
动漫美女被❌吸乳羞羞代码免费
香菱被❌超污网站
扒开小舞❌狂揉❌难受3d动画
mc珍妮动画网站进入链接
嗯~啊~快点🌿死我胡列娜
宝贝胸罩脱了让我揉你的胸动态图
蒂法❤黄网站❤羞羞
女人扒开腿秘打扑克动视频
把小婬妇的腿扒开调教视频
困困电梯免费阅读全文
narutoXXXX玖辛奈爆乳
上课被学长揉花蒂喷水H
比胸大赛流鼻血视频高清
阿离裸乳被爆❌白浆的图片
少萝扒开腿㊙️让人桶漫画
少女与动物2正版
少妇做受XXXXⅩ捆绑片
成人精品无码亚洲AV片
灌肠+取精+丝袜+冰块+憋尿
免费➕无码➕国产AV
人与禽一级婬片A片老牛
国产猛性❌❌❌乱码
小青裸体去衣🈲
18禁无遮挡羞羞污污污网站
地下偶像12集原版有声
jiZZjiZZ日本老师水多
我的儿媳魏小冉小说
3Dmax斗破苍穹黄化版
快播少女爱欢乐
蓝莓❌c到爽🔞H网站
😍mofos74
涩涩🈲18网站
欧美丰满人妻免费视频人
白丝班长用娇脚揉我jiji
日本动漫❌❌吸乳在线观看
成人福利污导航㊙️
精品人妻无码一区二区三区的士高
网友评论 查看所有评论>>