bc贷

搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

阿里开源多模态模型,7B参数掀翻谷歌!看一眼秒出食谱,唠嗑更像人

2025-04-04 11:52:51
来源:

猫眼电影

作者:

刘世昌

手机查看

  猫眼电影记者 王旭明 报道y85ouztigy6ysf5y

本文系网易新闻?网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。

作者 | 陈骏达编辑 | 心缘

智东西3月27日报道,今天,阿里巴巴通义千问发布了新一代端到端多模态旗舰模型Qwen2.5-Omni-7B。这一模型能够实时处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。

该模型现已在Hugging Face、魔搭、DashScope和GitHub上开源,采用宽松的Apache 2.0开源协议,模型论文也全面开源,详解了背后的技术细节。同时,用户可以在Demo中体验互动功能,或是在Qwen Chat中像打电话或视频通话一样与Qwen聊天。

千问团队称,Qwen2.5-Omni采用了全新的Thinker-Talker架构,支持跨模态理解和流式文本、语音响应,支持分块输入和即时输出。

在与同等规模的模型进行基准测试比较时,Qwen2.5-Omni表现出一定优势,并超过了Gemini 1.5 Pro和GPT-4o-mini等闭源模型。

Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio,并与Qwen2.5-VL-7B保持同等水平。在权威多模态理解测试OmniBench上,Qwen2.5-Omni获得了SOTA表现,超越Gemini 1.5 Pro,提升幅度达30.8%。

Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理类似的效果,在MMLU通用知识理解和GSM8K数学推理等基准测试获得了不错的成绩。

开源地址:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

论文地址:https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf

Demo体验:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

一、全模态实时交互,看一眼食材秒出食谱

在博客文章中,千问团队放出了多个Qwen2.5-Omni在现实世界多模态场景中的测试案例。

目前,Qwen2.5-Omni共有Cherry和Ethan两种语音可供选择。Cherry音色对应的是女声,Ethan音色对应的是男声。从听感来看,这两种语音真实、自然,会在说话时加入停顿、语气词等内容。

Qwen2.5-Omni能在场景中实时处理、分析多模态内容。

例如,在下厨时,可以拿着食材询问通义应该如何处理,或是环视厨房里的调料,看究竟应该用哪些调料,可谓是厨房小白福音了。

Qwen2.5-Omni能听懂音乐,判断歌曲是什么风格,采用了何种音调,并提出对原创歌曲歌词、节奏等方面的意见。

在绘画时,Qwen2.5-Omni可以根据草图判断绘画内容,还能给出画面的构图建议。

此外,Qwen2.5-Omni还可以在户外场景判断天气、在学习场景中辅助解题、论文阅读,具备较好的通用多模态能力。

二、自研端到端架构,获得多模态理解基准测试SOTA

Qwen2.5-Omni采用Thinker-Talker双核架构。Thinker模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容。

Talker模块则类似发声器官,以流式方式接收Thinker实时输出的语义表征与文本,流畅合成离散语音单元。

Thinker基于Transformer解码器架构,融合音频/图像编码器进行特征提取;Talker则采用双轨自回归Transformer解码器设计,在训练和推理过程中直接接收来自Thinker的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。

千问团队还提出了一种新的位置编码技术,称为TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的同步。

在多项基准测试中,Qwen2.5-Omni在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及闭源模型。

值得一提的是,在多模态理解基准测试OmniBench上,Qwen2.5-Omni达到了SOTA表现,其得分为56.13%,超过第2名Gemini 1.5 Pro的42.91%。

在视频到文本任务上,Qwen2.5-Omni也超过了原本的开源SOTA模型和GPT-4o-mini。

在其他基准测试中,如语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感),Qwen2.5-Omni的成绩均超过了Qwen家族的其他单模态模型。

结语:更强大的Qwen2.5-Omni还在路上

Qwen2.5-Omni-7B一经发布便获得海内外用户的关注,有不少网友已经开启了催更模式,比如增加对小语种的支持、开发千问海外App,或是与智能眼镜等硬件结合。

据千问团队介绍,未来,他们还会发布能力更强、速度更快的模型,并扩展其多模态输出能力,涵盖图像、视频和音乐等多种形式。

??时事1:鸣人❌辉夜18禁

??04月04日,2024年全国聋人篮球锦标赛(男子组)落幕,

  要知道,小不点过去很神异,能举起千斤铜鼎就已经十分惊人了,现在居然一口气举起了五千斤的黑金鼎,震的一群人发呆,说不出话来。

,韩国奶头裸体公交车。

??04月04日,贵在“实”重在“干” 湖南省政协立足“大局所需”践行履职为民,

  一是整体水平较低。同全省和经济发达地区相比,我市城镇化进程仍然比较缓慢,与工业化和经济发展不同步,与资源丰富、环境优美、交通便捷的地位不相适应。市委、市政府针对这一现实,提出开发建设新区,正是出于长远发展的一项战略考虑。各县区的发展也都普遍受到城市规模的制约,希望大家从中能有所启发。从年底城镇化水平看,我市的城镇化率低于全省个百分点,低于全国近个百分点,城镇人口数量的增长速度低于全省平均水平,非农业人口占总人口比重在全省处于较低水平,有的人口居住在农村,转移农村人口和富余劳动力的压力很大。

,动漫❌❌爆乳❌❌扶她3D,frisk被强行扒开双腿玩弄,二女一杯食屎gif视频的背景故事。

??时事2:姓爱图片大全网名女

??04月04日,88VIP会员权益再升级 推出无限次退货包运费服务,

  一、要先学会做人

,强行挺进涂山雅雅的后臀,黑人狂躁刘玥XXⅩXX视频,女同互慰吃奶互揉。

??04月04日,德国马牌全球首款自修补+静音棉旗舰XC7轮胎发布,途虎养车平台独家首发,

  “好商量?你们抢我们辛苦打来的猎物、截杀我族人、无情而冷血的开弓时怎么没有想到这些?!”石林虎怒道。

,男男被粗大的巴捣出白浆,男女裸体㊙️无遮视频,Furry Gay Fuck Yaoi漫画。

??时事3:动漫3D❌吸乳羞免费

??04月04日,北京四中院:“蚂蚁搬家”式代购走私案件增多,

  听到族长详解后,孩子们的脸色都一阵发白。

,高清🈚码🔞❌♋免费蓝莓,免费观看美女裸色😍在线观看,男人的🍌伸入🍑无挡。

??04月04日,最高法:对性侵害未成年人犯罪始终坚持“零容忍”,

  一、领导重视,重点突出 ,形式多样、管理严明,为办好这次培训班提供了有力的工作保障。

,10后脱了内裤自慰,柳智敏换脸被c到高潮下不了床,胡列娜❌乳喷自慰3D。

??时事4:女性特级XXXⅩ裸体

??04月04日,土耳其抓获36名“伊斯兰国”相关嫌疑人,

  毫无疑问,这头祭灵很非凡,体内蕴含着一股强大的精华,堪称是肉身宝药,能有效的改善族人的体质。

,打屁股光屁股版,FreePorno💋👙19,阿蕾奇诺裸体疯狂❌自慰。

??04月04日,小新探宝:卡拉瓦乔的光影定格 ——《被蜥蜴咬伤的男孩》,

  尊敬的段局长,各位领导,同志们:

,爽⋯好紧⋯别夹⋯喷水视频,男jiji㊙️隐私全过程,久久久亚洲熟妇熟女ⅩXXX高清。

责编:程春燕

审核:陈忠

责编:李鑫余

相关推荐 换一换

Copyright (C) 2001- Dzwww   鲁ICP备09023866号-1

Sitemap