bc贷

搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

136张截图,vivo开源DeepSeek R1式强化学习,提升GUI智能体预测

2025-04-12 00:51:41
来源:

猫眼电影

作者:

鲍美利

手机查看

  猫眼电影记者 武成殿 报道y85ouztigy6ysf5y

基于规则的强化学习(RL/RFT)已成为替代 SFT 的高效方案,仅需少量样本即可提升模型在特定任务中的表现。

该方法通过预定义奖励函数规避人工标注成本,如 DeepSeek-R1 在数学求解中的成功应用,以及多模态领域在图像定位等任务上的性能突破(通常使用 IOU 作为规则 reward)。

vivo 与香港中文大学的研究团队受到 DeepSeek-R1 的启发,首次将基于规则的强化学习(RL)应用到了 GUI 智能体领域。

论文标题:UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning论文地址:https://arxiv.org/abs/2503.21620项目主页:https://yxchai.com/UI-R1/项目代码:https://github.com/lll6gg/UI-R1

简介

本研究创新性地将规则 RL 范式拓展至基于低级指令的 GUI 动作预测任务。具体实现中,多模态大语言模型为每个输入生成包含推理标记和最终答案的多条响应轨迹,在训练和测试时的 prompt 设计如下:

随后通过我们设计的奖励函数评估每条响应,并采用 GRPO 等策略优化算法更新模型参数。该奖励函数包含三个维度:

动作类型奖励:根据预测动作与真实动作的匹配度计算;动作参数奖励(聚焦点击操作):通过预测坐标是否落入真实边界框评估;格式规范奖励:评估模型是否同时提供推理过程和最终答案。

数据制备方面,仅依据难度、多样性和质量三原则筛选 130 余个移动端训练样本,展现出卓越的数据效率。实验表明,UI-R1 在桌面端和网页平台等跨领域(OOD)数据上均取得显著性能提升,印证了规则 RL 处理跨领域复杂 GUI 任务的潜力。

方法:强化学习驱动的 GUI 智能体

我们提出的 UI-R1 模型采用了三个关键创新:

1. 独特的奖励函数设计

研究团队设计了专门针对 GUI 任务的奖励函数:R = R_T + R_C + R_F

R_T:行为类型奖励(点击、滑动、返回等)

R_C:坐标准确度奖励(点击位置是否准确)

R_F:格式奖励(输出的格式是否正确)

2. 精心筛选的高质量数据

与其使用大量普通数据,我们提出采用了「质量优先」的策略,从三个维度精选训练数据:

质量:选择标注准确、对齐良好的样本

难度:专注于基础模型难以解决的「困难」样本

多样性:确保涵盖各种行为类型和元素类型

最终只使用了136 个高质量样本,比传统方法少了几百甚至上千倍,就能够训练得到比 SFT 方式更优的效果。

3. 群体相对策略优化算法

UI-R1 采用了一种名为 GRPO(Group Relative Policy Optimization)的算法。这种算法不需要额外的评论家模型,而是通过比较同一问题的多个不同回答来学习什么是「好」的回答。

实验结果

1. 域内效果提升明显

在 AndroidControl 基准测试上,UI-R1-3B 与基础模型 Qwen2.5-VL-3B 相比:

行为类型准确率提高了 15%定位准确率提高了 10.3%

2. 域外泛化能力惊人

UI-R1 在从未见过的桌面 PC 端和网页界面上表现同样出色:

在 ScreenSpot 测试中,UI-R1-3B 的平均准确率达到78.6%,超越 CogAgent-18B 等大模型。在专业高分辨率环境 ScreenSpot-Pro 测试中,UI-R1-3B 达到17.8%的平均准确率,提升了与使用 76K 数据训练的 OS-Atlas-7B(18.9%)性能相当。

分析

我们关于 UI-R1 做了一系列分析,研究发现:在 GRPO 的强化学习微调的方式下,数据质量比数据数量重要

困难样本更有价值:按难度选择的方法比随机选择的性能显著更好。数据增长收益递减:随着训练数据量增加,性能提升趋于平缓。精选小数据集比大数据集更有效:三阶段数据选择方法优于使用整个数据集或者随机筛选相同数量的子集。

此外,我们还发现动作预测的难度与思考的长度之间存在关联:思考长度越长,准确率越低(说明问题越难),但通过 UI-R1 形式的强化学习微调之后,对于难样本的成功率提升也更加明显。

这一现象证明了强化微调的价值,通过让模型自主思考来提升难样本的准确率,这个特性是之前的监督微调所难以获得的。

未来探索方向

UI-R1 初步探索了大模型强化学习和推理技术在 GUI Agent 领域的应用。下一步,我们将尝试将 UI-R1 从 RFT 拓展到 SFT + RFT 的组合,实现大规模 UI 数据下统一的思考、决策、规划的 GUI Agent 大模型

??时事1:成人扒开伸进3D

??04月12日,屈原故里秭归:多彩“龙俗”喜迎“龙抬头”,

  说到保护环境,我就想起前几天发生的事。

,www.4ipegging.com。

??04月12日,国产火电耐热材料迈向高端,

  突然,恐怖的响声传来,地宫塌了,出口被人以巨力破坏,一位须发皆白、但是极其雄壮的老人冲了进来,浑身光芒万丈,如同黄金神火在燃烧。

,太宰脱中也内裤把中也淦哭,小受夹震蛋玩到失禁play文,SP趴床脱裙子内裤打屁股视频。

??时事2:国产激情无码免费AV在线观看

??04月12日,2024年福州新春联欢晚会举行,

  小不点想了想,并没有再多问,认真地表达了谢意。

,火影大胸裸体拔萝卜,杨钰莹被黑人无套内谢,深田咏美无码爆乳AV在线播放。

??04月12日,北京建设中西医结合研究所 推动中医药融入全球卫生体系,

  我们小学生正处于生理的发育阶段,心理非常单纯,最容易受到各种各样的伤害。但是,生命总是眷顾有安全意识的人,而安全意识是从日常行为中体现出来的。比如:遵纪守法,遵守交通规则,自觉抵制暴力、黄色信息和,遇事要冷静,做事多想想后果,做到三思而行,同学间有了矛盾要冷静解决,不要以非对非。学会求助他人,学会躲避风险,如:遇到火灾要及时大人,或拨打119报警电话,不能贸然只身去救火,因为我们小学生人小无能力;遭遇暴力(以大欺小)一定要想办法及时脱身,老师或拨打110电话报案,要学会拒绝别人的无理要求或不良诱惑,养成良好的生活习惯,这些知识很简单,但如果做不到,我们的健康甚至生命就可能收到威胁,同时我还希望同学们做到“四防”,即:防火—— 严禁玩火,禁止把火源带入学校,杜绝火灾事故发生,一旦遭遇火灾,要学会正确的逃生方法(班主任按要求指导学生);防水——严禁私自下河堰洗澡,杜绝溺水事故的发生,如果发生同伴溺水的危急事情,要马上就近找到大人求救,千万不能因为害怕而逃离现场;防盗——关好门窗,注意自身财物的保管;防自身安全——自觉遵守公共秩序、社会公德和学校安全常规,严禁课间或户外活动时不听从老师教导、追逐吵闹伤害事故的发生。

,国产做爰XXXⅩ高潮视频12p,成人桃花岛app视频,tobu18HD馃憴馃憴。

??时事3:成人无码Gay做爰XXOO视频软件

??04月12日,白皮书:晚期三阴性乳腺癌患者对疾病服务需求多元化,

  小不点闻言,认真点头,这一日什么都不做,抱着莹白的骨块仔细观看,眼睛一眨不眨,非常的专注。

,国产人妻人伦精品1国产丝袜,18视频在线代码,女性裸体被❌羞羞漫画。

??04月12日,(经济观察)中国资本市场改革下一步怎么走?国常会明确“路线图”,

  可以依它来修行,进行突破,称得上是一部无价天书,对于各族来说都是瑰宝,只是欠缺盖世宝术。

,美女全身裸体㊙️免费看视频,幺女幺女国产AV在线观看,FerrPorno💋👙80。

??时事4:18❌涩涩动态表情包

??04月12日,2024西藏自治区“宪法宣传周”启动仪式拉萨举行,

  (一)树立勤政为民的作风

,男男成人🔞高潮片,日本❌❌❌❌❌色情21,❤️爱情岛亚洲论坛AV入。

??04月12日,湖南东安加速特色农产品产业化 激活乡村振兴“新动能”,

  “这就是虚神界的神秘所在,也是价值所在,精神在此磨砺,回归现实世界后,会将所有感悟都带给肉身,共同蜕变,就如同真身在此地修行一般!”柳树指点迷津。

,西施穿白丝袜让我挤进去了,✿爆乳女神✿极品白皙麻酥酥,把校花🌸吊起来揉搓视频软件。

责编:朱玲玲

审核:杨珺

责编:许雅钧

相关推荐 换一换

Copyright (C) 2001- Dzwww   鲁ICP备09023866号-1

Sitemap