猫眼电影
猫眼电影记者 陈钟晓 报道y85ouztigy6ysf5y
基于规则的强化学习(RL/RFT)已成为替代 SFT 的高效方案,仅需少量样本即可提升模型在特定任务中的表现。
该方法通过预定义奖励函数规避人工标注成本,如 DeepSeek-R1 在数学求解中的成功应用,以及多模态领域在图像定位等任务上的性能突破(通常使用 IOU 作为规则 reward)。
vivo 与香港中文大学的研究团队受到 DeepSeek-R1 的启发,首次将基于规则的强化学习(RL)应用到了 GUI 智能体领域。
论文标题:UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning论文地址:https://arxiv.org/abs/2503.21620项目主页:https://yxchai.com/UI-R1/项目代码:https://github.com/lll6gg/UI-R1
简介
本研究创新性地将规则 RL 范式拓展至基于低级指令的 GUI 动作预测任务。具体实现中,多模态大语言模型为每个输入生成包含推理标记和最终答案的多条响应轨迹,在训练和测试时的 prompt 设计如下:
随后通过我们设计的奖励函数评估每条响应,并采用 GRPO 等策略优化算法更新模型参数。该奖励函数包含三个维度:
动作类型奖励:根据预测动作与真实动作的匹配度计算;动作参数奖励(聚焦点击操作):通过预测坐标是否落入真实边界框评估;格式规范奖励:评估模型是否同时提供推理过程和最终答案。
数据制备方面,仅依据难度、多样性和质量三原则筛选 130 余个移动端训练样本,展现出卓越的数据效率。实验表明,UI-R1 在桌面端和网页平台等跨领域(OOD)数据上均取得显著性能提升,印证了规则 RL 处理跨领域复杂 GUI 任务的潜力。
方法:强化学习驱动的 GUI 智能体
我们提出的 UI-R1 模型采用了三个关键创新:
1. 独特的奖励函数设计
研究团队设计了专门针对 GUI 任务的奖励函数:R = R_T + R_C + R_F
R_T:行为类型奖励(点击、滑动、返回等)
R_C:坐标准确度奖励(点击位置是否准确)
R_F:格式奖励(输出的格式是否正确)
2. 精心筛选的高质量数据
与其使用大量普通数据,我们提出采用了「质量优先」的策略,从三个维度精选训练数据:
质量:选择标注准确、对齐良好的样本
难度:专注于基础模型难以解决的「困难」样本
多样性:确保涵盖各种行为类型和元素类型
最终只使用了136 个高质量样本,比传统方法少了几百甚至上千倍,就能够训练得到比 SFT 方式更优的效果。
3. 群体相对策略优化算法
UI-R1 采用了一种名为 GRPO(Group Relative Policy Optimization)的算法。这种算法不需要额外的评论家模型,而是通过比较同一问题的多个不同回答来学习什么是「好」的回答。
实验结果
1. 域内效果提升明显
在 AndroidControl 基准测试上,UI-R1-3B 与基础模型 Qwen2.5-VL-3B 相比:
行为类型准确率提高了 15%定位准确率提高了 10.3%
2. 域外泛化能力惊人
UI-R1 在从未见过的桌面 PC 端和网页界面上表现同样出色:
在 ScreenSpot 测试中,UI-R1-3B 的平均准确率达到78.6%,超越 CogAgent-18B 等大模型。在专业高分辨率环境 ScreenSpot-Pro 测试中,UI-R1-3B 达到17.8%的平均准确率,提升了与使用 76K 数据训练的 OS-Atlas-7B(18.9%)性能相当。
分析
我们关于 UI-R1 做了一系列分析,研究发现:在 GRPO 的强化学习微调的方式下,数据质量比数据数量重要
困难样本更有价值:按难度选择的方法比随机选择的性能显著更好。数据增长收益递减:随着训练数据量增加,性能提升趋于平缓。精选小数据集比大数据集更有效:三阶段数据选择方法优于使用整个数据集或者随机筛选相同数量的子集。
此外,我们还发现动作预测的难度与思考的长度之间存在关联:思考长度越长,准确率越低(说明问题越难),但通过 UI-R1 形式的强化学习微调之后,对于难样本的成功率提升也更加明显。
这一现象证明了强化微调的价值,通过让模型自主思考来提升难样本的准确率,这个特性是之前的监督微调所难以获得的。
未来探索方向
UI-R1 初步探索了大模型强化学习和推理技术在 GUI Agent 领域的应用。下一步,我们将尝试将 UI-R1 从 RFT 拓展到 SFT + RFT 的组合,实现大规模 UI 数据下统一的思考、决策、规划的 GUI Agent 大模型
??时事1:娜美被爆❌漫画歪歪漫画
??04月12日,宁夏“警旅联动”促进出入境旅游业健康发展,
各位领导、同志们:
,好爽⋯好紧⋯宝贝夹大巴。??04月12日,湖南退税提速增效 精准助力企业“扬帆出海”,
三要充分认识农村工作面临的新形势和新任务,切实增强当好村干部的信心和决心。当前,中原经济区建设、汝州市省直管,给我们带来了机遇和挑战。从国家到地方,对做好“三农”工作、新型农村社区建设都高度关注,非常重视。国家连续出台了一系列强农惠农政策,上级部门也相继出台了粮食直补、农村生态文明建设、危房改造和环境整治等一系列补助政策,可以说,村庄建设和农村工作正面临着非常好的形势和环境。能否抓住机遇、加快发展,是对我们能力的一个考验。我相信,只要我们能够紧紧抓住这一有利时机,创新思路、加压苦干,聚精会神搞建设,一心一意谋发展,一定会大有可为、大有作为,成就一番新事业,创出一片新天地。
,正规成人🔞啪啪台漫,18禁成人🍆🍑🔞漫画,车里激情吃奶头。??时事2:最残忍的尿孔穿刺视频
??04月12日,国际人士分享新疆之旅:多元文化令人神往,
招商银行信用卡逾期被起诉了怎么办?,起诉后果有哪些
,les情侣内裤,婬荡学院(校园H),做运动🔞露出🍑视频软件麻豆。??04月12日,厂通路潮白河大桥主桥完成首段钢箱梁吊装,
四是党性得到锻炼。本期培训班我们始终把加强学员的党性修养和党性锻炼作为培训的重要内容。通过对党建理论、思想道德修养的学习,使学员的党性得到锻炼,党性修养得到提高,增强了全心全意为人民服务的意识,进一步树立起正确的世界观、人生观、价值观和权利关、地位关、利益关,提高了政治素质。
,女人正面裸体洗澡视频,㊙️男男做羞羞视频agy小说,扒开小舞❌狂揉❌难受3d。??时事3:三玖被❌本子
??04月12日,今年前3月中国太阳能发电装机容量同比增逾五成,
“族长这枚蛋留不留?”石林虎问道,现在村人都已意动,心头一片火热,这么神异的一枚宝卵,错过的话太可惜了。
,老师扒开让我❌,澡池里强摁做开腿呻吟H微博,美女尿囗㊙️免费图片。??04月12日,内蒙古首列“本地”国产商品汽车中欧班列启程,
最后,祝老师们在新的一年里身体健康、工作顺利!祝同学们学习进步、健康快乐!谢谢大家!
,杨颖裸被❌视频无码网站免费,HD XXXX MoviesHD videos8,H邪神琉璃社※邪恶天堂ACG。??时事4:www女被喷水噜噜噜视频
??04月12日,中国最大国家公园已斥资超86亿元修复生态、实施基建,
恶魔猿太强大了,刚一出现就震慑住了万兽,冰冷的眸光一扫,没有一头敢抗拒。而且,在其体外,缭绕着黑雾,惨烈气息扑面,像是杀过万千强大的生灵。
,超帅男男Gay自慰出精,女女女在线观看电视剧高清,灰原哀被扒掉胸罩露出奶头。??04月12日,2024装备制造业发展大会在重庆开幕,
“这可不是一般的猿猴。”石云峰一边说一边将它的两条小腿抬了起来,仔细观看,众人也跟着凝视,惊异的发现,它的双足是赤色的,跟燃烧的火炭一般红。不注意的话,会被其腿上的金色皮毛遮住,需要抬起来才能看到,其足赤红如火,极其鲜艳。
,啊〜好痛〜嗯流水了拔萝卜男同,女女同性AV一区二区三区免费看,性瘾警官男泄欲工具猛男H。责编:莫晓娟
审核:曹坤华
责编:艾伦秀