久久亚洲高清_国产精品一区二区视频_国产精品视频免费观看_在线播放国产精品二区一二区四区_日韩精品亚洲一区_偷窥国产亚洲免费视频_国产精品亚洲片夜色在线_久久se精品一区二区_中文字幕久久久av一区_手机在线免费观看毛片_成人午夜在线播放_国产91ⅴ在线精品免费观看

登錄
首頁 > 今日新聞 > 任務級獎勵提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

任務級獎勵提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

發布時間:2025-07-20 15:46:08

現有Mobile/APP Agent的工作可以適應實時環境,并執行動作,但由于它們大部分都僅依賴于動作級獎勵(SFT或RL)。

而這些獎勵只能引導代理預測每一步中最佳的單一動作,因此難以應對不斷變化的移動環境。

比如一句指令:“打開飛豬,進入酒店套餐,進入熱門直播,找到飛豬超級VIP,并關注主播”。Qwen2.5-VL-3B-Instruct在第二步失敗。

淘天集團算法技術-未來生活實驗室&點淘算法團隊聯合提出,采用多回合、任務導向的學習方式,結合在線學習和軌跡糾錯,也許能提高Agent的適應性和探索能力。

他們提出了個具有任務級獎勵(Task-level Reward)的交互式強化學習框架,即Mobile-R1。

為了確保訓練的穩定性,團隊提出了一個三階段訓練過程:格式微調、動作級訓練和任務級訓練。此外引入新的中文基準和高質量軌跡數據集,證明了該方法在移動代理領域的有效性。

結果Mobile-R1順利地完成了這一任務。

軌跡數據集

團隊使用Qwen2.5-VL-3B執行一系列任務獲得初始軌跡,并人工標注這些初始軌跡,得到了高質量的軌跡數據集。

其構造可以分為數據收集和軌跡標注兩部分,最終得到了4,635條高質量的人工標注軌跡,包含24,521個單步數據。

軌跡數據集構造流程

首先,選擇了28個中國移動應用程序,通過人工設計和自動生成相結合的方法創建了多樣化的任務指令,隨后統一經過人工審核,去除了部分不合理指令。在使用Qwen2.5-VL-3B模型執行這些指令后,成功收集了大量動作執行軌跡,軌跡中的每一步都包含模型輸出的思考,需要執行的動作以及對應的工具調用。

得到軌跡后,針對模型的輸出做了以下三個維度的標注:

  • 邏輯思考:將所有思考修正為“當前狀態+下一步的動作+動作目的”的格式,比如“當前在手機主屏(當前狀態),下一步是點擊淘寶圖標(下一步動作)來進入淘寶(動作目的)”。如果原思考內容錯誤也會人工標注者會按照該格式重寫思考。

  • 清晰動作:清晰動作是單步可執行操作的一句話描述,動作應符合思考的內容并且可推動任務的完成。

  • 準確調用:人工標注者會修正錯誤的操作調用,包括類型錯誤以及參數錯誤。

訓練流程

訓練流程由三個階段構成,基于Qwen2.5-VL-3B。這三個階段分別是初始格式微調、動作級在線訓練和任務級在線訓練。

Stage1:初始格式微調

在第一階段,對模型進行初始格式微調。這一步是通過監督微調(SFT)的方式進行的,使用的是之前人工標注的高質量軌跡數據集。在微調過程中,模型不僅會學習如何將用戶的指令與當前的GUI狀態對應起來,還會調整輸出格式以符合預期的結構,包括邏輯思考、清晰動作和準確調用。

Stage2:動作級在線訓練

在第二階段,模型通過群體相對策略優化(GRPO)進行動作級在線訓練。此階段使用動作級獎勵(Action-level Reward)來評估每個動作的正確性,同時確保輸出格式的完整性。動作級獎勵由可驗證動作獎勵和格式獎勵組成,其中可驗證動作獎勵能夠量化動作的正確性,而格式獎勵則確保模型輸出是結構化、可解釋的。

  • 動作級獎勵。1)對于基于坐標的動作(如點擊、滑動),如果預測的坐標落在目標GUI元素的真實邊界框內,則獎勵為1,否則為0。2)對于非坐標的動作(如輸入文本),如果預測的動作或參數與真實值完全匹配,則獎勵為1,否則為0。

  • 格式獎勵。格式獎勵促使模型生成符合標簽和結構要求的輸出,確保響應的邏輯思考、動作以及工具調用的格式化。

Stage3:任務級在線訓練

在第三階段,通過多步驟任務級在線訓練來提高模型的泛化能力和探索能力。

在動態的移動環境中,模型需要進行自由探索和錯誤糾正,因此我們將問題定義為馬爾可夫決策過程,以允許多回合的互動。

任務級獎勵由格式獎勵和軌跡級獎勵組成,旨在鼓勵模型在整個軌跡中保持對響應格式的遵循,同時評估任務的完成情況。

  • 軌跡級獎勵。軌跡級獎勵使用外部高精度的MLLM,GPT-4o來評估整個歷史互動軌跡,確保步驟和動作的一致性以及任務的完成情況。

  • 格式獎勵。格式獎勵在此階段仍然起著重要作用,為整個軌跡計算平均格式獎勵,并通過[-1, 1]的范圍來對錯誤施加更嚴格的懲罰,以增強輸出的精確度。

訓練的部分階段在淘天自研的強化學習框架ROLL上進行實驗。

實驗結果

實驗中,主要評估了模型在自定義benchmark上的性能,并進行了針對模型泛化能力的魯棒性分析,以驗證Mobile-R1的表現。

整體實驗結果,粗體表示最佳結果,下劃線表示次優結果

結果顯示,Qwen2.5-VL-32B 和 AgentCPM-8B 在性能上表現類似。

其中,AgentCPM-8B 由于專為中國移動生態系統優化,因此在中文場景中表現優異。更為顯著的是,Mobile-R1在所有基準中表現最佳,任務成功率達到49.40,比最優秀的baseline model高出將近20點。

Stage 3的訓練進一步增強了Mobile-R1的表現,其成功率比只有階段1和階段2訓練的模型高出1.4點,這得益于任務級GRPO的有效應用。

特別值得注意的是,通過階段1和階段2的訓練,Qwen2.5-VL-3B模型的表現超越了其標準版本,并在多項指標上領先于其他基準模型,突顯了動作級和任務級獎勵機制的重要性。

Stage 3訓練的獎勵曲線

此過程中,Stage 3的獎勵分數顯示出在前四個訓練步驟中穩步增長,表明學習過程是有效的。然而,在步驟5到10之間,獎勵有所下降,這可能是由于策略過于激進或探政策的改變導致的不穩定性。最終從步驟11開始,獎勵再次上升,這表明策略得到了有效的優化和改進。

Mobile-R1在處理未見應用時表現出良好的泛化性,而其他模型在泛化能力上存在挑戰。Mobile-R1的優異表現主要歸功于Stage 3的訓練,這一階段有效增強了模型的魯棒性和適應性。

魯棒性分析結果,粗體表示最佳結果

最后總結,在本文中,Mobile-R1通過在動態環境中整合交互式強化學習與任務級獎勵,顯著提升了基于視覺語言模型(VLM)的移動代理的能力。

通過包括格式微調、動作級GRPO訓練和任務級GRPO訓練在內的三階段訓練過程,克服了以往方法僅依賴單一動作預測的局限性。

實驗結果表明,Mobile-R1在所有指標上都超越了所有基準。此外,團隊計劃全面開源相關資源以促進進一步的研究。

Copyright 2019-2024 微推堂 版權所有  京ICP備2019123967號
麻豆tv在线播放| 99麻豆久久久国产精品免费优播| 成人免费视频一区二区| 精品国产成人系列| 成人av资源网| 在线观看日本中文字幕| 另类小说一区二区三区| 88在线观看91蜜桃国自产| 亚洲一区二区三区成人在线视频精品 | 亚洲综合色激情五月| 色欲无码人妻久久精品| 日韩高清在线电影| 亚洲第一在线视频| 一区二区三区四区欧美日韩| 一区二区三区免费高清视频| 国产精品久久久久影院亚瑟| 国产综合在线看| 成人免费视频网| 国产污在线观看| 伊人中文字幕在线观看| |精品福利一区二区三区| 午夜精品久久17c| 日日躁夜夜躁aaaabbbb| 午夜在线视频免费| 精品欧美乱码久久久久久1区2区| 亚洲韩国在线| 中文字幕精品在线观看| 91九色02白丝porn| 国产精品日韩高清| 免费中文字幕在线| 日韩一区在线免费观看| 95av在线视频| 欧美卡一卡二卡三| 夜色激情一区二区| 国产精品久久久久久久久久直播 | 国产成人精品日本亚洲| 国产成人精品无码片区在线| 99r国产精品| 午夜精品福利在线观看| 中文字幕一区二区三区人妻不卡| 国产日韩亚洲欧美综合| 国产日韩精品在线播放| 黄色精品视频在线观看| 一区二区免费看| 国产一区二区精品在线| www.天天色| 欧美私模裸体表演在线观看| 中文字幕在线观看一区二区三区| 国产美女主播在线观看| 日韩av在线最新| 一区二区三区 日韩| 国产麻豆视频一区二区| 国产91成人在在线播放| 91香蕉视频污在线观看| 欧美日韩亚洲成人| 中文网丁香综合网| 后入内射欧美99二区视频| 亚洲欧美精品在线| 日本高清免费观看| 国产视频不卡一区| 国产精品国产亚洲精品看不卡15| 在线观看 亚洲| 日韩欧美一区在线| 中文字幕第80页| 成人动漫一区二区| 91精品在线影院| 91黑人精品一区二区三区| 日韩女优电影在线观看| www.激情小说.com| 国产女主播在线一区二区| 成人在线视频网址| 国产精品欧美激情在线| 中文字幕日韩av电影| 久久精品国产亚洲av麻豆| 亚洲一区二区三区中文字幕| 日韩一区二区三区高清| 好吊视频一区二区三区| 欧美国产精品日韩| 波多野结衣乳巨码无在线| 狠狠色伊人亚洲综合成人| 7m精品福利视频导航| 校园春色 亚洲| 欧美日韩成人在线一区| 人人干人人干人人| 国产精品盗摄一区二区三区| 久久久亚洲国产天美传媒修理工| 欧美日韩中文字幕视频| 色综合av在线| 91亚洲免费视频| 国产精品国产自产拍高清av| 日韩激情久久| 蜜桃av一区二区| 国产欧美日韩丝袜精品一区| 91亚洲欧美激情| 欧美麻豆久久久久久中文| 青娱乐91视频| 亚洲天堂男人天堂| 国产小视频你懂的| 亚洲国产成人爱av在线播放| 国产一级二级在线观看| 欧美酷刑日本凌虐凌虐| 黑人无套内谢中国美女| 精品成人在线视频| 自拍偷拍一区二区三区四区| 亚洲人成网站精品片在线观看| 国产91精品网站| 最近中文字幕免费观看| 欧美黑人狂野猛交老妇| 成人精品免费在线观看| 久久在线观看视频| 性生交大片免费看l| 亚洲高清一区二区三区| 欧美婷婷精品激情| 亚洲成人精品一区| 亚洲欧美激情网| 欧美日韩国产在线| 精品亚洲视频在线| 在线亚洲免费视频| 第四色在线视频| 欧美精品在线一区二区三区| 国产性生活毛片| 精品噜噜噜噜久久久久久久久试看| 国产麻豆xxxvideo实拍| 欧美xingq一区二区| 午夜精品久久久久99蜜桃最新版 | 白丝女仆被免费网站| 在线播放国产精品二区一二区四区| 成人免费看片载| 精品欧美乱码久久久久久1区2区| 韩国一级黄色录像| 深夜福利一区二区| 伊人久久国产精品| 91九色蝌蚪嫩草| 国产99久久精品| 日韩在线视频在线| 亚洲一区精品在线| 在线免费观看a级片| 日韩av最新在线观看| 精品亚洲永久免费| 91av视频在线播放| 日韩精品高清不卡| 在线视频福利一区| 一区二区三区四区av| 国产亚洲一区二区三区在线播放| 国产自产视频一区二区三区| 手机在线视频你懂的| 日韩毛片视频在线看| 国产精品二区视频| 亚洲欧美日韩一区在线| 中文无码精品一区二区三区| 国产日韩在线一区| 成人国产精品免费观看| 亚洲精品无码久久久久久| 欧美日韩五月天| 麻豆成人在线视频| 国产精品高潮呻吟久久av野狼| 日本欧洲一区二区| 成人在线视频一区二区三区| 色天天综合久久久久综合片| 国产一区二区播放| 国产福利视频一区| 懂色av中文一区二区三区| 午夜精品久久久久久久无码| 欧美精品一卡两卡| 日韩三级av在线| 国产日韩精品一区二区| 99国产一区二区三精品乱码| 亚洲一区二区在线视频观看| 亚洲亚裔videos黑人hd| 丰满肉肉bbwwbbww| 欧美日韩中文字幕在线播放 | 亚洲一区二区三区精品在线| 在线天堂www在线国语对白| 久久综合国产精品台湾中文娱乐网| 欧美一级淫片免费视频魅影视频| 亚洲一区二区三区欧美| 在线一区二区三区四区五区 | 国产传媒一区二区三区| 国产精品久久久久久久久久免费看| 性高潮久久久久久| 欧美精品videossex88| 经典一区二区三区| 久久国产这里只有精品| 亚洲人成毛片在线播放| 欧美综合视频在线| 无码人妻丰满熟妇区96| 日韩精品极品视频免费观看| 日本韩国在线观看| 99在线精品免费视频| 亚洲国产精品va在线| 免费看av毛片| 精品少妇一区二区三区在线| 亚洲石原莉奈一区二区在线观看| 久久久精品午夜少妇| 激情网站五月天| 视频一区视频二区国产精品| 国内精品第一页| 欧美69精品久久久久久不卡| 久久99国产综合精品女同| 国产91精品一区二区麻豆网站| 亚洲女人在线观看| 久久久久久伊人| wwwwww.欧美系列| 夜夜春很很躁夜夜躁| 成人黄色大片在线免费观看| 一区av在线播放| 久久亚洲成人av| 日本一区二区三区视频在线观看 | 日本在线成人一区二区| 欧美三区在线视频| 国产xxxx孕妇| 国产精品拍拍拍| 久久久久五月天| 国产目拍亚洲精品99久久精品 | 自拍视频一区二区| 国产免费亚洲高清| 精品久久久久久久久久久| 日韩精品1区2区| 在线日韩av永久免费观看| 精品中文视频在线| 成人一二三区视频| 山东少妇露脸刺激对白在线| 久久99精品久久久久久青青日本| 日韩一区二区三区观看| 日本在线观看不卡视频| 精品无码人妻少妇久久久久久| 国产成人综合av| 色av一区二区| 久久久久国产精品一区三寸| 欧洲成人午夜精品无码区久久| 国产精品视频地址| 在线精品国精品国产尤物884a| 日韩一级片免费看| 绯色av蜜臀vs少妇| 国产91视觉| 亚洲国产精品女人久久久| 国产91精品入口| 日本在线观看中文字幕| 日日橹狠狠爱欧美超碰| 热久久这里只有| 日本高清免费不卡视频| 麻豆精品在线看| 女教师淫辱の教室蜜臀av软件| 三区精品视频观看| 中文字幕日韩电影| 亚洲精品视频一区| 成人h动漫精品一区二区无码| 99久久综合网| 免费毛片一区二区三区久久久| 亚洲伦理中文字幕| 国产人成一区二区三区影院| 国产精品第6页| 最好看的中文字幕| 欧美凹凸一区二区三区视频| 中文字幕日韩在线播放| 亚洲精品写真福利| 狂野欧美性猛交xxxx巴西| 三年中国中文观看免费播放| 成人在线免费观看网址| 亚州精品天堂中文字幕| 日本高清视频一区二区| 成人18视频日本| 毛片在线免费播放| 日韩综合第一页| 男女h黄动漫啪啪无遮挡软件| 国内精久久久久久久久久人| 在线播放国产精品二区一二区四区| 成人免费毛片片v| 中文字幕资源网| 日韩网站在线播放| 美女av免费观看| 国产精品久久久久久久av大片| 欧美va亚洲va在线观看蝴蝶网| 国产日韩欧美精品综合| 亚洲伦理在线观看| 国产美女久久久久久| 欧美视频在线观看网站| 成人亚洲综合色就1024| 国产一区二区三区精品久久久| 亚洲超碰精品一区二区| 国产一区二区精品在线观看| 99re国产在线| 国产免费一区二区三区网站免费| 少妇人妻无码专区视频| 97久草视频| 久久久亚洲福利精品午夜| 精品久久久久久无| 亚洲一区二区精品3399| 丁香婷婷综合五月| a级片在线播放| 美女的奶胸大爽爽大片| 国产wwwxx| 最近免费观看高清韩国日本大全| 91精品久久久久久久久久入口 | 成人免费在线视频网址| 视频在线观看99| 91精品国产综合久久久久久漫画| 亚洲欧洲www| 国产激情一区二区三区桃花岛亚洲| 中文字幕第一页在线播放| 欧美视频www| 欧美性生交xxxxx| 777久久久精品一区二区三区| 久久香蕉综合色| 国产精品国产三级国产aⅴ浪潮| 亚洲图片欧美午夜| 欧美一区二区福利视频| 欧美日韩精品在线播放| 亚洲国产成人一区二区三区| 国产一区欧美日韩| 亚州视频一区二区三区| 中文在线字幕av| 国产成人无码一区二区三区在线| 免费在线观看你懂的| 又黄又爽又色的视频| 人人干视频在线| 亚洲精品中文综合第一页| 国产日韩精品推荐| 国产欧美日韩精品在线观看| 国内免费久久久久久久久久久 | 亚洲欧美综合另类中字| 欧美日韩黄色影视| 欧美日韩美女视频| 亚洲精品国产无套在线观| 欧美激情一区二区三区蜜桃视频 | 国产黄色特级片| 免费超爽大片黄| 日本一道在线观看| 中文字幕精品一区日韩| 日韩啊v在线| 免费试看一区| 久久99九九| 国产一区二区三区无遮挡 | 日本vs亚洲vs韩国一区三区二区| 国产三级视频在线播放| 在线免费av片| 中文字幕色网站| 91在线视频观看免费| 成人免费观看cn| 日韩精品视频久久| 国产免费观看高清视频| 久久国产亚洲精品无码| 亚洲人成无码网站久久99热国产 | 国产视频亚洲色图| 国产三级精品三级在线专区| 久久精品一级爱片| 国产日韩精品视频一区| 久久免费电影网| 中文字幕乱码亚洲精品一区| 中文字幕一区二区三区不卡 | 久久夜色精品国产欧美乱极品| 波多野结衣一区二区三区| 97精品久久久久中文字幕| 26uuu国产电影一区二区| 欧美激情一二三区| 综合网在线视频| 亚洲va国产天堂va久久en| 欧美性猛交xxxx乱大交蜜桃| 91久久久免费一区二区| 欧美色视频在线观看| 日韩女优视频免费观看| 亚洲精品视频久久| 深夜福利一区二区| 青青草原成人在线视频| 国产精品久久久久久久久久ktv| 国产一区视频在线| 久99久在线| 一级做a爰片久久| 一卡二卡三卡视频| www.久久av.com| 免费无码一区二区三区| 欧美手机在线观看| yjizz国产| 国产三级自拍视频| 看片的网站亚洲| 久久这里都是精品| 一区二区三区不卡在线观看 | 久久亚洲欧美| 国产精品91一区二区| 国产精品久久久久久亚洲毛片 | 亚洲欧美电影院| 在线观看亚洲精品视频| 亚洲精品一区二区三区在线观看| xxxxx成人.com| 国产精品久久久久av| 久久久久久欧美精品色一二三四| 综合网五月天| 午夜精品久久久久久久99热影院| 亚洲精品乱码久久久久久久久久久久 | 亚洲无人区一区| 精品日韩99亚洲| 欧美精品videossex88| av蓝导航精品导航| 日韩精品第1页| 成人免费播放视频| 可以直接看的黄色网址| 国产视频第一页| 高清日韩电视剧大全免费| 亚洲精品综合在线| 精品99一区二区三区| 国产最新精品视频| 国产一区免费在线| 国产精品自拍片| 成人免费网站黄| 一区二区视频免费| 成人av影院在线| 在线观看欧美日本| 欧美日韩成人在线播放| 久久综合久久综合这里只有精品| 亚洲性生活网站|