Copyright 2019-2024 微推堂 版權所有 京ICP備2019123967號
6月26日訊 日前,谷歌宣布推出“自家最強大的視覺-語言-動作(VLA)模型”Gemini Robotics On-Device,作為一款面向雙臂(16.800, -0.19, -1.12%)的通用基礎模型,Gemini Robotics On-Device專為減少計算資源消耗而設計。
其具備通用靈巧操作能力和任務泛化能力,即支持靈巧操作任務的快速實驗、可通過微調適應新任務,以提升性能。
更重要的是,這款模型可以完全在機器人設備本地離線運行。谷歌表示,由于運行時無需依賴數據網絡,這一模型非常適用于對延遲敏感的應用場景,并能在網絡連接不穩定甚至完全中斷的環境中穩定運行——換言之,即使是在完全斷網的情況下,搭載這款模型的機器人設備也能做到“看得見、聽得懂、做得了”。
Gemini Robotics On-Device在多種測試場景中實現了強大的視覺、語義和行為泛化能力,能理解自然語言指令,并完成拉開拉鏈、折疊衣物等高靈巧度任務。