我們擅長(cháng)商業(yè)策略與用戶(hù)體驗的完美結合。
歡迎瀏覽我們的案例。
IT之家 7 月 13 日消息,科技媒體 The Verge 昨日報道,谷歌旗下的 DeepMind 團隊正在使用 Gemini 訓練其機器人,讓其能夠完成更復雜的任務(wù),且能在復雜的環(huán)境下自由穿梭。
DeepMind 團隊已經(jīng)發(fā)表了最新的研究論文,利用 Gemini 1.5 Pro 的上下文窗口(達到 200 萬(wàn)個(gè)詞元),讓用戶(hù)可以更輕松地使用自然語(yǔ)言指令與 RT-2 機器人互動(dòng)。
IT之家注:上下文窗口(context window)是指語(yǔ)言模型在進(jìn)行預測或生成文本時(shí),所考慮的前一個(gè)詞元(token)或文本片段的大小范圍。
其工作原理是拍攝指定區域(如家庭或辦公空間)的視頻導覽,研究人員使用 Gemini 1.5 Pro 讓機器人“觀(guān)看”視頻以了解環(huán)境;然后,機器人可以根據觀(guān)察到的情況,通過(guò)語(yǔ)言和 / 或圖像輸出來(lái)執行命令。
例如用戶(hù)向機器人展示一部手機,并詢(xún)問(wèn)“在哪里可以充電?”,機器人會(huì )引導用戶(hù)找到室內的電源插座。
DeepMind 稱(chēng),在一個(gè) 9000 平方英尺(IT之家備注:約 836.13 平方米)的操作區內,機器人在升級 Gemini 之后,測試發(fā)出 50 多條用戶(hù)指令,成功率高達 90%。
研究人員還發(fā)現 "初步證據" 表明,Gemini 1.5 Pro 能讓機器人計劃如何完成導航以外的指令。
例如,當一位桌上擺放著(zhù)許多可樂(lè )罐的用戶(hù)詢(xún)問(wèn)機器人是否有他們最喜歡的飲料時(shí),Gemini “知道機器人應該導航到冰箱,檢查是否有可樂(lè ),然后返回用戶(hù)處報告結果”。DeepMind 表示計劃進(jìn)一步研究這些結果。