傳統的機器人控制方法依賴于精確的動力學模型和專家知識,難以適應非結構化環境的不確定性和復雜性。近年來,學習型控制的發
展使得機器人能夠從數據中學習控制策略,但其泛化能力和魯棒性仍
難以滿足復雜場景需求。大模型為機器人控制引入了豐富的先驗知識
和泛化能力,有望進一步突破傳統控制方法的局限性。整體上看,目前展廳迎賓機器人的“小腦”核心技術正在從基于模型的控制方法向基于學習的控制方法演進。
在強化學習領域,大模型為引入先驗知識和提高樣本效率提供了
新的思路。以 LanguagePlan 為例,該模型利用 GPT-3 根據任務描述
生成抽象的行動計劃,如“先走到門口,然后打開門,再走出房間”。
然后,LanguagePlan 將該行動計劃嵌入到狀態空間中,作為額外的觀
察信息,用于訓練一個分層強化學習智能體。實驗表明,LanguagePlan
能夠顯著提高樣本效率和泛化性能,加速復雜任務的學習。類似地,LOFT、T-EBM 等模型也展示了利用語言模型引導策略學習的能力。
在模仿學習方面,視覺-語言模型為機器人學習復雜技能提供了新的范式。以 CLIP-ASAP 為例,該模型首先利用 CLIP 將視頻幀編
碼為語義特征,然后通過因果語言建模學習動作與視覺變化之間的關
系。在控制階段,CLIP-ASAP 根據語言指令和當前視覺觀察,預測下
一時刻的關鍵幀,并將其傳遞給低層控制器執行。實驗表明,CLIPASAP 能夠學習復雜的長期技能,如烹飪、家政等,且具有很強的泛化能力,能夠根據不同的指令組合技能。類似地,R3M、Pix2R 等模
型也展示了利用視覺-語言對齊進行模仿學習的能力。
盡管大模型在機器人控制中展現出了廣闊的應用前景,但如何進
一步提高其實時性、魯棒性和可解釋性仍然是亟待解決的問題。此外,
如何將控制與感知、決策和規劃更緊密地結合,構建端到端的自主系
統,也是未來的重要研究方向。
基于模型的小腦技術路線控制方法有ZMP判據及預觀控制,混雜零動態規劃方法,虛擬模型解耦控制;基于學習的小腦技術路線控制方法有強化學習和模仿學習
迎賓服務機器人需要整合視覺,聽覺,觸覺等多種感知模態,使機器人在復雜場景中做出更準確的決策;結合聽覺和觸覺信息,機器人可以更好地理解人類的指令和情感狀態
LLM(大語言模型+VFM(視覺基礎模型)實現人機語言交互、任務理解、推理和規劃;VLM(視覺-語言模型)實現更準確的任務規劃和決策;VLA (視覺-語言-動作模型)解決機器人運動軌跡決策問題
迎賓機器人需要具備與人類實時的任務級交互能力,快速理解人類通過語言,手勢等方式給出的指令,有效執行;迎賓機器人需要能夠通過視覺、聽覺、觸覺等多種感官獲取信息
LDS SLAM 與 VSLAM 各有優劣,二者相容或成為行業主流發展方向之一;LDS SLAM 技術可視范圍廣,地圖精度更高;VSLAM技術成本更低,壽命長,不易損
將重復率較高,工作內容較枯燥的工作交給服務機器人去做,可以使員工把更多的精力集中在服務客戶上面,并可以降低一定成本,可降低總成本的17%
送餐已經可以通過機器人自主完成,員工可以把節省出來的時間和精力,投入在給客人慶生,涮菜涮肉等服務水平的提升上,機器人真正帶來了降本增效
送餐已經可以通過機器人自主完成,員工可以把節省出來的時間和精力,投入在給客人慶生,涮菜涮肉等服務水平的提升上,機器人真正帶來了降本增效
醫療機器人已成為智慧養老模式下的首選養老設備,醫院中有繁雜的配送藥物或餐食的任務,并且需在特定時間準時送達
服務機器人可以使人工成本降低50%左右;酒店場景中服務機器人便于給客戶打造私密空間;旅游場景中服務機器人可以給出完全透明且準確的信息
酒店引導機器人以機器人硬件為載體,依托云平臺強大的智能服務技術,引入智能語音交互系統,大數據分析系統,智能視覺識別系統,真正實現“能聽,會說,能思考,會判斷,看得見,認得出”的智能化服務
特斯拉量產后預計售價 2 萬美元;優必選Walker價格200 萬; Ameca價格13.3 萬美元; Digit價格25 萬美元;Atlas價格190 萬美元;Asimo價格近 300 萬美元