“小腦”的運動規劃與控制是展廳迎賓講解機器人實現自然和流暢動作的 關鍵。傳統的基于模型的控制方法通過建立機器人的運動學和動力學模型,進行運動軌跡規劃和平衡控制,特點是身體控制穩健,步頻較慢,代表算法有零力矩點(ZMP,Zero Moment Point)算法、線性倒 立擺(LIP,Linear Inverted Pendulum)算法、模型預測控制(MPC, Model Predictive Control)算法、中心引力優化(CFO,Central Force Optimization)算法等,但整體開發較為復雜,成本高,不利于產品快 速迭代。基于學習的控制方法則使用端到端的人工智能技術,代替復 雜的運動學模型,大幅度降低了“小腦”開發難度、提升了迭代速度, 一般通過人類示教或自主學習建立運動執行策略。其中通過人類示教 的方式也稱為模仿學習,指通過人或者其他專家提供反饋示教的方式, 使機器人以產生與示教相似的行動策略進行學習,效果依賴高質量示范數據。通過自主學習的方式也稱為強化學習,指通過精心設計學習 目標,機器人不斷在環境中探索逐漸發現最大化獎勵的方式學習到最 優的執行策略,效果依賴于仿真環境。
目前主要的“小腦”技術路線包括以下幾種。
基于模型的控制方法:
ZMP判據及預觀控制。基于簡化的倒立擺模型/小車模型進行質 心點運動規劃和控制。該算法需要精確的動力學模型和復雜的在線控 制策略,擾動適應性差。典型代表有日本本田、AIST 的相關產品。
混雜零動態規劃方法。通過在全身動力學模型上采用非線性控制, 根據狀態選擇步態,進行軌跡跟蹤控制。該算法需要精確的動力學模 型和線性化反饋,實時求解慢,對復雜環境適應性差。典型代表有美 國俄勒岡州立大學的相關產品。
虛擬模型解耦控制。將控制解耦為速度、姿態、高度等,建立彈 簧阻尼等虛擬模型進行力矩控制。該算法降低了對精確動力學模型的 依賴,但融合復雜,對復雜環境的容錯能力有限。典型代表為波士頓 動力的相關產品。
模型預測控制+全身控制。基于簡單/復雜的動力學模型進行力的 預測控制,進而全身優化,可實現臂足協同及物體接觸。該算法依賴 精確動力學模型和狀態估計,線性模型僅適用于下肢單一步態的控制, 而非線性模型求解速度慢。典型代表有美國麻省理工學院、瑞士蘇黎 世聯邦理工大學和波士頓動力公司的相關產品。
基于學習的控制方法:
強化學習。通過獎勵設計和仿真環境設計,實現了受控步態、奔 跑、轉彎、上下臺階等運動學習,提升運動的魯棒性,并可以通過采 用因果 Transformer 模型,從觀測和行動的歷史中對未來行動進行自 回歸預測來訓練。典型代表如 Agility Robotics 的相關產品。
模仿學習。采用非線性最優化求解的動作映射,以人機關節軌跡 相似為目標,以機器人可執行性、安全性、穩定性判據為約束,規劃 運動方案。該算法計算耗時長,嚴重依賴初值,對碰撞檢測難以解析 計算。典型代表有日本 AIST、北京理工大學的相關產品。
![]() |
智能服務機器人 |