常見的人工智能大模型有 NLP(Natural Language Processing,自然語言處理)
大模型、CV(Computer Vision,計算機視覺)大模型和多模態大模型等。
NLP 大模型
現狀
分別在語言理解與生成、智能創作、機器翻譯、智能對話、知識圖譜和定制化語言解決方案落地應用,整體算法發展順利,
數據源可獲得性較強,產品迭代速度較快。
挑戰
語言的歧義、文化差異及多樣化、情感分析困難。
預期未來發展
以多個數據信息維度約束來驗證情感分析及文本分析的準確
性。
CV 大模型
現狀
2D 數據工業質檢、智慧城市
落地完善,應用場景多、可商
業化市場大,擁有最佳實踐;
人臉、OCR 識別發展較為成
熟。
挑戰
3D/4D數據識別面臨變形、光照、遮擋等可以依靠大規模預訓練模型解決部分痛點的問題;算法處理復雜。
預期未來發展
打通數據融合以突破 3D/4D
獲取瓶頸。
多模態大模型
現狀
面臨數據成本高、模型開
發難、算力資源不足等。
挑戰
融合不同模態的信息并提高模型的標識能力。
預期未來發展
多模態將持續拓展各行業
場景下的信息融合應用。
從技術的角度來看,大模型發端于自然語言處理領域,繼語言模態之后,如視覺大模型
等其他模態的大模型研究,也開始逐步受到重視。2023 年,是人工智能大模型快速發展的
一年,據不完全統計,國內公開的 AI 大模型數量已經超過 200 個,但國內大模型的能力與
迭代速度距離國際先進水平尚有差距。目前,人工智能技術的發展正面臨著大量跨模態任務
的挑戰,跨多個模態的數據融合問題開始變成行業探究的重點。隨著國內人工智能企業和人
形機器人企業加大合作力度,未來在大模型的賦能下,機器人擁有了更加智慧的大腦,自主
學習能力大幅提升
NLP 大模型是人工智能領域的重要研究方向,CV大模型是指基于深度學習的計算機視覺模型,多模態大模型是指將文本、圖像、視頻、音頻等多模態信息聯合起來進行訓練的模型
機器人大腦提高人形機器人的人-機-環境共融交互能力,支撐全場景落地應用;機器人小腦提升人形機器人非 結構化環境下全身協調魯棒移動、靈巧操作及人機交互能力
英偉達 GR00T讓人形機器人理解自然語言文本,語音,視頻,以模仿人類運動;阿里云機器人大模型可賦予機器人知識庫問答,工藝流程代碼生成,機械臂軌跡規劃,3D目標檢測和動態環境理解等全方位能力
純視覺方案:成本低,技術成熟度高,產業鏈成熟度高,符合人眼邏輯;易受天氣影響,易受光照影響,算力需求較高,需要大量圖像訓練集;激光雷達方案:識別率高,環境適應力強,產業鏈成熟度高
攝像頭可實現測距,但精度較低,通過 AI 算法識別,但難 以識別非標準障礙物;毫米波雷達縱向精度高,橫 精度低;激光雷達是高精度,3D 建模,易識別;
本田 ASIMO由四個運行著 VxWorks 實時操作系統的處理器構成;歐洲 ICUB使用名為 ARCHER 的學習型算法體系;特斯拉 Optimus用Optimus 的神經網絡
人形機器人將實現從0到1量產,根據我們測算,2025年和2030年全球人形機器人市場規模 分別有望達到1.4億元和249.5億元,2025-2030年全球人形機器人CAGR有望達到182%
人形機器人靈巧手進行抓取動作,空心杯電機為核心部件;信號解析 匯總執行 輸出轉速 (高速、低扭矩) 降速增扭 直線傳動轉 換為旋轉傳 動 驅動傳導 感知及力 反饋
旋轉執行器分布于肩部、手部等多自由度關節,作用是將某物旋轉到一定角度完成旋轉運動;驅動關節完成旋轉動作,減速器為核心部件
線性執行器位于膝肘等單自由度及腕踝等雙自由度關節,將電機旋轉運動轉為直線運動;變旋轉運動為直線運動,行星滾柱絲杠為核心部件
人形機器人感知系統成本占比7.3%,執行系統成本占比53.2%;線性執行器成本占比31.0%;旋轉執行器成本占比17.9%;其他成本占比39.5%
執行系統BOM占比最高,約53.2%(其中直線、旋轉、手部分別 占31.0%、17.9%、4.3%);感知系統占7.3%,其他芯片、電池等部件合計占比39.5%