創(chuàng)澤機器人 |
CHUANGZE ROBOT |
三年前,人形機器人還處于陽春白雪的科研階段,這兩年發(fā)展迅猛。那么,人形機器人當前面臨的問題是什么?突破的方向在哪里?未來的應(yīng)用在哪里?前不久,在上海2025人形機器人產(chǎn)業(yè)高質(zhì)量發(fā)展論壇上,地方共建人形機器人創(chuàng)新中心(簡稱“國地中心”)席科學(xué)家江磊介紹了他的看法,并提出與產(chǎn)業(yè)鏈共同打造出四位一體生態(tài)的觀點。
人形機器人在各大證券市場已經(jīng)有了概念股,從2024年1月開始,還是平平淡淡的發(fā)展,為什么到了8月,整個二J市場被急速拉動?
先,一定是人形機器人行業(yè)找到了一個技術(shù)突破、可發(fā)力的對象。
第二,政策方面,今年一開年,要設(shè)立相應(yīng)的重大項目,原因可能是我們想緩解勞動力缺口,以及應(yīng)對未來人口老齡化的挑戰(zhàn)。
第三,從產(chǎn)品端看,人形機器人迎來了GPT時刻。此時尤其令我們自豪的是,在這個高科技領(lǐng)域的起步階段,我國登上了世界舞臺,已有一些有代表性的企業(yè)和樣機。
第四,從行業(yè)角度看,千行百業(yè)都在關(guān)注。據(jù)統(tǒng)計,現(xiàn)在已有100家左右的整機公司,預(yù)計到今年年底會有200多家,還有數(shù)千家的核心零部件廠家,這構(gòu)成了一個大生態(tài)。汽車行業(yè)、手機行業(yè)、制造行業(yè)、互聯(lián)網(wǎng)、國央企都在投入。一個共性原因是:在一個行業(yè)處于發(fā)展的高峰期或瓶頸期,內(nèi)卷就開始出現(xiàn),因此這五大行業(yè)、企業(yè)都找到了發(fā)力點:人形機器人,認為是破解行業(yè)規(guī)律性周期性難題的一個主要動因。國外也是如此,今年年初,蘋果、三星、現(xiàn)代等開始設(shè)立人形機器人的硬件團隊。今年阿里也在張江模力社區(qū)(注:“國地中心”搭建)設(shè)立了智能機器人的硬件團隊。
在此,“通用化”會成為一個經(jīng)濟活動的名詞。過去人們會把通用化做成技術(shù),所以業(yè)界一直在爭論:是做專用機器人,還是做通用機器人?其實這種爭論沒有什么意義,因為技術(shù)都是為場景服務(wù)的。所謂的場景驅(qū)動就是有沒有市場,廠家的產(chǎn)品能不能找到市場、銷售出去。所以“通用化”更重要的是在一個新興市場,單品能否過10萬臺的門檻。今年人形機器人單品可能會過1萬臺的門檻,但更期待未來是百萬臺、百億臺的產(chǎn)業(yè)規(guī)模。目前10萬臺將是一個重要的門檻。另一個角度,如果做一個產(chǎn)品,單品要10萬臺,它可用在哪些場景呢?這值得我們?nèi)ド钊胨伎迹購摹巴ㄓ没眮砜紤]產(chǎn)品定義和設(shè)計如何去做。
有一個高價值飛輪的理論。三年前,人形機器人是個萬億元的潛在賽道,因此發(fā)布了政策來加速促進人形機器人的發(fā)展,使其對于公眾來說不再陌生,不經(jīng)意間,在電視節(jié)目或某個商場的轉(zhuǎn)角就能看到人形機器人,它正在形成一個巨大的產(chǎn)品市場。因此,今年是完成高價值飛輪的重要一年。那么能否實現(xiàn)規(guī)模和量產(chǎn)?高價值飛輪的核心驅(qū)動力還是來自于顛覆性的技術(shù)。
為什么2024年8月人形機器人的二J市場會被急速拉升?因為顛覆性技術(shù)起到了決定性的作用。
工信部提出了兩大革命:“機器人+革命”與“人工智能+革命”,它們對應(yīng)的都是新質(zhì)生產(chǎn)力!皺C器人+”是新質(zhì)硬件生產(chǎn)力,“人工智能+”是新質(zhì)軟件生產(chǎn)力。可見,新質(zhì)生產(chǎn)力是軟硬一體化的典型代表。在這樣的一個產(chǎn)業(yè)、技術(shù)、行業(yè)、規(guī)模、政策里,其中的線索一定是技術(shù)驅(qū)動了這次技術(shù)革命。
先,其背后的邏輯,以π0團隊為代表,去年8月Physical Intelligence次發(fā)布了通用人形機器人的視覺-語言-動作模型(VLA)。現(xiàn)在VLA已經(jīng)成為一個事實標準。如果回到去年8月之前,相信90%的專家會認為機器人的操作還不屬于預(yù)訓(xùn)練(注:語言/ChatGPT是大模型,是預(yù)訓(xùn)練),我們雙手的操作不是預(yù)訓(xùn)練,但是,從8月開始,π0團隊發(fā)現(xiàn)它也是一個大規(guī)模預(yù)訓(xùn)練架構(gòu)。大算力大模型也是大力出奇跡的一個行業(yè),并被證明這種方式是可以的。
實際上,不僅π0發(fā)現(xiàn),國內(nèi)外同時十二個團隊用10萬的數(shù)據(jù)集、30萬的數(shù)據(jù)集、現(xiàn)在用80萬的數(shù)據(jù)集激勵了以后,整個任務(wù)達成率也是直線上升。
我們堅信規(guī)模法則與后訓(xùn)練將會促進這一次人形機器人Z終的一個閉環(huán)。
當然還有一部分—智駕,例如,特斯拉的FSD V12幫助印證,現(xiàn)在也轉(zhuǎn)向VLA。而之前做汽車的人是做端側(cè),發(fā)現(xiàn)VLA也很好用。
人們?nèi)绻私釼LA的誕生,其完全不是為汽車設(shè)計的,是為谷歌的一款類人形機器人的構(gòu)型設(shè)計,結(jié)果沒想到VLA也撐起了智駕的半邊天。
當然,還是要回到人形機器人,僅有VLA夠不夠?
去年Figure聯(lián)合OpenAI造出了Figure 01,可以看到大模型是在人形機器人的Z上層,是采用大腦、小腦+肢體的分層類人架構(gòu)來實現(xiàn)的。去年我國在“世界人工智能大會(WAIC)”上也推出了我國自己的大腦、小腦、驅(qū)動架構(gòu),今年正進一步完善。
人形機器人有沒有一個通用的完全端到端的大模型?現(xiàn)在VLA解決了上層的,下層有一個控制模型是屬于分層架構(gòu),但能不能用一個分層實現(xiàn)完全端到端?有一篇論文支持了這樣的觀點。因此,三年前,語言進入了大模型(例如ChatGPT),去年雙手操作進入大模型(例如VLA),現(xiàn)在的問題是:下肢行走以及全身運動是不是一個大模型?堅信將來會有一個大模型,能夠讓人形機器人、四足機器人以及汽車來實現(xiàn)統(tǒng)一的駕駛。
人形機器人行業(yè)目前有四類:
汽車智駕的具身模型;
機器人上肢操作/VLA;
人形分層策略;
芯片/GPU。
整個具身智能產(chǎn)業(yè)正在爆發(fā),所有路徑都需要大數(shù)據(jù),所以在去年“國地中心”組建了訓(xùn)練場來推動這件事。
“國地中心”的麒麟具身智能訓(xùn)練場有五項功能,除了收集數(shù)據(jù),訓(xùn)練場的另外一個作用是對現(xiàn)在的大模型進行檢測與評定,提出大模型的benchmark,例如,做一個什么樣的大模型更適合人形機器人?現(xiàn)在需要一個行業(yè)的基準線。
目前人形機器人在跑得快、拿得準、訓(xùn)得好、通用化方面都有代表性公司。Z近業(yè)界在爭論:是不是機器人都需要走跑跳?是不是應(yīng)該進廠打工?實際上,目前有四類人在研究,跑得快的人不做抓取,做抓取的不做跑得快,做訓(xùn)練的人大多數(shù)都是人工智能的人,做“通用化”的人是做基礎(chǔ)設(shè)施的。高動態(tài)的硬件平臺、準確抓取的具身智能、訓(xùn)練的實訓(xùn)場、通用泛化的數(shù)據(jù)集—這四件事,哪怕有一件事做不好,人形機器人的軟硬件的終極難題就落不了地,所以我們需要要發(fā)展生態(tài)。
回到發(fā)展的起點:人形機器人未來一定是進廠打工以及為我們養(yǎng)老。例如養(yǎng)老,還有八
項卡脖子技術(shù)沒有打通。人們面對未來的通用化,一定不是針對八個問題建立八個模型,甚至建立幾百個模型來解決,人們希望構(gòu)造一個完全端到端的模型,來同時解決八項卡脖子技術(shù),這樣才能實現(xiàn)Z終通用化的夢想。
江磊老師有個激進的預(yù)測:做硬件平臺的得去做小的機器人,這樣迭代的速度更快。做具身智能現(xiàn)在很火,但是千萬不要只做操作,行走大模型已成為今年國際競爭的熱點!皣刂行摹钡茸鰧嵱(xùn)場的人一定要去做自己的世界模型,以及做數(shù)據(jù)集的人要用開源的方式來完成整個生態(tài)的構(gòu)建。
人形機器人從當前的角度來看,四位一體的生態(tài)還沒有完全建立。“國地中心”希望跟業(yè)界共同打造出我國的四位一體生態(tài)。
今年人形機器人是可以量產(chǎn)的,但真正的大規(guī)模的應(yīng)用還沒到來。我們加速建立四位一體的生態(tài),才能加速人形機器人產(chǎn)業(yè)的到來。
![]() |
機器人底盤 Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動機器人底盤 商用機器人 智能垃圾站 智能服務(wù)機器人 大屏機器人 霧化消毒機器人 展廳機器人 服務(wù)機器人底盤 核酸采樣機器人 智能配送機器人 導(dǎo)覽機器人 |