作者 | 洪澤鑫編輯 | 德新
很多人肯定都看過上面這個(gè)對(duì)比視頻。
不少吃瓜群眾感慨,小米比特斯拉領(lǐng)先整整60年。
左邊的特斯拉機(jī)器人像20歲,右邊的小米機(jī)器人看起來像80歲。
但事實(shí)上,特斯拉的這個(gè)機(jī)器人是人扮的。
而在中國國慶假期的第一天,我們終于看到了特斯拉人形機(jī)器人Optimus的原型機(jī)。
這...我硬生生把到嘴邊的歡呼聲吞了回去。
看起來頂多比小米機(jī)器人年輕個(gè)兩歲,不能再多了!
這機(jī)器人老態(tài)龍鐘到上下臺(tái)都需要三四個(gè)大漢抬著。
一下子仿佛看到了老齡化社會(huì)。
除了機(jī)器人,這場(chǎng)長(zhǎng)達(dá)三個(gè)小時(shí)的直播還講了些什么?
馬斯克一開始就預(yù)警了這次AI day有大量專業(yè)名詞,主要是給技術(shù)人才看的。
今天簡(jiǎn)單總結(jié)點(diǎn)普通人能看懂的。
首先,特斯拉強(qiáng)調(diào)機(jī)器人Optimus從初代開發(fā)平臺(tái)到現(xiàn)在只過去了6個(gè)月,潛臺(tái)詞是:
做成這樣已經(jīng)很可以了。
特斯拉選擇做“人形”機(jī)器人的出發(fā)點(diǎn)是:人體是最靈活的架構(gòu)。
在理解人形機(jī)器人的優(yōu)勢(shì)之前,需要先弄懂“自由度”這個(gè)概念。
大學(xué)學(xué)過機(jī)械原理應(yīng)該不陌生,通俗來說,自由度(Degree of Freedom)是指機(jī)器人身上能夠運(yùn)動(dòng)的關(guān)節(jié)方向的數(shù)目,自由度越多,活動(dòng)越靈活。
舉個(gè)例子,下圖的這類機(jī)械臂只有6個(gè)自由度,這意味著,在A點(diǎn)和B點(diǎn)被固定住的前提下,它無法從左邊直接變換為右邊狀態(tài)。
而換做7個(gè)自由度的機(jī)械臂,就跟人類手臂類似了,把肩膀A點(diǎn)和手指尖B點(diǎn)固定住,也能變換很多種狀態(tài)。
Optimus的全身自由度數(shù)量是28個(gè),分布如下圖所示。
以下則是波士頓動(dòng)力的機(jī)器人Atlas的自由度分布,基本是一致的。
而Optimus的手部自由度有11個(gè),6個(gè)驅(qū)動(dòng)器(Actuator),號(hào)稱可以提20磅的袋子(9.07公斤),既有足夠的抓取力,又能抓取又細(xì)又薄的東西。
此外,本次的原型機(jī)并沒有公布身高體重,但特斯拉此前曾說過高1.72米,重56.6千克。
造價(jià)方面,預(yù)估量產(chǎn)價(jià)格不超過2萬美元——前提是產(chǎn)量達(dá)數(shù)百萬臺(tái)。
相比人類,人形機(jī)器人確實(shí)可以“取其精華去其糟粕”,做到比人體更高效——人類就算坐著不動(dòng)也在消耗能量。
但自由度越多,結(jié)構(gòu)就會(huì)越復(fù)雜,難度越大。
自由度的設(shè)計(jì)是要貼合落地場(chǎng)景的,否則很容易閉門造車——換句話說,精準(zhǔn)的場(chǎng)景定位是人形機(jī)器人商業(yè)化的基礎(chǔ)。
特斯拉的官方說法是:Optimus短期應(yīng)用于個(gè)人/家庭場(chǎng)景,中期有望進(jìn)入商業(yè)服務(wù)場(chǎng)景和非結(jié)構(gòu)化&輕量化工業(yè)場(chǎng)景,長(zhǎng)期待交互技術(shù)進(jìn)一步突破后有望滿足情感、陪伴等需求...造福人類...替代人類從事危險(xiǎn)、重復(fù)、無聊的工作。
問答環(huán)節(jié),馬斯克被問到Optimus有什么使命、未來會(huì)不會(huì)跟人對(duì)話,他反復(fù)在說:
“我也不知道Optimus最終會(huì)是什么樣子的...但肯定很有意思...肯定不會(huì)是終結(jié)者那樣...肯定不會(huì)無聊?!?/p>
就是沒想好到底能用在哪里唄?
也是,這老態(tài)龍鐘的機(jī)器人,是還不太用得上。
在人形機(jī)器人的研發(fā)上,特斯拉在四個(gè)輪子的汽車上抄了不少作業(yè)。
第一,上圖的橙色部位是Optimus的驅(qū)動(dòng)器(Actuator),簡(jiǎn)單理解就是讓機(jī)器人發(fā)出動(dòng)作的動(dòng)力機(jī)構(gòu),可以比作汽車的電機(jī);藍(lán)色部位是電氣系統(tǒng)(Electrical System),可以比作汽車的電子電氣架構(gòu)。
2.3 kWh、52V的電池包是在胸口的位置,保證電池高效和安全方面用的是電動(dòng)汽車的技術(shù)。
第二,計(jì)算機(jī)跟電池包是放在一起的,計(jì)算單元跟的車載計(jì)算單元是一致的。
此外還有無線通訊模塊、語音模塊和安全保護(hù)模塊,充電管理、傳感器和冷卻系統(tǒng)高度集成。為了最大化地降低汽車碰撞帶來的損傷,車企一般會(huì)通過仿真來優(yōu)化和改進(jìn)車輛潰縮、保護(hù)電池,同樣的方法也被特斯拉用在防止機(jī)器人摔倒上——摔跤時(shí)優(yōu)先保障“大腦”以及軀干電池組的安全。
試著在腦海里把Optimus放倒,再看它的這些電池包位置、電氣架構(gòu),是不是有點(diǎn)眼熟?
這樣的架構(gòu)也并不新穎,之前日本的HRP-5p建筑機(jī)器人以及慕尼黑工業(yè)大學(xué)的LOLA機(jī)器人都是把電池包和集成電路背在身后。
很多人拿波士頓動(dòng)力Atlas來比較,但Atlas更偏向腿足式機(jī)器人,采用液壓驅(qū)動(dòng)控制,單臺(tái)造價(jià)差不多200萬美金。
你看小米的腿足式機(jī)器人CyberDog走得也挺溜的。
第三,Optimus的行走模塊算法也跟自動(dòng)駕駛汽車的規(guī)控模塊類似,不是簡(jiǎn)單制定規(guī)則,而是設(shè)定目標(biāo),通過獎(jiǎng)勵(lì)函數(shù),讓Optimus自行適應(yīng)動(dòng)態(tài)的環(huán)境變化。
第四,在Optimus執(zhí)行器的配合上,也像汽車一樣,考慮到了能量成本。因?yàn)殡妱?dòng)車有前后兩套電驅(qū),當(dāng)車輛加速時(shí),需要考慮前后電機(jī)如何配合才能達(dá)到效能最大化。Optimus在執(zhí)行各種動(dòng)作時(shí),也需要有多個(gè)執(zhí)行器配合,特斯拉會(huì)通過仿真優(yōu)化,來保證工作執(zhí)行時(shí)達(dá)到最低能耗。
第五,Optimus的視覺感知也可以看成是一輛裝上腳立起來的汽車,用的也是FSD的Occupancy Network,需要做的就是再收集更多數(shù)據(jù)。室內(nèi)GPS信號(hào)比較差,所以視覺導(dǎo)航定位也需要像汽車進(jìn)入地下停車場(chǎng)般精準(zhǔn)。
最后,在運(yùn)動(dòng)規(guī)劃上,特斯拉先是表示:很難。
擁有四肢的機(jī)器人要想動(dòng)起來,比四個(gè)輪子的汽車確實(shí)復(fù)雜多了。
因?yàn)槠嚨男袆?dòng)路徑只有橫線和縱向兩個(gè)方向,而人形機(jī)器人的運(yùn)動(dòng)除了前進(jìn)后退、左轉(zhuǎn)右轉(zhuǎn),還需要考慮平衡、彎腰、踩踏、下坡等等情況。
現(xiàn)在特斯拉的做法是通過捕捉現(xiàn)實(shí)生活里人類的動(dòng)作,把這些動(dòng)作簡(jiǎn)化成軌跡,借助運(yùn)動(dòng)學(xué)來實(shí)現(xiàn)機(jī)器人的軌跡優(yōu)化。
綜上所述,造車的公司造機(jī)器人確實(shí)有很多優(yōu)勢(shì),但也不完全相通。
很多自動(dòng)駕駛公司一開始都是基于ROS做的自動(dòng)駕駛系統(tǒng)——ROS是一個(gè)用于開發(fā)機(jī)器人應(yīng)用程序的、類似操作系統(tǒng)的機(jī)器人軟件平臺(tái)。
可以說自動(dòng)駕駛源于機(jī)器人,很多自動(dòng)駕駛做決策規(guī)劃的工程師都是從機(jī)器人賽道出來的,只是ROS無法滿足大數(shù)據(jù)量傳輸、實(shí)時(shí)及穩(wěn)定的需求,所以自動(dòng)駕駛公司逐漸遷移或自研其他架構(gòu)。
目前,特斯拉FSD的用戶已經(jīng)從2021年的2000人增長(zhǎng)到16萬人。
期間,F(xiàn)SD版本更新了35次,訓(xùn)練了75778個(gè)模型,共收集了有480萬個(gè)Clip(場(chǎng)景數(shù)據(jù)),現(xiàn)在已經(jīng)實(shí)現(xiàn)從一個(gè)停車場(chǎng)自動(dòng)駕駛到另一個(gè)停車場(chǎng)。
馬斯克還說FSD早就可以在很多國家推出了,沒有推出是因?yàn)楹芏鄧曳ㄒ?guī)不讓。
特斯拉用下面這個(gè)圖概括了FSD的核心技術(shù)棧,并且分別介紹了各個(gè)模塊的最新技術(shù)進(jìn)展,技術(shù)門檻挺高,沒法一一介紹,只列我看到的幾個(gè)亮點(diǎn):
感知方面,基于attention的transformer做前融合,去年特斯拉AI Day 之后,transformer就在業(yè)內(nèi)火了起來,國內(nèi)的毫末和輕舟也一直在提。
仿真方面,不用NeRF方案,從地圖上的線到網(wǎng),從網(wǎng)到面,就能生成基于真實(shí)數(shù)據(jù)構(gòu)建的虛擬城市。生成整個(gè)舊金山地區(qū)的仿真環(huán)境,只需要一個(gè)人兩周時(shí)間就能搞定。
自動(dòng)標(biāo)注方面,特斯拉將訓(xùn)練場(chǎng)景的標(biāo)注速度提升了1000倍,在人工操作的情況下這些或許需要一兩周甚至幾個(gè)月時(shí)間。
要想得到更好的神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)果,就離不開高效率的芯片。
Dojo超級(jí)計(jì)算機(jī)已經(jīng)給特斯拉在代碼、設(shè)計(jì)方面實(shí)現(xiàn)了30%的訓(xùn)練速度提升。
比如,Dojo運(yùn)行“Stable Diffusion”模型生成火星上的Cybertruck,只需要幾分鐘。
比如,只使用一個(gè)由25個(gè)D1芯片組成的訓(xùn)練塊,就能實(shí)現(xiàn)6個(gè)GPU機(jī)箱的性能,且成本低于一個(gè)GPU機(jī)箱。
再比如,只需要4個(gè)Dojo超級(jí)計(jì)算機(jī)機(jī)柜的算力,就能實(shí)現(xiàn)72個(gè)GPU機(jī)柜的自動(dòng)標(biāo)注性能。
特斯拉會(huì)在2023年第一季度布置第一批10個(gè)Dojo超級(jí)計(jì)算機(jī)機(jī)柜,即算力超過1.1EFLOPS的ExaPOD,將自動(dòng)標(biāo)注能力提升2.5倍。
將來,特斯拉要在帕羅奧圖布置7個(gè)這樣的集群。
馬斯克還提到,Dojo超級(jí)計(jì)算機(jī)未來也有可能跟亞馬遜AWS一樣,作為一個(gè)基礎(chǔ)服務(wù)設(shè)施來賣錢。
因?yàn)镺ptimus機(jī)器人一年來的成績(jī)單交得過于老實(shí),這個(gè)AI Day的開頭很讓人失望。
但整場(chǎng)AI Day確實(shí)很有“招聘會(huì)”的氛圍,是由不同模塊工程師的內(nèi)容無縫串講起來的,分享的內(nèi)容很硬核。而且員工群體十分具備多樣性,里頭還有好幾位讓人印象深刻的華人。
活動(dòng)展現(xiàn)出來的這種自由和平等,確實(shí)是工程師所向往的企業(yè)文化。
至于對(duì)Optimus的評(píng)價(jià),馬斯克自己說出了大家的聲音:
我們希望不僅僅有好的想法,還要有好的結(jié)果。
參考資料:
DARPA'S ATLAS Robot Needs A Brain
https://www.i-programmer.info/news/169-robotics/6095-darpas-atlas-robot-needs-a-brain.html
Development of a Humanoid Robot Prototype, HRP-5P, Capable of Heavy Labor
https://www.aist.go.jp/aist_e/list/latest_research/2018/20181116/en20181116.html
Making Atlas Dance, Run, and Jump
https://www.youtube.com/watch?v=yagQG_b_hfs
來源:第一電動(dòng)網(wǎng)
作者:HiEV
本文地址:http://www.healthsupplement-reviews.com/kol/186243
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除。