《AI未來指北》欄目由騰訊新聞推出,邀約全球業(yè)內(nèi)專家、創(chuàng)業(yè)者、投資人,探討AI領(lǐng)域的技術(shù)發(fā)展、商業(yè)模式、應用場景、及治理挑戰(zhàn)。
文 | 騰訊科技 周小燕、趙楊博
語言是思維的邊界,大語言模型的出現(xiàn)讓機器人掌握語言充滿可能性,它近一步拉平機器人和人類在思維認知層面的差異,一個聽懂指令并根據(jù)命令去行動的通用型機器人,仿佛距離我們變得越來越近。
(相關(guān)資料圖)
但云啟合伙人陳昱認為,語言模型只是人類思維模型的一小部分,現(xiàn)階段AI可能還無法完成從桌子上拿瓶水這樣的簡單動作,因為數(shù)字世界和物理世界之間存在脫節(jié),這是需要長期關(guān)注和解決的問題,最終希望通用機器人真正能完成各種通用任務。
AGI+機器人會誕生在哪些應用場景中?實現(xiàn)真正的通用機器人還要面臨哪些困難?大模型想要滲透進機器人的感知、規(guī)劃、決策、控制、驅(qū)動層面,將會面臨哪些算力和數(shù)據(jù)的挑戰(zhàn)?機器人一旦有了“意識”對社會倫理會帶來哪些影響和變革?近期,云啟、青騰匯、騰訊科技共同舉辦的「云啟·浪潮AGI+系列沙龍」深圳場,邀請來自投資、學術(shù)、企業(yè)層面的專家,共同探討《AGI+機器人的創(chuàng)新與挑戰(zhàn)》。
嘉賓:
桑 煜云啟 前沿科技組投資人
畢 盛華南理工大學 大數(shù)據(jù)與智能機器人重點實驗室
岳玉濤集萃深度感知技術(shù)研究所 創(chuàng)始人、所長(青騰未來科技學堂校友)
嚴啟凡大方智能 聯(lián)合創(chuàng)始人
核心觀點:
1在算法中,我們可以將整個世界及其規(guī)律比作一片巍峨的山脈,而小模型訓練的數(shù)據(jù)可能只是其中一個小山包,無法看到小山包之外的東西。大模型實際上提供了對整個山脈地形的抽象信息,而不是具體的地理數(shù)據(jù)。這些抽象信息基于自然語言和符號進行訓練。因此,大模型的輔助可能解決邊角場景(corner case)、OOD泛化性問題。 2路徑規(guī)劃和導航等相對簡單的任務,只要環(huán)境是固定的,機器人表現(xiàn)得很好。但是當環(huán)境復雜時,問題就比較棘手了。隨著大量數(shù)據(jù)的可用性,機器人能夠更好地在復雜環(huán)境中切換任務,并靈活調(diào)度執(zhí)行任務,也許在一些復雜場景下,可以取得更好的結(jié)果,但是這需要大模型和大數(shù)據(jù)的支持。 3無論我們在深度學習方面做得多好,實際上在避障和導航這樣的精確運動方面,深度學習的結(jié)果并不理想。因為深度學習更適合做意識形態(tài)判斷,而在精確場景中,感知傳感器仍然是關(guān)鍵。 4在傳統(tǒng)的機器人系統(tǒng)中,也面臨實時性和計算能力的要求。可以對算力進行分層:機器人的控制和驅(qū)動方面,對實時性的要求比較高,而對于規(guī)劃方面的要求則相對較低,只需一些嵌入式的系統(tǒng)就可以實現(xiàn)。因此,在操作時,可以會對這兩個方面進行分離。以下為本場論壇的整理:
桑煜:我叫桑煜,跟云啟合伙人陳昱一起覆蓋機器人、智能車方向的投資,我之前在AI大廠工作,經(jīng)歷了上一波AI賦能百業(yè)的發(fā)展熱潮,可惜落地程度有限,今天新一代AGI的發(fā)展讓我們看到了突破天花板的可能性。AGI賦能的行業(yè)里面有一個行業(yè)是比較特殊的,就是AGI+機器人,因為現(xiàn)在的AGI還停留在虛擬數(shù)字世界中,未來的大方向是怎樣讓AGI走進現(xiàn)實世界、去跟物理實體做交互,這方面有非常巨大的想象空間。AGI+機器人的方向能夠有哪些新技術(shù)變革和新應用機會就是我們本次圓桌討論的主題。我們很榮幸邀請到了分別來自高校、研究院和產(chǎn)業(yè)界的三位嘉賓。下面請幾位嘉賓簡單地介紹一下自己。
嚴啟凡:我是來自于深圳大方智能的嚴啟凡,負責技術(shù)和產(chǎn)品,大方智能是一家做建筑機器人的公司。最近幾年我們比較受關(guān)注,因為建筑行業(yè)在國民產(chǎn)值占比是最高的但工作環(huán)境惡劣、勞動力老齡化嚴重,我們希望用機器人解決這些問題。
畢盛:大家好,我是華南理工大學的畢盛,我做一些科學科研和教學的工作,我在機器人方向做了很多年的研究,也是最早做仿人機器人的。
岳玉濤:大家好,我叫岳玉濤,我的技術(shù)背景是計算物理,計算物理就是用信息世界里面的模型和計算來解決物理世界里的具體問題。我是集萃深度感知技術(shù)研究所的創(chuàng)始人和所長,主要方向是多模態(tài)感知、雷達視覺融合以及AGI和機器意識。
桑煜:先從底層技術(shù)開始聊起,大模型目前在語言、視覺模態(tài)上構(gòu)建了"Foundation model"(基礎(chǔ)模型),取得了超乎人們想象的效果,涌現(xiàn)出了思維鏈和超強的泛化能力,我們很興奮能夠把這些技術(shù)點應用到機器人上。然而,機器人是個系統(tǒng)工程,單看機器人算法的技術(shù)棧大致分成感知、規(guī)劃、決策、控制、驅(qū)動。大模型如何應用在其中?如果放長眼光,大模型會對機器人算法的技術(shù)棧有哪些顛覆?
岳玉濤:感知就像人類有眼睛和耳朵一樣。這個機器人具備攝像頭、雷達等感知技術(shù),通過這些技術(shù)來觀察和感知周圍的環(huán)境。然而,關(guān)于機器人感知技術(shù),尤其是與大型模型相關(guān)的問題,在社會、學術(shù)界和行業(yè)中存在不同的觀點和認知。我所提到的只是其中一種觀點。
在機器人的感知中,存在一個長期問題,即邊角場景(corner case)及分布外(OOD)泛化性問題。對于常見場景,如果有大量的數(shù)據(jù)進行充分訓練,算法可以很好的識別。但對于罕見的場景、意外事件或常見情況的變體等,情況就變得更加困難。
舉個例子來說明,之前在臺灣花蓮發(fā)生的一起事故中,一輛小型貨車翻車,車頂朝向特斯拉車輛。特斯拉的算法在訓練過程中可能見過許多不同角度和形態(tài)的車輛,但可能從未見過或很少見過車輛翻倒后以車頂朝上的狀態(tài)。因此,算法無法識別它并避免碰撞。這就是邊角場景(corner case),也就是這種情況。
之前在感知領(lǐng)域很難處理這種情況,有一種觀點認為,這涉及到常識、常識世界模型和常識推理的概念。在算法中,我們可以將整個世界及其規(guī)律比作一片巍峨的山脈,而算法訓練的數(shù)據(jù)可能只是其中一個小山包,而無法看到小山包之外的東西。然而,在某些情況下,小山包之外的東西可能會影響任務的執(zhí)行。
從我的視角來看,大模型實際上提供了對整個山脈地形的高階抽象信息,而不是具體的地理數(shù)據(jù)。這些抽象信息基于自然語言和符號進行訓練。例如,當我們看到一輛車時,它有數(shù)百萬、數(shù)千萬甚至數(shù)億個像素點,這是基本的數(shù)據(jù)。但是當我用幾個字母"car"來描述時,這就是自然語言的描述,是對信息進行高度壓縮的表達方式。在這種信息層面上,模型對幾乎所有人類所見過的東西都有了了解,可以構(gòu)建出關(guān)于世界和知識結(jié)構(gòu)的模型。因此,大型模型的輔助可能顯著提高感知圖像的泛化性,解決邊角場景(corner case)、OOD泛化性問題。這就有點像從感知到認知的過程,將基本數(shù)據(jù)與高度抽象的信息和知識結(jié)合起來。
具體而言,當這兩者相結(jié)合時,對于解決邊角場景(corner case)、OOD泛化性問題,會帶來一系列的好處。例如,感知的可靠性將得到顯著提升,無論是目標檢測和跟蹤,還是更復雜的語義分割等任務,其準確率都可以大幅度提高,甚至可能顛覆傳統(tǒng)認知。我注意到已經(jīng)有一些學者和企業(yè)正在嘗試類似的項目,我們也在進行相關(guān)的研究。
第二個可能是拓展感知的范疇,例如不僅限于簡單的單幀圖像感知任務(如目標檢測和追蹤),而是針對視頻或更復雜的行為,這些行為涉及更強的相關(guān)性和復雜性,例如復雜行為識別。在這種情況下,大型模型的輔助可能顯著提升感知行為層面的準確性。這只是引發(fā)討論的一些初步想法,歡迎批評指正,謝謝。
畢盛:我想簡要談談我對此的感受。最近,我們對多模態(tài)領(lǐng)域特別是視覺語言導航(VisionLanguageNavigation)這個研究方向產(chǎn)生了濃厚的興趣。這個方向目前非常熱門,我們也已經(jīng)投入了一段時間的研究工作。從理論角度來看,我們更傾向于進行工程方面的研究,將研究成果應用到實際場景中。因此,我們參考了一些國外頂尖團隊的方法,并嘗試將其應用到我們的研究中。
然而,我們遇到了一些問題,這可能與模型的通用性有關(guān)。數(shù)據(jù)集在深度學習人工智能研究中是一個重要的挑戰(zhàn)。解決數(shù)據(jù)集問題對于取得良好的研究結(jié)果非常關(guān)鍵。在選擇數(shù)據(jù)集時,我們參考了李飛飛老師等團隊在這個領(lǐng)域的工作,并借鑒了他們的論文。他們提供了一個仿真環(huán)境用于模型的訓練,其中訓練數(shù)據(jù)集主要涉及智能家居和家庭場景,例如沙發(fā)、桌子等。他們的目標是通過語言指令實現(xiàn)機器人在家庭環(huán)境中的導航。我們進行了一些實驗,使用他們提供的仿真模型進行訓練。
然而,如果我們希望真正實現(xiàn)應用,就需要使用真實的訓練數(shù)據(jù)。因此,我們購買了三維掃描相機將房間的場景掃描成三維圖像。我們在實驗室周圍的場景建立了3D模型,并將其導入到訓練好的模型中進行測試。然而,初始效果并不理想,路徑規(guī)劃并不準確。
我們發(fā)現(xiàn)實驗室的場景與家庭場景存在差異,因此我們不得不尋找一個類似家庭場景的地方。最終,我們找到了一個實驗室的一樓大廳,其中有沙發(fā)和桌子。我們首先建立了該地點的地圖,使用三維掃描相機將整個房間的三維圖像掃描出來。在這個場景中,我們成功地進行了導航。例如,當給機器人下達指令時,我們可以告訴它沿著沙發(fā)走到某個地方,或者沿著玻璃門走到門口。機器人會生成一條路徑。然而,在機器人按照路徑行走時,它不能完全依賴視覺,而是完全依賴深度學習。我認為,視覺導航在模糊的環(huán)境中是可行的,但在精確的場景中仍然存在困難。因此,我們結(jié)合了視覺和激光的方法。我們將環(huán)境分成許多網(wǎng)格,在每個網(wǎng)格點上使用視覺信息,但在點與點之間的行走方向上使用激光。然而,這需要進行一些標定和實驗。盡管成功率并不是特別高,大約在60%到70%左右,但我認為這樣的效果對于研究來說是可以接受的,但在應用方面還需要進一步努力。
我認為,現(xiàn)在有了更大的模型,將來在這方面可能會有更好的表現(xiàn)。在視覺語言導航方面,我對理論的了解一般,我們主要是借鑒其他團隊的方法,并嘗試將其實際應用。他們主要在仿真環(huán)境中進行數(shù)據(jù)集測試,使用的都是大型模型。實際上,我們主要使用他們訓練好的模型進行部署。這是我的感覺,同時也覺得隨著ChatGPT的發(fā)展,隨著模型規(guī)模的增大,機器人將能夠像人一樣通過經(jīng)驗來穿越復雜環(huán)境。
我覺得這是有可能實現(xiàn)的,雖然我不確定現(xiàn)在是否已經(jīng)實現(xiàn)了,可能有一些專家可以給我們提供一些建議,這是我的觀點。同時,我也認識到,無論我們在深度學習方面做得多好,實際上在避障和導航這樣的精確運動方面,深度學習的結(jié)果并不理想。因為深度學習更適合做意識形態(tài)判斷,而在精確場景中,感知傳感器仍然是關(guān)鍵。人類在穿越狹窄空間時并不需要精確的距離感,但是機器人通過激光傳感器可以準確地測量與障礙物的距離。然后通過感知來完成穿越。人類則憑借經(jīng)驗來穿越,不需要知道靠近障礙物的具體距離。
我認為這也是因為模型訓練數(shù)據(jù)量的限制。所以,我們目前通常是結(jié)合感知和認知來處理這些精確運動。此外,我認為在機器人研究方面,任務級規(guī)劃給我們提供了很好的思路。以前我們主要研究路徑規(guī)劃和導航等相對簡單的任務,機器人在這方面做得很好,只要環(huán)境是固定的,機器人表現(xiàn)得很好。但是,當環(huán)境復雜時,問題就比較棘手了。但是,現(xiàn)在隨著大量數(shù)據(jù)的可用性,機器人能夠更好地在復雜環(huán)境中切換任務,并靈活調(diào)度執(zhí)行任務的場景。也許在一些復雜場景下,可以取得更好的結(jié)果。但是這需要大模型和大數(shù)據(jù)的支持。這只是我的一種認識,我們還沒有在這方面取得進展,只是期待OpenAI等機構(gòu)在大模型的發(fā)展方面能夠帶來新的突破。
桑煜:感謝畢老師還有岳老師的精彩回答。有一種觀點認為大模型壓縮了互聯(lián)網(wǎng)上的信息,壓縮信息、尋求信息高效表征的最終結(jié)果是產(chǎn)生了像人一樣的抽象理解和思維鏈能力。這個能力如果用得好,我相信機器人不用那么依靠精確的傳感器,而是用邊走邊看的方式進行感知和導航,在corner case的處理上會有很大的進步,也給我們場景端帶來了很大的想象空間。所以這個場景端的問題拋給嚴總,你們現(xiàn)在聚焦在建筑場景,如果機器人+AGI的技術(shù)再往前走一步,你們現(xiàn)在遇到的哪些客戶的痛點需求,有可能是能夠有一個質(zhì)的變化去實現(xiàn)的?
嚴啟凡:是的,剛才你也提到了類似思維鏈的概念。實際上,我一直很難理解思維鏈是什么。對于人來說,思維鏈可能就是逐步將事情完成的一種邏輯思維過程。現(xiàn)在我們認為人工智能也有這種趨勢,它也可以逐步進行推理,當然可能需要人類提供一些提示或所謂的步驟。所以我在思考,我還沒有弄清楚它是否是一個真正的思維鏈,還是只是類似于我們平常編程的一步一步操作。比如,如果我要寫一個算法,我會先列出數(shù)學公式,然后逐步進行轉(zhuǎn)換成算法的步驟。
現(xiàn)在機器人面臨的一個問題是,它的任務需要提前規(guī)劃。可能我們需要預先導入地圖生成路徑,并將整個規(guī)則告訴機器人,讓它按照規(guī)定執(zhí)行任務。比如,作為一個兼容機器人,我可以告訴它沿著墻壁順時針方向完成施工,并詢問它是否需要處理門窗等問題。
這種交互方式可能比之前預先生成整個路徑進行施工更加人性化,也更加方便和便捷。我認為這是一個很好的方向,基于目前的情況,而且像感知、決策規(guī)劃、控制和驅(qū)動等方面,人工智能在感知和控制角色上有著巨大的前景,令人興奮。但是在控制和驅(qū)動方面,機器人還存在很大的差距。特別是機器人,因此我們對多模態(tài)模型感到興奮,因為如果有一天它真的將嗅覺、觸覺等所有模態(tài)整合起來,那將非常有趣,我們真正能夠像人一樣感知所有信息。不過,這方面可能需要更長的時間,我們也希望未來的發(fā)展能夠?qū)崿F(xiàn)這一目標。因為這方面的數(shù)據(jù)收集并不像文本或圖像數(shù)據(jù)那樣容易,我可以在互聯(lián)網(wǎng)上輕松找到大量這樣的數(shù)據(jù),然后回來工作學習。所以對于機器人行業(yè)來說,實際落地可能會遇到可預見的可操作方向和困難。
桑煜:幾位嘉賓的從業(yè)經(jīng)歷中接觸過服務機器人、工業(yè)機器人和自動駕駛等等。你們覺得會因為AGI帶來哪些變化?有沒有一些新的場景、新的功能會出現(xiàn)?
岳玉濤:對于新場景,我個人最感興趣的是數(shù)字伴侶和數(shù)字永生。
之前有很多公司都做這類項目,但它的體驗可能并不理想,現(xiàn)在大模型技術(shù)使得各種可能性變得很大。我覺得數(shù)字伴侶是滿足人們的剛性需求的一個方向。現(xiàn)在技術(shù)上已經(jīng)可以做出一定程度的虛擬人物,或者像剛才嘉賓提到的一些文學作品中的角色,比如楊過等。
另外一個場景是數(shù)字永生,它涉及到智能、思維、記憶和意識的數(shù)字構(gòu)建和存續(xù)。這本來是個非常科幻的話題,最近我們組織了一個小圓桌討論,有來自人工智能、神經(jīng)科學、信息科學、物理學、哲學等不同領(lǐng)域的人參與,得出的初步結(jié)論是數(shù)字永生已經(jīng)到了可以在技術(shù)層面上嚴肅探討的程度。其中涉及到幾個非常有意思的方面,例如為什么這種場景現(xiàn)在實現(xiàn)的可能性變得更高了,這是因為我們對人的智能和意識有了更深入的理解。人的大腦有860億個神經(jīng)元,它們之間存在連接。當外部感官刺激進入大腦時,不同的區(qū)域會被激活,如果這些區(qū)域形成廣泛的交互,就會產(chǎn)生意識的體驗。我們知道可以使用"系統(tǒng)1"和"系統(tǒng)2"來描述人的思維模式,系統(tǒng)1是一種簡單的響應模式,而系統(tǒng)2是一種基于結(jié)構(gòu)化知識的分析和邏輯推理模式。在機器學習層面上,如何實現(xiàn)類似“系統(tǒng)2”的智能,我個人認為這是最具顛覆性和突破性的問題,也是最難解決的問題之一。
大模型通過從海量數(shù)據(jù)中構(gòu)建知識和知識之間的結(jié)構(gòu)來解決了這個問題。如果你反過來問,為什么人會說AI可以做一些事情但不理解這個詞的意思是什么?為什么會有理解和不理解之分?在心理學等領(lǐng)域有很多研究。我們觀察到在語言模型中,這種知識和知識性的結(jié)構(gòu)形成了一種層次化的理解能力。雖然具體的形成機理至今還是個謎,但現(xiàn)在已有若干證據(jù)和研究表明,代碼訓練可能是大模型產(chǎn)生這種能力的過程,大模型中某個(或某些)特定的神經(jīng)元擔任特定的知識節(jié)點或推理功能。然而,如果我們真的進入數(shù)字永生的場景,我認為可能會面臨的幾個主要技術(shù)挑戰(zhàn):
一個是記憶,即如何提取已存在于大腦中的記憶信息,并將其轉(zhuǎn)化為模型的訓練數(shù)據(jù)和輸入,這可能是一個較大的挑戰(zhàn)。
另一個是結(jié)合多模態(tài)實時感知的模型,比如把接收到的感知信息進行壓縮、處理和抽象等可能問題并不大,但不管是記憶信息還是實時感知信息,讓這個模型的行為表現(xiàn)在性格、習慣、思維方式及相應的學習更新能力上與其原型真人高度吻合,是一個很大的挑戰(zhàn)。
第三個至于擬人化的意識體驗,即如果你是一個數(shù)字永生體,你可能會感覺自己仍然是自己,仍有意識體驗,只是某些方面的感覺可能會有所不同。我相信這種意識體驗在技術(shù)上完全可以實現(xiàn)。
總之,這兩個場景,數(shù)字永生以及虛擬伴侶,是目前大模型應用層面上最令我興奮的兩個點。
畢盛:在機器人領(lǐng)域,多模態(tài)的大型模型是一個熱門的話題。然而,在我們實驗室進行導航時,我們面臨著較高的失敗率。我認為,如果我們能夠進一步豐富VR細分模型[7],無論是在實驗室還是家庭等各種場景,我們都能夠?qū)崿F(xiàn)更好的導航效果。這對我來說是一個非常有趣的點,因此我認為大型模型能夠使機器人更具靈活性,能夠更好地適應復雜的生活環(huán)境,這一點非常重要。
另外,在工業(yè)機器人領(lǐng)域,以前需要對機器人進行精確的標定。例如,當機器人需要抓取瓶子時,它必須能夠正確識別并抓取瓶子。然而,如果機器人具有一定的意識,對于服務方面,它需要更好地理解復雜的環(huán)境。舉個例子,如果一個瓶子中的水已經(jīng)被喝了一半,而我不在場,機器人可能需要將瓶子扔進垃圾箱。下次再有人需要使用時,因為水沒有被動過或喝完,機器人可能會根據(jù)以往的經(jīng)驗進行相應的處理。此外,這種情況不僅僅局限于水,將來可能還會出現(xiàn)其他類似的情況,比如櫻花茶、礦泉水等各種物品,機器人都能夠識別并正確處理。并且,在抓取機器人的位置時,它知道如何將水放置在相應的位置。我認為這種情況類似于人類的行為。舉個例子,如果我來清理桌子,我可能會考慮將水放在哪里,可能沒有人告訴我,但基于以往的經(jīng)驗,我可以處理這個任務。
我認為,如果機器人能夠?qū)崿F(xiàn)這種意識,它將能夠更好地為人類提供服務,而大型模型為這種可能性提供了支持。在工業(yè)領(lǐng)域,尤其是柔性裝配等需要靈活性的領(lǐng)域,機器人是不可或缺的。正如您所提到的,柔性裝配的標定是一個挑戰(zhàn)。在這種情況下,機器人需要具備自適應和個性化的能力。而服務場景更是如此,因為服務場景涉及與人的互動,因此具備千人千面的特性將得到充分發(fā)揮。此外,岳老師還提出了一個更高層次的問題,即未來人類與機器人之間的人際關(guān)系,以及未來社會的發(fā)展方向。這個問題在倫理層面上也值得我們深入探討。
桑煜:剛才大家也多次提到了數(shù)據(jù)的問題,機器人數(shù)據(jù)應該如何收集,收集哪些?。如果我們希望實現(xiàn)相對泛化的應用場景,可能還需要跨越多個領(lǐng)域進行數(shù)據(jù)收集,這并不容易。我想向大家請教一下,是否在工程和科研方面已經(jīng)出現(xiàn)了一些解決方案來應對這些問題。
岳玉濤:我有兩個觀點。首先,我認為大模型實際上在很多情景下緩解了對數(shù)據(jù)的需求量。大模型的基礎(chǔ)層被稱為基座模型或基礎(chǔ)模型,它是一種跨模態(tài)預訓練模型。通過將大量信息和知識嵌入到這個模型中,我們可以在此基礎(chǔ)上執(zhí)行特定的下游任務,并滿足訓練所需的數(shù)據(jù)和質(zhì)量要求。相比之下,如果基于這個基座模型來訓練下游任務,所需數(shù)據(jù)的規(guī)模和質(zhì)量要求可能會小得多。這是第一個觀點。
第二個觀點涉及數(shù)據(jù)方面的我們自己的體驗。我們發(fā)現(xiàn)跨模態(tài)的問題變得越來越清晰和重要。例如,我們可以進行跨模態(tài)的標注,并應用一些數(shù)據(jù)增強技巧,以更好地使用這些數(shù)據(jù)并實現(xiàn)目標。
似乎直到出現(xiàn)了基座模型和ChatGPT等技術(shù),大家才意識到不同模態(tài)之間的信息共性是如此強大。以GPT-4的非多模態(tài)版本為例,它是在所有訓練數(shù)據(jù)都是文本和符號的情況下訓練出來的,但可以執(zhí)行一些代碼段,繪制出圖形如獨角獸、房子和狗等。也就是說,在文本模態(tài)中,已經(jīng)蘊含了相當?shù)目臻g概念和幾何概念,實際上可以對應到視覺模態(tài)或其他激光雷達等模態(tài)的信息。
因此,在某些情況下,例如對于難以采集或標注的雷達數(shù)據(jù),我們可以進行跨模態(tài)的標注,比如利用視覺結(jié)果來標注雷達數(shù)據(jù)。我認為這種方法可以對數(shù)據(jù)起到一定的幫助作用。
嚴啟凡:這個問題涉及到我們在建筑領(lǐng)域中的管線。實際上,在施工環(huán)節(jié)中,這種場景的數(shù)據(jù)相對較少,因為大部分數(shù)據(jù)可能是在家庭建設(shè)完成之后產(chǎn)生的。由于這個領(lǐng)域相對較小眾,我們可能需要自己進行一些詳細的標注和采集工作。然而,我剛剛聽到岳老師提到的一點,大模型的基座模型實際上減少了對數(shù)據(jù)標注的需求量。因此,我們可以利用更多的小樣本來實現(xiàn)這一點,因為一些知識結(jié)構(gòu)已經(jīng)存儲在基座模型中,包括遷移的方式。我們可以結(jié)合大模型的基座模型來實現(xiàn)特定的小眾場景數(shù)據(jù),并減少對數(shù)據(jù)的需求量。
我認為這對我們來說是非常有意義的,因為我們目前確實面臨這樣一個問題,我們作為一家小公司,無法承擔如此高昂的成本來獲取豐富的場景數(shù)據(jù),而大模型的基座模型對我們來說確實是一件非常有意義的事情。
第二個問題是關(guān)于仿真。我個人認為,仿真現(xiàn)在應該能夠解決百分之八九十的問題,但要做到精細保證的成本非常高。所以,并不是說我們無法實現(xiàn)1比1的數(shù)字仿真,而是成本太高了。在實際場景中,我的車輪可能會打滑,受到光線干擾等等。但是,要精確建模這樣的場景并保證細節(jié),代價很高,或許可以考慮大模型是否能提供一些解決方案。因為我還沒有仔細思考過,所以還需要進一步探討。
桑煜:嚴總的回答也體現(xiàn)出了機器人公司在應用場景落地的一些商業(yè)思考,考慮成本,考慮怎樣是整體優(yōu)化的解決方案。我接著引出下一個相關(guān)的問題,機器人很多時候?qū)﹃P(guān)鍵任務上的延時要求非常低,這其實跟大模型的本身會有一些沖突,大模型大在參數(shù)量,需要用更多的內(nèi)存、更強的算力,往往不符合機器人應用的低功耗原則。這也是機器人+AGI落地的一個難點。請教一下大家看到了哪些技術(shù)上、工程實踐上的解決方法。
嚴啟凡:我先討論一下最傳統(tǒng)的做法。至于如何使用大模型來解決這個問題,或許我等一下可以聽聽兩位老師的看法。在傳統(tǒng)的機器人系統(tǒng)中,我們也面臨實時性和計算能力的要求。實際上,這個系統(tǒng)是分層的。剛才也提到了在機器人系統(tǒng)中,基本上可以從感知、決策、規(guī)劃、控制和驅(qū)動等幾個大方向進行分析。
對于控制和驅(qū)動方面,它對實時性的要求比較高,而對于規(guī)劃方面的要求則相對較低,只需一些嵌入式的系統(tǒng)就可以實現(xiàn)。因此,在操作時,我們基本上會對這兩個方面進行分離。
對于實時性要求較高的部分,我們會賦予其在實時核心上運行的權(quán)限,無論是從硬件架構(gòu)還是軟件架構(gòu)上都會進行分層。而對于感知方面,其規(guī)劃要求并不高,它可能會運行在更高計算能力的架構(gòu)上,以彌補這種分層的趨勢。但未來如果真的想將大模型的能力賦予機器人系統(tǒng),可能還需要依靠從事基礎(chǔ)工作的研究人員,他們可以壓縮模型、進行量化處理,或者減小模型的體積,使其能夠在本地端或云端運行,同時確保帶寬足夠大。這可能需要研究云基礎(chǔ)設(shè)施或模型基礎(chǔ)設(shè)施兩個層面的人員來考慮。我們希望能夠坐享其成,只需使用一下即可。
畢盛:近年來邊緣計算在技術(shù)領(lǐng)域備受關(guān)注,人們希望將邊緣計算應用于機器人。在過去的十年中,我們主要在手機處理器單元(MPU)層面上進行邊緣計算的開發(fā),涉及了許多模型部署,例如活動檢測、Lite等。而近年來,我們開始在單片機上進行深度學習研究,我也在一個小型的單片機上運行了一個較小的深度學習模型。然而,我認為這些深度學習模型應該是相對較小的。過去,我們在MPU層面上的開發(fā)主要是基于移動網(wǎng)絡,例如谷歌的MobileNet等框架。國內(nèi)的一些公司也在進行類似的工作,這是七八年前的事情了。現(xiàn)在,我們有了MCUNITE這樣的技術(shù),他們實現(xiàn)了很多數(shù)學化和理論化的抽象,以提取關(guān)鍵內(nèi)容并實現(xiàn)稀疏性搜索。他們在壓縮裁剪和剪輯MCU相關(guān)網(wǎng)絡方面有很多數(shù)學知識。由于我們也使用了一些現(xiàn)成的網(wǎng)絡模型,所以在機器人端,我們首先從計算端開始,從單片機到MPU,再到云端加速卡,都有計算的解決方案。
實際上,我們有計算方案,但關(guān)鍵是在機器人端,可能需要進行一些切分。正如嚴總剛才提到的,我們在運動過程中使用單片機進行基層開發(fā),甚至使用實時操作系統(tǒng),如主ITS等。在控制機器人運動時,我們需要確保任務切換的延遲在七八毫秒內(nèi),這樣才不會出現(xiàn)問題。因此,我們將一些角色層面的功能放在應用層上,就像剛才嚴總所說的那樣,感知和認知都在利用CPU,但操作系統(tǒng)層面上的虛擬地址管理單元(MMU)和內(nèi)存管理單元(MIU)并不理想。以前有一些實時操作系統(tǒng),如Webworks,但使用起來成本較高,對我們來說是個挑戰(zhàn)。以前的工業(yè)機器人通常使用這種系統(tǒng),可以實現(xiàn)工業(yè)實時控制,但現(xiàn)在單片機的頻率已經(jīng)提高到700兆赫茲、800兆赫茲甚至878百兆赫茲。所以沒有必要再使用那種操作系統(tǒng)了,我們可以直接采用較小規(guī)模的Preempt-RT系統(tǒng)。然后在決策層面上,即開發(fā)層面,包括決策和感知認知,雖然在應用層面上有一些不足,但實際上也可以實現(xiàn)一定程度的邊緣計算需求。
當然,我認為需要進行一定的切分。例如,對于大型模型,即使進行了壓縮,要在真正的MPU層面上運行仍然非常困難。因此,如果你是處理超大型模型,可能還需要考慮邊緣端和云端的劃分。在機器人任務中,例如在機器人導航過程中,我建議無論模型大小如何,都讓它在邊緣端進行運算。不要將邊緣計算與云端協(xié)同,因為如果網(wǎng)絡中斷,機器人將無法工作。
但是在一些角色指導方面,例如在機器人導航過程中,他可能需要意識到環(huán)境的某些變化,我認為在這種情況下可以與云端進行通信。例如,當環(huán)境發(fā)生變化時,可以使用大型模型進行環(huán)境識別,然后根據(jù)不同的環(huán)境切換導航方法。因為我認為不同環(huán)境下的導航方法是不同的,特別是對于非常深的走廊場景。
在這種情況下,使用激光定位可能不太適合,而應該使用回環(huán)檢測,讓機器人能夠知道自己是否在原地。我認為環(huán)境感知是一個很復雜的問題,但根本上不需要進行定位,只需向前運動即可,進行相對定位,沿著墻壁前進。但是當機器人離開該環(huán)境并進入另一個環(huán)境時,它可能需要切換任務。那么,如何認知環(huán)境的變化呢?在這種情況下,可能需要與云端進行通信,使用大型模型進行環(huán)境感知。因此,我認為在機器人導航過程中,不要切分導航過程本身,這時候應該進行邊緣計算。但是在切換環(huán)境時,應該轉(zhuǎn)向云端計算,所以需要有一種結(jié)合的方式。這是我個人的觀點,我認為這個領(lǐng)域還有很多挑戰(zhàn)等待解決。
岳玉濤:我可以分享一點關(guān)于神經(jīng)網(wǎng)絡剪裁和輕量化的觀點和實踐經(jīng)驗。請設(shè)想我手中拿著一個球,并將其扔出去,球落到某個地方。球的軌跡可能是非常復雜的,需要大量的數(shù)據(jù)和坐標來描述,尤其是從古代人的角度來看,他們不知道這種軌跡,需要使用復雜的坐標系統(tǒng)。然而,現(xiàn)在我們知道了牛頓的第二定律——F=ma(力等于質(zhì)量乘以加速度),這個簡潔的公式足以非常精確地描述整個軌跡。這表明在很多情況下,簡約性是存在的,即使用很少的元素就能夠描述復雜的現(xiàn)象。這個原理在神經(jīng)網(wǎng)絡中得到了證實,傳統(tǒng)的許多網(wǎng)絡具有很高的稀疏性。
舉個例子,假設(shè)我們有一個準確率為95%的模型,該模型有100萬個參數(shù)。通過剪裁,我們可以剩下5萬個參數(shù),甚至在某些情況下,只剩下1萬個參數(shù),然后再執(zhí)行同樣的任務,準確率可能只降低1到2個百分點。也就是說,即使剪去了大部分參數(shù),模型仍然可以基本上執(zhí)行原始任務。在這個過程中,一個關(guān)鍵的問題是如何進行剪裁,即選擇哪些節(jié)點和層進行剪裁。在這個過程中,我們需要找出哪些節(jié)點能夠保持原有的特性和能力。這方面的方法非常多樣,但有時候其實非常簡單的隨機剪枝這種方法反而效果更好。
在我們的探索中,我們采用了一種稱為量化因果的方法。通過量化從一個節(jié)點傳遞到下一個節(jié)點的因果關(guān)系,在執(zhí)行矩陣乘法和其他運算的過程中,如果因果關(guān)系比較強,我們就保留該節(jié)點;如果因果關(guān)系比較弱,我們就剪裁掉該節(jié)點。這種因果關(guān)系是可計算的,可以用信息領(lǐng)域的方式進行度量。根據(jù)這個依據(jù)進行剪裁時,我們發(fā)現(xiàn)在許多場景下,這種方法優(yōu)于其他剪裁方法,尤其是,這種方法具有很大的魯棒性,可以適用于各種不同的網(wǎng)絡。之前的情況可能是某種剪裁方法適用于某個網(wǎng)絡,另一種剪裁方法適用于另一個網(wǎng)絡,但我們的實踐表明量化因果的方法可以適用于多種不同的網(wǎng)絡。以上是我們自己進行的一些小實踐,希望能對您有所啟發(fā)。
桑煜: 剛剛我們討論了很多關(guān)于嚴肅場景和技術(shù)的問題,接下來這個問題更偏向于人類社會的終極暢想。通用智能的機器人是否會出現(xiàn),需要多長時間?目前,人與機器的相處方式相對和諧,但有一天,是否會出現(xiàn)像《黑客帝國》中機器人與人類對立的情況?
嚴啟凡:我認為這個過程實際上是相當遙遠的。正如我之前所提到的,目前在文本和圖像等領(lǐng)域,我們已經(jīng)取得了突破,但在例如嗅覺以及其他更多的多維、多模態(tài)方面,我們還沒有看到明確的發(fā)展路徑。
另一方面是關(guān)于能源消耗的問題。機器人顯然可以比人類更強壯、更有益,具有更大的能量。如果我們能夠?qū)崿F(xiàn)可控核聚變,這種能量是可以實現(xiàn)的。然而,在計算能力方面,大家應該也都聽說過,人腦只有約10瓦的功率,可能每天吃一碗飯的能量就足夠滿足它的需求。但是如果要處理大型模型的大量海量信息,實際上就會面臨一種奇怪的狀態(tài)。
因此,我一直認為神經(jīng)網(wǎng)絡只是一個網(wǎng)絡,我不知道它與真實的神經(jīng)系統(tǒng)有什么關(guān)系。人腦的神經(jīng)似乎具有自己獨特的工作機制,不能僅僅依靠一些簡單的梯度算法或類似方法來實現(xiàn)這樣的網(wǎng)絡。所以,對于這個問題,我覺得它還是相當遙遠的。這就是我的看法。
畢盛:我個人認為,在設(shè)計機器人時,我們有機器人的三大定律,其中第一條定律規(guī)定機器人不能傷害人類,機器人必須聽從人類的指令,而第二條定律則約束機器人必須保護自己,除非這種保護與第一條定律產(chǎn)生沖突。然而,我不確定這些定律是否真正能夠限制機器人的行為,也無法確定其能否完全約束機器人。
目前人工智能的發(fā)展確實很迅速,盡管我并不從事人工智能的前沿研究,很難對其進行準確評估。一些權(quán)威機構(gòu)和一些頂尖人士,如OpenAI的專家們,提出了一些關(guān)于人工智能的危險性的觀點。但是我們也無法進行準確評估,就我個人而言,對于像嚴總所持的觀點,認為人工智能沒有機器人那樣的智能,我覺得有些草率。然而,在人工智能領(lǐng)域,我們也無法準確評估其發(fā)展到何種水平。
我認為,隨著大型模型的應用,我們將能看到機器人在不同層面上發(fā)揮其功能。對于這種情況,我個人無法給出確切的確定性,只是覺得人工智能能夠幫助人類更好地生活,這已經(jīng)是很好的了不是嗎?
岳玉濤:談到機器人的三大定律以及能否控制機器人的問題,我認為無法控制機器人,這是因為存在一個基礎(chǔ)概念,即計算不可約性。當一個系統(tǒng)的復雜性超過一定程度時,總會存在一些狀態(tài),超出計算能力的范圍,即無法涵蓋的狀態(tài)。因此,對于這個問題,我個人認為無法控制機器人。
關(guān)于桑總提出的問題,就像科幻作品中的機器人一樣,我個人預測實現(xiàn)機器人的時間期望值是20年,標準差是10年,大致范圍是10至30年。為什么會這樣呢?有些人認為進展很快,尤其是大型模型已經(jīng)非常強大,但也有些人持悲觀態(tài)度,認為還有許多問題沒有解決。我相對而言比較中立,認為大型模型未來的發(fā)展面臨三個半關(guān)鍵問題需要解決。
首先是多模態(tài)感知和物理世界的交互閉環(huán)能力。雖然GPT4已經(jīng)有了多模態(tài)版本,但具體的效果如何,我們目前還沒有明確的了解。況且,目前的大模型突破仍限于信息世界的模態(tài)。我認為,一旦多模態(tài)感知與物理世界發(fā)生交互,實際上這個挑戰(zhàn)是相當大的。解決這個問題可能需要更長的時間,而不是三五年的時間。這是第一個問題。
第二個問題是任意多步邏輯推理。之前的舊版本如GPT-3幾乎沒有邏輯推理能力。從去年11月30日發(fā)布的版本開始,邏輯推理在兩三步以內(nèi)的準確率很高,但超過兩三步、四五步后,錯誤率就顯著增加。到了GPT-4版本后,它在五六步、七八步的獨立推理方面的準確率還是相當高的,但再復雜一些就無法處理了。這其中存在一些底層的限制和問題導致了這種現(xiàn)象的出現(xiàn)。
例如,自回歸的方式和逐個生成令牌的方式限制了它的復雜邏輯推理能力,或者稱為任意多步邏輯推理能力。就像人類解數(shù)學題一樣,個人也會犯錯,但人類有一套邏輯推理體系,可以進行反向檢驗和相互校驗,建立了現(xiàn)在這樣高水平的科學技術(shù)體系,這些都建立在嚴密的邏輯推理之上。如此復雜的體系,人類可以建立起來,但GPT尚未達到這個程度。
第三個問題是自主訓練和自主學習。目前的訓練方式是針對一個版本進行訓練,然后將其固定下來。它只能在輸入的令牌集合內(nèi)具有類似于短時工作記憶的能力,有一些靈活性。但實際上它無法自我更新,除非人為地使用新的數(shù)據(jù)集進行再次訓練。而人類可以在觀察和學習的過程中不斷更新大腦中神經(jīng)元之間的連接權(quán)重,這是同時進行的。與我們現(xiàn)在的GPT訓練方式基于反向傳播的梯度計算來更新不同,人類大腦沒有反向傳播。所以,這是第三個限制,即自主更新學習。
最后,還有半個問題是意識的問題。有人認為它是一個終極難題,但我個人覺得它只能算是半個問題。更多的問題反倒在對“意識”這個概念的定義和理解的模糊性上。如果我們將意識所表現(xiàn)出的各種行為以及意識機制中的幾個構(gòu)成要素拆解開來看,我認為現(xiàn)有的技術(shù)就幾乎已經(jīng)能夠完整構(gòu)建出來。
因此,如果我們解決這三個半問題,我認為可能需要幾十年的時間,而不是幾年。同時,我對技術(shù)方面持樂觀態(tài)度,相信這些問題都會被解決,雖然可能需要相當長的時間。當那種特別牛的智能體出現(xiàn)時,它是否會威脅到人類、是否能夠約束它,這是一個更為深入的話題,可能需要更長的時間來探討。