我們距離一個能完成“從桌子上拿瓶水”任務的機器人還有多遠？

2023-07-12 07:54:46 來源：騰訊科技

《AI未來指北》欄目由騰訊新聞推出，邀約全球業內專家、創業者、投資人，探討AI領域的技術發展、商業模式、應用場景、及治理挑戰。

文 | 騰訊科技周小燕、趙楊博

語言是思維的邊界，大語言模型的出現讓機器人掌握語言充滿可能性，它近一步拉平機器人和人類在思維認知層面的差異，一個聽懂指令并根據命令去行動的通用型機器人，仿佛距離我們變得越來越近。

(相關資料圖)

但云啟合伙人陳昱認為，語言模型只是人類思維模型的一小部分，現階段AI可能還無法完成從桌子上拿瓶水這樣的簡單動作，因為數字世界和物理世界之間存在脫節，這是需要長期關注和解決的問題，最終希望通用機器人真正能完成各種通用任務。

AGI+機器人會誕生在哪些應用場景中？實現真正的通用機器人還要面臨哪些困難？大模型想要滲透進機器人的感知、規劃、決策、控制、驅動層面，將會面臨哪些算力和數據的挑戰？機器人一旦有了“意識”對社會倫理會帶來哪些影響和變革？近期，云啟、青騰匯、騰訊科技共同舉辦的「云啟·浪潮AGI+系列沙龍」深圳場，邀請來自投資、學術、企業層面的專家，共同探討《AGI+機器人的創新與挑戰》。

嘉賓：

桑煜云啟前沿科技組投資人

畢盛華南理工大學大數據與智能機器人重點實驗室

岳玉濤集萃深度感知技術研究所創始人、所長（青騰未來科技學堂校友）

嚴啟凡大方智能聯合創始人

核心觀點：

1在算法中，我們可以將整個世界及其規律比作一片巍峨的山脈，而小模型訓練的數據可能只是其中一個小山包，無法看到小山包之外的東西。大模型實際上提供了對整個山脈地形的抽象信息，而不是具體的地理數據。這些抽象信息基于自然語言和符號進行訓練。因此，大模型的輔助可能解決邊角場景（corner case）、OOD泛化性問題。 2路徑規劃和導航等相對簡單的任務，只要環境是固定的，機器人表現得很好。但是當環境復雜時，問題就比較棘手了。隨著大量數據的可用性，機器人能夠更好地在復雜環境中切換任務，并靈活調度執行任務，也許在一些復雜場景下，可以取得更好的結果，但是這需要大模型和大數據的支持。 3無論我們在深度學習方面做得多好，實際上在避障和導航這樣的精確運動方面，深度學習的結果并不理想。因為深度學習更適合做意識形態判斷，而在精確場景中，感知傳感器仍然是關鍵。 4在傳統的機器人系統中，也面臨實時性和計算能力的要求。可以對算力進行分層：機器人的控制和驅動方面，對實時性的要求比較高，而對于規劃方面的要求則相對較低，只需一些嵌入式的系統就可以實現。因此，在操作時，可以會對這兩個方面進行分離。

以下為本場論壇的整理：

桑煜：我叫桑煜，跟云啟合伙人陳昱一起覆蓋機器人、智能車方向的投資，我之前在AI大廠工作，經歷了上一波AI賦能百業的發展熱潮，可惜落地程度有限，今天新一代AGI的發展讓我們看到了突破天花板的可能性。AGI賦能的行業里面有一個行業是比較特殊的，就是AGI+機器人，因為現在的AGI還停留在虛擬數字世界中，未來的大方向是怎樣讓AGI走進現實世界、去跟物理實體做交互，這方面有非常巨大的想象空間。AGI+機器人的方向能夠有哪些新技術變革和新應用機會就是我們本次圓桌討論的主題。我們很榮幸邀請到了分別來自高校、研究院和產業界的三位嘉賓。下面請幾位嘉賓簡單地介紹一下自己。

嚴啟凡：我是來自于深圳大方智能的嚴啟凡，負責技術和產品，大方智能是一家做建筑機器人的公司。最近幾年我們比較受關注，因為建筑行業在國民產值占比是最高的但工作環境惡劣、勞動力老齡化嚴重，我們希望用機器人解決這些問題。

畢盛：大家好，我是華南理工大學的畢盛，我做一些科學科研和教學的工作，我在機器人方向做了很多年的研究，也是最早做仿人機器人的。

岳玉濤：大家好，我叫岳玉濤，我的技術背景是計算物理，計算物理就是用信息世界里面的模型和計算來解決物理世界里的具體問題。我是集萃深度感知技術研究所的創始人和所長，主要方向是多模態感知、雷達視覺融合以及AGI和機器意識。

桑煜：先從底層技術開始聊起，大模型目前在語言、視覺模態上構建了"Foundation model"（基礎模型），取得了超乎人們想象的效果，涌現出了思維鏈和超強的泛化能力，我們很興奮能夠把這些技術點應用到機器人上。然而，機器人是個系統工程，單看機器人算法的技術棧大致分成感知、規劃、決策、控制、驅動。大模型如何應用在其中？如果放長眼光，大模型會對機器人算法的技術棧有哪些顛覆？

岳玉濤：感知就像人類有眼睛和耳朵一樣。這個機器人具備攝像頭、雷達等感知技術，通過這些技術來觀察和感知周圍的環境。然而，關于機器人感知技術，尤其是與大型模型相關的問題，在社會、學術界和行業中存在不同的觀點和認知。我所提到的只是其中一種觀點。

在機器人的感知中，存在一個長期問題，即邊角場景（corner case）及分布外（OOD）泛化性問題。對于常見場景，如果有大量的數據進行充分訓練，算法可以很好的識別。但對于罕見的場景、意外事件或常見情況的變體等，情況就變得更加困難。

舉個例子來說明，之前在臺灣花蓮發生的一起事故中，一輛小型貨車翻車，車頂朝向特斯拉車輛。特斯拉的算法在訓練過程中可能見過許多不同角度和形態的車輛，但可能從未見過或很少見過車輛翻倒后以車頂朝上的狀態。因此，算法無法識別它并避免碰撞。這就是邊角場景（corner case），也就是這種情況。

之前在感知領域很難處理這種情況，有一種觀點認為，這涉及到常識、常識世界模型和常識推理的概念。在算法中，我們可以將整個世界及其規律比作一片巍峨的山脈，而算法訓練的數據可能只是其中一個小山包，而無法看到小山包之外的東西。然而，在某些情況下，小山包之外的東西可能會影響任務的執行。

從我的視角來看，大模型實際上提供了對整個山脈地形的高階抽象信息，而不是具體的地理數據。這些抽象信息基于自然語言和符號進行訓練。例如，當我們看到一輛車時，它有數百萬、數千萬甚至數億個像素點，這是基本的數據。但是當我用幾個字母"car"來描述時，這就是自然語言的描述，是對信息進行高度壓縮的表達方式。在這種信息層面上，模型對幾乎所有人類所見過的東西都有了了解，可以構建出關于世界和知識結構的模型。因此，大型模型的輔助可能顯著提高感知圖像的泛化性，解決邊角場景（corner case）、OOD泛化性問題。這就有點像從感知到認知的過程，將基本數據與高度抽象的信息和知識結合起來。

具體而言，當這兩者相結合時，對于解決邊角場景（corner case）、OOD泛化性問題，會帶來一系列的好處。例如，感知的可靠性將得到顯著提升，無論是目標檢測和跟蹤，還是更復雜的語義分割等任務，其準確率都可以大幅度提高，甚至可能顛覆傳統認知。我注意到已經有一些學者和企業正在嘗試類似的項目，我們也在進行相關的研究。

第二個可能是拓展感知的范疇，例如不僅限于簡單的單幀圖像感知任務（如目標檢測和追蹤），而是針對視頻或更復雜的行為，這些行為涉及更強的相關性和復雜性，例如復雜行為識別。在這種情況下，大型模型的輔助可能顯著提升感知行為層面的準確性。這只是引發討論的一些初步想法，歡迎批評指正，謝謝。

畢盛：我想簡要談談我對此的感受。最近，我們對多模態領域特別是視覺語言導航（VisionLanguageNavigation）這個研究方向產生了濃厚的興趣。這個方向目前非常熱門，我們也已經投入了一段時間的研究工作。從理論角度來看，我們更傾向于進行工程方面的研究，將研究成果應用到實際場景中。因此，我們參考了一些國外頂尖團隊的方法，并嘗試將其應用到我們的研究中。

然而，我們遇到了一些問題，這可能與模型的通用性有關。數據集在深度學習人工智能研究中是一個重要的挑戰。解決數據集問題對于取得良好的研究結果非常關鍵。在選擇數據集時，我們參考了李飛飛老師等團隊在這個領域的工作，并借鑒了他們的論文。他們提供了一個仿真環境用于模型的訓練，其中訓練數據集主要涉及智能家居和家庭場景，例如沙發、桌子等。他們的目標是通過語言指令實現機器人在家庭環境中的導航。我們進行了一些實驗，使用他們提供的仿真模型進行訓練。

然而，如果我們希望真正實現應用，就需要使用真實的訓練數據。因此，我們購買了三維掃描相機將房間的場景掃描成三維圖像。我們在實驗室周圍的場景建立了3D模型，并將其導入到訓練好的模型中進行測試。然而，初始效果并不理想，路徑規劃并不準確。

我們發現實驗室的場景與家庭場景存在差異，因此我們不得不尋找一個類似家庭場景的地方。最終，我們找到了一個實驗室的一樓大廳，其中有沙發和桌子。我們首先建立了該地點的地圖，使用三維掃描相機將整個房間的三維圖像掃描出來。在這個場景中，我們成功地進行了導航。例如，當給機器人下達指令時，我們可以告訴它沿著沙發走到某個地方，或者沿著玻璃門走到門口。機器人會生成一條路徑。然而，在機器人按照路徑行走時，它不能完全依賴視覺，而是完全依賴深度學習。我認為，視覺導航在模糊的環境中是可行的，但在精確的場景中仍然存在困難。因此，我們結合了視覺和激光的方法。我們將環境分成許多網格，在每個網格點上使用視覺信息，但在點與點之間的行走方向上使用激光。然而，這需要進行一些標定和實驗。盡管成功率并不是特別高，大約在60%到70%左右，但我認為這樣的效果對于研究來說是可以接受的，但在應用方面還需要進一步努力。

我認為，現在有了更大的模型，將來在這方面可能會有更好的表現。在視覺語言導航方面，我對理論的了解一般，我們主要是借鑒其他團隊的方法，并嘗試將其實際應用。他們主要在仿真環境中進行數據集測試，使用的都是大型模型。實際上，我們主要使用他們訓練好的模型進行部署。這是我的感覺，同時也覺得隨著ChatGPT的發展，隨著模型規模的增大，機器人將能夠像人一樣通過經驗來穿越復雜環境。

我覺得這是有可能實現的，雖然我不確定現在是否已經實現了，可能有一些專家可以給我們提供一些建議，這是我的觀點。同時，我也認識到，無論我們在深度學習方面做得多好，實際上在避障和導航這樣的精確運動方面，深度學習的結果并不理想。因為深度學習更適合做意識形態判斷，而在精確場景中，感知傳感器仍然是關鍵。人類在穿越狹窄空間時并不需要精確的距離感，但是機器人通過激光傳感器可以準確地測量與障礙物的距離。然后通過感知來完成穿越。人類則憑借經驗來穿越，不需要知道靠近障礙物的具體距離。

我認為這也是因為模型訓練數據量的限制。所以，我們目前通常是結合感知和認知來處理這些精確運動。此外，我認為在機器人研究方面，任務級規劃給我們提供了很好的思路。以前我們主要研究路徑規劃和導航等相對簡單的任務，機器人在這方面做得很好，只要環境是固定的，機器人表現得很好。但是，當環境復雜時，問題就比較棘手了。但是，現在隨著大量數據的可用性，機器人能夠更好地在復雜環境中切換任務，并靈活調度執行任務的場景。也許在一些復雜場景下，可以取得更好的結果。但是這需要大模型和大數據的支持。這只是我的一種認識，我們還沒有在這方面取得進展，只是期待OpenAI等機構在大模型的發展方面能夠帶來新的突破。

桑煜：感謝畢老師還有岳老師的精彩回答。有一種觀點認為大模型壓縮了互聯網上的信息，壓縮信息、尋求信息高效表征的最終結果是產生了像人一樣的抽象理解和思維鏈能力。這個能力如果用得好，我相信機器人不用那么依靠精確的傳感器，而是用邊走邊看的方式進行感知和導航，在corner case的處理上會有很大的進步，也給我們場景端帶來了很大的想象空間。所以這個場景端的問題拋給嚴總，你們現在聚焦在建筑場景，如果機器人+AGI的技術再往前走一步，你們現在遇到的哪些客戶的痛點需求，有可能是能夠有一個質的變化去實現的？

嚴啟凡：是的，剛才你也提到了類似思維鏈的概念。實際上，我一直很難理解思維鏈是什么。對于人來說，思維鏈可能就是逐步將事情完成的一種邏輯思維過程。現在我們認為人工智能也有這種趨勢，它也可以逐步進行推理，當然可能需要人類提供一些提示或所謂的步驟。所以我在思考，我還沒有弄清楚它是否是一個真正的思維鏈，還是只是類似于我們平常編程的一步一步操作。比如，如果我要寫一個算法，我會先列出數學公式，然后逐步進行轉換成算法的步驟。

現在機器人面臨的一個問題是，它的任務需要提前規劃。可能我們需要預先導入地圖生成路徑，并將整個規則告訴機器人，讓它按照規定執行任務。比如，作為一個兼容機器人，我可以告訴它沿著墻壁順時針方向完成施工，并詢問它是否需要處理門窗等問題。

這種交互方式可能比之前預先生成整個路徑進行施工更加人性化，也更加方便和便捷。我認為這是一個很好的方向，基于目前的情況，而且像感知、決策規劃、控制和驅動等方面，人工智能在感知和控制角色上有著巨大的前景，令人興奮。但是在控制和驅動方面，機器人還存在很大的差距。特別是機器人，因此我們對多模態模型感到興奮，因為如果有一天它真的將嗅覺、觸覺等所有模態整合起來，那將非常有趣，我們真正能夠像人一樣感知所有信息。不過，這方面可能需要更長的時間，我們也希望未來的發展能夠實現這一目標。因為這方面的數據收集并不像文本或圖像數據那樣容易，我可以在互聯網上輕松找到大量這樣的數據，然后回來工作學習。所以對于機器人行業來說，實際落地可能會遇到可預見的可操作方向和困難。

桑煜：幾位嘉賓的從業經歷中接觸過服務機器人、工業機器人和自動駕駛等等。你們覺得會因為AGI帶來哪些變化？有沒有一些新的場景、新的功能會出現？

岳玉濤：對于新場景，我個人最感興趣的是數字伴侶和數字永生。

之前有很多公司都做這類項目，但它的體驗可能并不理想，現在大模型技術使得各種可能性變得很大。我覺得數字伴侶是滿足人們的剛性需求的一個方向。現在技術上已經可以做出一定程度的虛擬人物，或者像剛才嘉賓提到的一些文學作品中的角色，比如楊過等。

另外一個場景是數字永生，它涉及到智能、思維、記憶和意識的數字構建和存續。這本來是個非常科幻的話題，最近我們組織了一個小圓桌討論，有來自人工智能、神經科學、信息科學、物理學、哲學等不同領域的人參與，得出的初步結論是數字永生已經到了可以在技術層面上嚴肅探討的程度。其中涉及到幾個非常有意思的方面，例如為什么這種場景現在實現的可能性變得更高了，這是因為我們對人的智能和意識有了更深入的理解。人的大腦有860億個神經元，它們之間存在連接。當外部感官刺激進入大腦時，不同的區域會被激活，如果這些區域形成廣泛的交互，就會產生意識的體驗。我們知道可以使用"系統1"和"系統2"來描述人的思維模式，系統1是一種簡單的響應模式，而系統2是一種基于結構化知識的分析和邏輯推理模式。在機器學習層面上，如何實現類似“系統2”的智能，我個人認為這是最具顛覆性和突破性的問題，也是最難解決的問題之一。

大模型通過從海量數據中構建知識和知識之間的結構來解決了這個問題。如果你反過來問，為什么人會說AI可以做一些事情但不理解這個詞的意思是什么？為什么會有理解和不理解之分？在心理學等領域有很多研究。我們觀察到在語言模型中，這種知識和知識性的結構形成了一種層次化的理解能力。雖然具體的形成機理至今還是個謎，但現在已有若干證據和研究表明，代碼訓練可能是大模型產生這種能力的過程，大模型中某個（或某些）特定的神經元擔任特定的知識節點或推理功能。然而，如果我們真的進入數字永生的場景，我認為可能會面臨的幾個主要技術挑戰：

一個是記憶，即如何提取已存在于大腦中的記憶信息，并將其轉化為模型的訓練數據和輸入，這可能是一個較大的挑戰。

另一個是結合多模態實時感知的模型，比如把接收到的感知信息進行壓縮、處理和抽象等可能問題并不大，但不管是記憶信息還是實時感知信息，讓這個模型的行為表現在性格、習慣、思維方式及相應的學習更新能力上與其原型真人高度吻合，是一個很大的挑戰。

第三個至于擬人化的意識體驗，即如果你是一個數字永生體，你可能會感覺自己仍然是自己，仍有意識體驗，只是某些方面的感覺可能會有所不同。我相信這種意識體驗在技術上完全可以實現。

總之，這兩個場景，數字永生以及虛擬伴侶，是目前大模型應用層面上最令我興奮的兩個點。

畢盛：在機器人領域，多模態的大型模型是一個熱門的話題。然而，在我們實驗室進行導航時，我們面臨著較高的失敗率。我認為，如果我們能夠進一步豐富VR細分模型[7]，無論是在實驗室還是家庭等各種場景，我們都能夠實現更好的導航效果。這對我來說是一個非常有趣的點，因此我認為大型模型能夠使機器人更具靈活性，能夠更好地適應復雜的生活環境，這一點非常重要。

另外，在工業機器人領域，以前需要對機器人進行精確的標定。例如，當機器人需要抓取瓶子時，它必須能夠正確識別并抓取瓶子。然而，如果機器人具有一定的意識，對于服務方面，它需要更好地理解復雜的環境。舉個例子，如果一個瓶子中的水已經被喝了一半，而我不在場，機器人可能需要將瓶子扔進垃圾箱。下次再有人需要使用時，因為水沒有被動過或喝完，機器人可能會根據以往的經驗進行相應的處理。此外，這種情況不僅僅局限于水，將來可能還會出現其他類似的情況，比如櫻花茶、礦泉水等各種物品，機器人都能夠識別并正確處理。并且，在抓取機器人的位置時，它知道如何將水放置在相應的位置。我認為這種情況類似于人類的行為。舉個例子，如果我來清理桌子，我可能會考慮將水放在哪里，可能沒有人告訴我，但基于以往的經驗，我可以處理這個任務。

我認為，如果機器人能夠實現這種意識，它將能夠更好地為人類提供服務，而大型模型為這種可能性提供了支持。在工業領域，尤其是柔性裝配等需要靈活性的領域，機器人是不可或缺的。正如您所提到的，柔性裝配的標定是一個挑戰。在這種情況下，機器人需要具備自適應和個性化的能力。而服務場景更是如此，因為服務場景涉及與人的互動，因此具備千人千面的特性將得到充分發揮。此外，岳老師還提出了一個更高層次的問題，即未來人類與機器人之間的人際關系，以及未來社會的發展方向。這個問題在倫理層面上也值得我們深入探討。

桑煜：剛才大家也多次提到了數據的問題，機器人數據應該如何收集，收集哪些？。如果我們希望實現相對泛化的應用場景，可能還需要跨越多個領域進行數據收集，這并不容易。我想向大家請教一下，是否在工程和科研方面已經出現了一些解決方案來應對這些問題。

岳玉濤：我有兩個觀點。首先，我認為大模型實際上在很多情景下緩解了對數據的需求量。大模型的基礎層被稱為基座模型或基礎模型，它是一種跨模態預訓練模型。通過將大量信息和知識嵌入到這個模型中，我們可以在此基礎上執行特定的下游任務，并滿足訓練所需的數據和質量要求。相比之下，如果基于這個基座模型來訓練下游任務，所需數據的規模和質量要求可能會小得多。這是第一個觀點。

第二個觀點涉及數據方面的我們自己的體驗。我們發現跨模態的問題變得越來越清晰和重要。例如，我們可以進行跨模態的標注，并應用一些數據增強技巧，以更好地使用這些數據并實現目標。

似乎直到出現了基座模型和ChatGPT等技術，大家才意識到不同模態之間的信息共性是如此強大。以GPT-4的非多模態版本為例，它是在所有訓練數據都是文本和符號的情況下訓練出來的，但可以執行一些代碼段，繪制出圖形如獨角獸、房子和狗等。也就是說，在文本模態中，已經蘊含了相當的空間概念和幾何概念，實際上可以對應到視覺模態或其他激光雷達等模態的信息。

因此，在某些情況下，例如對于難以采集或標注的雷達數據，我們可以進行跨模態的標注，比如利用視覺結果來標注雷達數據。我認為這種方法可以對數據起到一定的幫助作用。

嚴啟凡：這個問題涉及到我們在建筑領域中的管線。實際上，在施工環節中，這種場景的數據相對較少，因為大部分數據可能是在家庭建設完成之后產生的。由于這個領域相對較小眾，我們可能需要自己進行一些詳細的標注和采集工作。然而，我剛剛聽到岳老師提到的一點，大模型的基座模型實際上減少了對數據標注的需求量。因此，我們可以利用更多的小樣本來實現這一點，因為一些知識結構已經存儲在基座模型中，包括遷移的方式。我們可以結合大模型的基座模型來實現特定的小眾場景數據，并減少對數據的需求量。

我認為這對我們來說是非常有意義的，因為我們目前確實面臨這樣一個問題，我們作為一家小公司，無法承擔如此高昂的成本來獲取豐富的場景數據，而大模型的基座模型對我們來說確實是一件非常有意義的事情。

第二個問題是關于仿真。我個人認為，仿真現在應該能夠解決百分之八九十的問題，但要做到精細保證的成本非常高。所以，并不是說我們無法實現1比1的數字仿真，而是成本太高了。在實際場景中，我的車輪可能會打滑，受到光線干擾等等。但是，要精確建模這樣的場景并保證細節，代價很高，或許可以考慮大模型是否能提供一些解決方案。因為我還沒有仔細思考過，所以還需要進一步探討。

桑煜：嚴總的回答也體現出了機器人公司在應用場景落地的一些商業思考，考慮成本，考慮怎樣是整體優化的解決方案。我接著引出下一個相關的問題，機器人很多時候對關鍵任務上的延時要求非常低，這其實跟大模型的本身會有一些沖突，大模型大在參數量，需要用更多的內存、更強的算力，往往不符合機器人應用的低功耗原則。這也是機器人+AGI落地的一個難點。請教一下大家看到了哪些技術上、工程實踐上的解決方法。

嚴啟凡：我先討論一下最傳統的做法。至于如何使用大模型來解決這個問題，或許我等一下可以聽聽兩位老師的看法。在傳統的機器人系統中，我們也面臨實時性和計算能力的要求。實際上，這個系統是分層的。剛才也提到了在機器人系統中，基本上可以從感知、決策、規劃、控制和驅動等幾個大方向進行分析。

對于控制和驅動方面，它對實時性的要求比較高，而對于規劃方面的要求則相對較低，只需一些嵌入式的系統就可以實現。因此，在操作時，我們基本上會對這兩個方面進行分離。

對于實時性要求較高的部分，我們會賦予其在實時核心上運行的權限，無論是從硬件架構還是軟件架構上都會進行分層。而對于感知方面，其規劃要求并不高，它可能會運行在更高計算能力的架構上，以彌補這種分層的趨勢。但未來如果真的想將大模型的能力賦予機器人系統，可能還需要依靠從事基礎工作的研究人員，他們可以壓縮模型、進行量化處理，或者減小模型的體積，使其能夠在本地端或云端運行，同時確保帶寬足夠大。這可能需要研究云基礎設施或模型基礎設施兩個層面的人員來考慮。我們希望能夠坐享其成，只需使用一下即可。

畢盛：近年來邊緣計算在技術領域備受關注，人們希望將邊緣計算應用于機器人。在過去的十年中，我們主要在手機處理器單元（MPU）層面上進行邊緣計算的開發，涉及了許多模型部署，例如活動檢測、Lite等。而近年來，我們開始在單片機上進行深度學習研究，我也在一個小型的單片機上運行了一個較小的深度學習模型。然而，我認為這些深度學習模型應該是相對較小的。過去，我們在MPU層面上的開發主要是基于移動網絡，例如谷歌的MobileNet等框架。國內的一些公司也在進行類似的工作，這是七八年前的事情了。現在，我們有了MCUNITE這樣的技術，他們實現了很多數學化和理論化的抽象，以提取關鍵內容并實現稀疏性搜索。他們在壓縮裁剪和剪輯MCU相關網絡方面有很多數學知識。由于我們也使用了一些現成的網絡模型，所以在機器人端，我們首先從計算端開始，從單片機到MPU，再到云端加速卡，都有計算的解決方案。

實際上，我們有計算方案，但關鍵是在機器人端，可能需要進行一些切分。正如嚴總剛才提到的，我們在運動過程中使用單片機進行基層開發，甚至使用實時操作系統，如主ITS等。在控制機器人運動時，我們需要確保任務切換的延遲在七八毫秒內，這樣才不會出現問題。因此，我們將一些角色層面的功能放在應用層上，就像剛才嚴總所說的那樣，感知和認知都在利用CPU，但操作系統層面上的虛擬地址管理單元（MMU）和內存管理單元（MIU）并不理想。以前有一些實時操作系統，如Webworks，但使用起來成本較高，對我們來說是個挑戰。以前的工業機器人通常使用這種系統，可以實現工業實時控制，但現在單片機的頻率已經提高到700兆赫茲、800兆赫茲甚至878百兆赫茲。所以沒有必要再使用那種操作系統了，我們可以直接采用較小規模的Preempt-RT系統。然后在決策層面上，即開發層面，包括決策和感知認知，雖然在應用層面上有一些不足，但實際上也可以實現一定程度的邊緣計算需求。

當然，我認為需要進行一定的切分。例如，對于大型模型，即使進行了壓縮，要在真正的MPU層面上運行仍然非常困難。因此，如果你是處理超大型模型，可能還需要考慮邊緣端和云端的劃分。在機器人任務中，例如在機器人導航過程中，我建議無論模型大小如何，都讓它在邊緣端進行運算。不要將邊緣計算與云端協同，因為如果網絡中斷，機器人將無法工作。

但是在一些角色指導方面，例如在機器人導航過程中，他可能需要意識到環境的某些變化，我認為在這種情況下可以與云端進行通信。例如，當環境發生變化時，可以使用大型模型進行環境識別，然后根據不同的環境切換導航方法。因為我認為不同環境下的導航方法是不同的，特別是對于非常深的走廊場景。

在這種情況下，使用激光定位可能不太適合，而應該使用回環檢測，讓機器人能夠知道自己是否在原地。我認為環境感知是一個很復雜的問題，但根本上不需要進行定位，只需向前運動即可，進行相對定位，沿著墻壁前進。但是當機器人離開該環境并進入另一個環境時，它可能需要切換任務。那么，如何認知環境的變化呢？在這種情況下，可能需要與云端進行通信，使用大型模型進行環境感知。因此，我認為在機器人導航過程中，不要切分導航過程本身，這時候應該進行邊緣計算。但是在切換環境時，應該轉向云端計算，所以需要有一種結合的方式。這是我個人的觀點，我認為這個領域還有很多挑戰等待解決。

岳玉濤：我可以分享一點關于神經網絡剪裁和輕量化的觀點和實踐經驗。請設想我手中拿著一個球，并將其扔出去，球落到某個地方。球的軌跡可能是非常復雜的，需要大量的數據和坐標來描述，尤其是從古代人的角度來看，他們不知道這種軌跡，需要使用復雜的坐標系統。然而，現在我們知道了牛頓的第二定律——F=ma（力等于質量乘以加速度），這個簡潔的公式足以非常精確地描述整個軌跡。這表明在很多情況下，簡約性是存在的，即使用很少的元素就能夠描述復雜的現象。這個原理在神經網絡中得到了證實，傳統的許多網絡具有很高的稀疏性。

舉個例子，假設我們有一個準確率為95%的模型，該模型有100萬個參數。通過剪裁，我們可以剩下5萬個參數，甚至在某些情況下，只剩下1萬個參數，然后再執行同樣的任務，準確率可能只降低1到2個百分點。也就是說，即使剪去了大部分參數，模型仍然可以基本上執行原始任務。在這個過程中，一個關鍵的問題是如何進行剪裁，即選擇哪些節點和層進行剪裁。在這個過程中，我們需要找出哪些節點能夠保持原有的特性和能力。這方面的方法非常多樣，但有時候其實非常簡單的隨機剪枝這種方法反而效果更好。

在我們的探索中，我們采用了一種稱為量化因果的方法。通過量化從一個節點傳遞到下一個節點的因果關系，在執行矩陣乘法和其他運算的過程中，如果因果關系比較強，我們就保留該節點；如果因果關系比較弱，我們就剪裁掉該節點。這種因果關系是可計算的，可以用信息領域的方式進行度量。根據這個依據進行剪裁時，我們發現在許多場景下，這種方法優于其他剪裁方法，尤其是，這種方法具有很大的魯棒性，可以適用于各種不同的網絡。之前的情況可能是某種剪裁方法適用于某個網絡，另一種剪裁方法適用于另一個網絡，但我們的實踐表明量化因果的方法可以適用于多種不同的網絡。以上是我們自己進行的一些小實踐，希望能對您有所啟發。

桑煜：剛剛我們討論了很多關于嚴肅場景和技術的問題，接下來這個問題更偏向于人類社會的終極暢想。通用智能的機器人是否會出現，需要多長時間？目前，人與機器的相處方式相對和諧，但有一天，是否會出現像《黑客帝國》中機器人與人類對立的情況？

嚴啟凡：我認為這個過程實際上是相當遙遠的。正如我之前所提到的，目前在文本和圖像等領域，我們已經取得了突破，但在例如嗅覺以及其他更多的多維、多模態方面，我們還沒有看到明確的發展路徑。

另一方面是關于能源消耗的問題。機器人顯然可以比人類更強壯、更有益，具有更大的能量。如果我們能夠實現可控核聚變，這種能量是可以實現的。然而，在計算能力方面，大家應該也都聽說過，人腦只有約10瓦的功率，可能每天吃一碗飯的能量就足夠滿足它的需求。但是如果要處理大型模型的大量海量信息，實際上就會面臨一種奇怪的狀態。

因此，我一直認為神經網絡只是一個網絡，我不知道它與真實的神經系統有什么關系。人腦的神經似乎具有自己獨特的工作機制，不能僅僅依靠一些簡單的梯度算法或類似方法來實現這樣的網絡。所以，對于這個問題，我覺得它還是相當遙遠的。這就是我的看法。

畢盛：我個人認為，在設計機器人時，我們有機器人的三大定律，其中第一條定律規定機器人不能傷害人類，機器人必須聽從人類的指令，而第二條定律則約束機器人必須保護自己，除非這種保護與第一條定律產生沖突。然而，我不確定這些定律是否真正能夠限制機器人的行為，也無法確定其能否完全約束機器人。

目前人工智能的發展確實很迅速，盡管我并不從事人工智能的前沿研究，很難對其進行準確評估。一些權威機構和一些頂尖人士，如OpenAI的專家們，提出了一些關于人工智能的危險性的觀點。但是我們也無法進行準確評估，就我個人而言，對于像嚴總所持的觀點，認為人工智能沒有機器人那樣的智能，我覺得有些草率。然而，在人工智能領域，我們也無法準確評估其發展到何種水平。

我認為，隨著大型模型的應用，我們將能看到機器人在不同層面上發揮其功能。對于這種情況，我個人無法給出確切的確定性，只是覺得人工智能能夠幫助人類更好地生活，這已經是很好的了不是嗎？

岳玉濤：談到機器人的三大定律以及能否控制機器人的問題，我認為無法控制機器人，這是因為存在一個基礎概念，即計算不可約性。當一個系統的復雜性超過一定程度時，總會存在一些狀態，超出計算能力的范圍，即無法涵蓋的狀態。因此，對于這個問題，我個人認為無法控制機器人。

關于桑總提出的問題，就像科幻作品中的機器人一樣，我個人預測實現機器人的時間期望值是20年，標準差是10年，大致范圍是10至30年。為什么會這樣呢？有些人認為進展很快，尤其是大型模型已經非常強大，但也有些人持悲觀態度，認為還有許多問題沒有解決。我相對而言比較中立，認為大型模型未來的發展面臨三個半關鍵問題需要解決。

首先是多模態感知和物理世界的交互閉環能力。雖然GPT4已經有了多模態版本，但具體的效果如何，我們目前還沒有明確的了解。況且，目前的大模型突破仍限于信息世界的模態。我認為，一旦多模態感知與物理世界發生交互，實際上這個挑戰是相當大的。解決這個問題可能需要更長的時間，而不是三五年的時間。這是第一個問題。

第二個問題是任意多步邏輯推理。之前的舊版本如GPT-3幾乎沒有邏輯推理能力。從去年11月30日發布的版本開始，邏輯推理在兩三步以內的準確率很高，但超過兩三步、四五步后，錯誤率就顯著增加。到了GPT-4版本后，它在五六步、七八步的獨立推理方面的準確率還是相當高的，但再復雜一些就無法處理了。這其中存在一些底層的限制和問題導致了這種現象的出現。

例如，自回歸的方式和逐個生成令牌的方式限制了它的復雜邏輯推理能力，或者稱為任意多步邏輯推理能力。就像人類解數學題一樣，個人也會犯錯，但人類有一套邏輯推理體系，可以進行反向檢驗和相互校驗，建立了現在這樣高水平的科學技術體系，這些都建立在嚴密的邏輯推理之上。如此復雜的體系，人類可以建立起來，但GPT尚未達到這個程度。

第三個問題是自主訓練和自主學習。目前的訓練方式是針對一個版本進行訓練，然后將其固定下來。它只能在輸入的令牌集合內具有類似于短時工作記憶的能力，有一些靈活性。但實際上它無法自我更新，除非人為地使用新的數據集進行再次訓練。而人類可以在觀察和學習的過程中不斷更新大腦中神經元之間的連接權重，這是同時進行的。與我們現在的GPT訓練方式基于反向傳播的梯度計算來更新不同，人類大腦沒有反向傳播。所以，這是第三個限制，即自主更新學習。

最后，還有半個問題是意識的問題。有人認為它是一個終極難題，但我個人覺得它只能算是半個問題。更多的問題反倒在對“意識”這個概念的定義和理解的模糊性上。如果我們將意識所表現出的各種行為以及意識機制中的幾個構成要素拆解開來看，我認為現有的技術就幾乎已經能夠完整構建出來。

因此，如果我們解決這三個半問題，我認為可能需要幾十年的時間，而不是幾年。同時，我對技術方面持樂觀態度，相信這些問題都會被解決，雖然可能需要相當長的時間。當那種特別牛的智能體出現時，它是否會威脅到人類、是否能夠約束它，這是一個更為深入的話題，可能需要更長的時間來探討。

關鍵詞：

上一篇：網友舉報甘肅定西一局長冒名頂替他人上大學，政府相關人士：系謠言
下一篇：最后一頁

18gay台湾男同亚洲男同_亚洲精品成a人在线观看☆_亚洲成A∨人片天堂网无码_亚洲av片一区二区三区

我們距離一個能完成“從桌子上拿瓶水”任務的機器人還有多遠？

商業觀察

今日熱點

18gay台湾男同亚洲男同_亚洲精品成a人在线观看☆_亚洲成A∨人片天堂网无码_亚洲av片一区二区三区

我們距離一個能完成“從桌子上拿瓶水”任務的機器人還有多遠？

延伸閱讀：

商業觀察

今日熱點