當前位置:首頁 > 今日熱點 > 熱點追蹤 > 正文

    最早出發的中國大模型創業者:“貧窮限制了我們的想象力”

    2023-04-27 05:34:00    來源:晚點LatePost    

    劃重點:

    1曾任微軟亞洲研究院副院長的周明認為,大模型To C創業是無止境的“軍備競賽”不確定性很大,而To B更務實。 22020年底周明離開微軟創立瀾舟科技,雖然遇到了國內AI創投活動的冰點時期,但周明已經意識到“大模型”未來將會有不可小覷的潛力。 3在周明看來,OpenAI之所以能夠大獲成功是因為他們在“集成創新”方面做的足夠好,把所有工作、應用、算法都在一個大平臺上體現,形成里程碑。 4未來,周明希望自己的瀾舟科技可以在大模型探索之路上走的更加務實,“兩條腿走路”不僅要有終極目標,也有每個階段還有階段目標,讓公司有中間成果或實現收入。

    文丨朱麗琨 編輯丨程曼祺

    周明是在國內 AI 市場溫度降到谷底的時刻決定創業的。那是兩年前,2020 年底,他考慮辭去微軟亞洲研究院副院長的工作,很多朋友勸他別出來,但他很堅定地要開始大模型創業,認為 “大模型未來會成為某種基礎設施”。


    (資料圖)

    這之前 6 個月,OpenAI 發布了 GPT-3,在人工智能領域引起關注,但尚未形成去年底 ChatGPT 發布后大模型機會已至的共識。

    不像一些熱潮中加入的創業者那樣愿意談 “終局”,周明在接受《晚點 LatePost》采訪時,一再強調的是 “公司要活下來”。他給出的商業前景沒有那么 “性感”。他認為對國內創業者而言,更靠譜的是 2B 的慢生意。

    他笑著承認,“有 2C 志向的人,大概看不上做 2B 的人”。他認為大模型 2C 創業是無止境的 “軍備競賽”,不確定性很大,2B 更務實。

    務實的背后是他始終受制于資源不足。

    周明創立瀾舟科技時,國內 AI 創投活動正處于冰點。他慶幸自己沒有再晚一年從微軟出來。自 2019 年以來,中國 AI 領域的創投熱度一直在下降,去年到了最低谷。據 IT 桔子,截至 2022 年 11 月,中國 AI 領域一級市場融資總額比 2021 年同期下降 61%。

    一成立,周明和瀾舟就遇到了冰冷的市場環境,當時也少有人認可大模型的潛力。

    資源受限也來自客戶習慣:中國不少大型企業,尤其是央國企有數據私有化的強需求。所以周明走訪了上百家國內客戶后,得到的反饋往往是:“你做大模型,我們也用不起。”

    它們要把大模型部署到本地,這需要自己購買大量 GPU、建算力中心,至少得投入上千萬元人民幣。因此,周明一開始選擇做 10 億參數量級的模型,研發重點是如何用輕量級模型解決問題。直到 ChatGPT 教育了客戶,瀾舟開始加速研發百億、千億級別大模型。

    資源不足還有時代印記。周明從 1980 年代就開始研究自然語言處理(NLP),參與研發了中國第一個中英機器翻譯系統 CEMT。那時算力很低,他每天想著如何節省內存。90 年代他去清華任教,申請到的科研經費仍然有限。1999 年加入當時剛成立的微軟亞研院后,他和團隊很長一段時間的重點也放在如何用小數據訓練出與大數據相仿的結果。

    周明經常開玩笑說自己是 “貧窮限制了想象力”——他一直不敢想通用人工智能(AGI)會實現,直到 ChatGPT 爆發,他才把 AGI 作為愿景。在做自然語言處理研究將近四十年、創業兩年后,他終于有了適當的野心。

    不過,在如今對更大機會、更新物種的暢想氛圍中,周明并不是最吸引資本和資源的創業者。不止一位關注大模型的投資人對《晚點 LatePost》強調創業者的年齡,一些人相信,過去的 NLP 研究范式已被完全顛覆,更年輕的創業者才能更好地理解新技術,把握新機會。

    周明在 “知天命” 的年紀開始創業,習慣了關于年齡的質疑。年齡也帶來好處,就是經歷過周期的韌性。

    “利用好天時地利,才是一個人的核心競爭力。”他說。

    瀾舟科技創始人兼 CEO 周明

    以下是周明和《晚點 LatePost》的對話:

    01 普通人沒感覺,但AI界 “巨震” 早就開始了

    《晚點》:你 2020 年底從微軟亞研院離職,決定做大模型創業,ChatGPT 引起震動是在這兩年之后。你為什么更早看到了機會?

    周明:我當時在微軟亞研院的團隊做了不少研究,看到大模型的用處。我認為再發展下去,它會成為某種基礎設施。

    當時很多國內中小企業還沒感受到大模型是什么、有什么用。BAT 已經開始做大模型了,但還沒有對外釋放太多技術和服務。中國企業,尤其中小企業未來一定會用大模型。誰來做?這里就存在一個創業機會。

    《晚點》:大模型有用,你在當時是怎么感知到的?

    周明:其實 2017 年 Google 的 Transformer 出來后,NLP(自然語言處理)領域立刻就轉到 Transformer 上了。

    我當時在微軟領導的自然語言組也馬上開始用 Transformer 做編碼、解碼,做各種大模型,那時叫預訓練模型,我們當時做了一個業界挺有名的模型叫 Unified Language Model (UniLM)。我們的技術成功應用到多個產品,涉及微軟圖靈大模型、必應搜索的相關度提升、Office 的語法錯誤檢查、Azure 的機器翻譯等。

    《晚點》:所以 2017 年的 Transformer 給行業帶來的震動比 ChatGPT 更大?

    周明:如果未來頒圖靈獎,也許會頒給 Transformer 而不是 ChatGPT,因為圖靈獎一般鼓勵有長期廣泛影響的基礎技術。

    普通人沒感覺,可是 AI 界當時全都轉用 Transformer。Google 也許覺得有點虧,Transformer 是它搞的,轟動一時的 BERT 也是它搞的,但現在摘果子的是 GPT。

    (*BERT 是 Google 2018 年基于 Transformer 推出的大模型。)

    《晚點》:Transformer 具體帶來了什么變化?

    周明:讓我們從頭來講。為什么自然語言處理這幾年發展很快?“自監督學習” 是最重要的。

    過去做自然語言的很多任務,比如中英翻譯,你得去互聯網上找中-英雙語語料,人工檢查確認,或者補充新的語料。不同任務還要標不同數據,標注成本特別大。再利用標注數據設計一個模型進行學習。這就是 “監督學習”。

    GPT 大模型是 “自監督學習”,不需要提前標數據了,只需要把大規模語料準備好,神經網絡會自己調整參數,學到一個穩定狀態。

    做具體任務時,比如信息抽取或文本生成,需要再在模型上做一個微調,這需要標注針對這些任務的數據,但標注量比監督學習小很多。因為模型更聰明了,你給它舉幾個例子,它就會了。原來可能要標 1 萬條數據,現在可能 100 條就行了。

    現在 GPT-4 連針對具體任務做標注這步都不需要了,它可以直接通過提示(prompt)告訴模型怎么做任務,你提示得越詳細、準確,它完成得就越好。

    《晚點》:Transformer 是如何實現自監督學習的?

    周明:自監督學習,搞自然語言的人老早就想到了,只不過沒有很好的編碼方式去實現。

    NLP 領域近年的第一個大變化是在 2012 年 ImageNET 大火,大家認識到深度學習在圖像識別領域的強大能力,開始把深度學習用到 NLP 上。最初深度學習只改造了原有 NLP 流程的一部分,主要是用它生成幫助機器理解語言的 feature(特征),比如在翻譯任務里,詞的個數比例、兩個詞對譯的可能性等都是特征。但當時做不到大模型這樣,從輸入數據到輸出結果的端到端的訓練,主要是因為編碼能力和效率不足。

    Transformer 的出現改變了這種情況,它帶來了目前最高效的編碼和解碼器,而且它可以并行計算,速度快。關鍵在于它引入了 “多頭自注意力機制”;并且在給詞語編碼時,除了語義信息,也加了這個詞在上下文的位置信息。簡單來說,這可以做到多維度抽取句子信息,最后把多層注意力模型和位置信息拼起來,編解碼能力大幅提升。

    這后面大家膽子就大了,BERT、GPT-1、2、3,再到 ChatGPT,一條線都出來了。

    《晚點》:現在回看,這好像是一種挺自然的思路,為什么 2017 年才實現?

    周明:第一,算力是真提高了。這種編碼形式對算力要求極高,因為要搞這么多注意力,每個詞的編碼位都很多,神經網絡層數也很多,這些都要耗費很大計算量。

    第二是想象力增強了,這和算力提升也有關。以前一個頭的注意力都不敢想,太費空間了。

    算力、算法和數據之間是互動前進的:算力強了,可以想得更多,算法強了,又可以把數據處理效率提得更高。

    《晚點》:對做 NLP 多年的人來說,Transformer 是一個石破天驚的顛覆式創新還是基于已有技術的漸進式創新?

    周明:顛覆式創新。它的每一個部分過去可能都有人想到過,但把它變成一個體系,成為神經網絡的基礎,這肯定是顛覆式創新。

    《晚點》:你曾經想到了其中的什么部分嗎?

    周明:編碼,還有詞跟詞之間的相關度。也不能說是我想到的,我從 1985 年就開始做 NLP,當時就有人研究多特征編碼,研究能不能不管詞性、語種,都用統一的多維向量來編碼?

    《晚點》:但是這么多年來,你自己和其他人都沒能實現這些設想。

    周明:貧窮限制了想象力。

    我們那時機器太小,整天想的是如何節省內存。假設真有人往那兒想,你就會說 stupid,一下把內存外存全吃了,怎么可能做出來?大模型是反過來的,想的是如何把算力充分調動起來,沒那么在乎算力消耗。

    而且過去我們只有皮毛和初步想法。Transformer 則是一種全方位、多語言、多模態的大一統編碼精神,所有語種,包括程序代碼都能做,因為編碼機制是一樣的。

    02 Ilya有底層創新能力,Sam把集成創新做到極致

    《晚點》:在 Transformer 基礎上,OpenAI 做了什么?

    周明:持續努力,把數據清洗、規模、參數量、訓練速度……所有東西做到了極致。

    《晚點》:Meta 的 AI 首席科學家楊樂昆(Yann LeCun)評價 ChatGPT “就底層技術而言,沒什么創新”。

    周明:他說的有一定道理。搞學術研究的人會說 ChatGPT 沒什么了不起,它使用的技術點點滴滴散落在文獻中,多少在別處用過。

    但搞工程、產品的人會覺得 ChatGPT 很了不起。它最大的功績是把各方面做到極致,是集成創新的典范。

    中國的集成創新能力相對薄弱,我們在點上的、應用上的創新現在做得不錯。

    《晚點》:當年微軟亞洲研究院孫劍指導下做的 ResNET 屬于哪一類創新?

    周明:它屬于 fundamental 的底層創新。ResNET 的光芒至今照耀整個神經網絡和 AI 領域,是微軟亞研院的驕傲。

    (*ResNET 主要解決深度過大的神經網絡難以訓練的問題,由何愷明、張祥雨、任少卿、孫劍于 2015 年底提出,論文被引用超 12 萬次。“最強棋手”AlphaGo Zero 也用到這個技術。)

    《晚點》:底層創新和集成創新,區別是什么?

    周明:底層創新,算法從頭到尾是自己提出來的。集成創新則像 “吸星大法”,集成所有優秀的算法、工程、界面、交互能力,甚至 PR 能力。

    大模型領域,你可以理解為 Transformer 是底層創新,ChatGPT 是集成創新的集大成者。

    《晚點》:上一次以計算機視覺為主的 AI 熱潮中,中國科學家提出了 ResNET 這樣的成果,現在看語言大模型,為什么從底層的 Transformer,到后來的 ChatGPT 都出現在美國?

    周明:任何技術出現都有一定偶然性。

    集成創新中國是比較薄弱,OpenAI 以外很多美國公司也薄弱。微軟也幫 OpenAI 做了很多事,OpenAI 聰明地把微軟的計算、資源、數據都用起來了。

    《晚點》:那這個問題可以是,為什么是 OpenAI?

    周明:世界上有幾類人,有人就是要研究底層創新。有的是在底層創新上做應用,一般的應用是解決單項任務。還有的是做集成創新,把所有工作、應用、算法都在一個大平臺上體現,形成里程碑。OpenAI 恰好集成創新做得非常好。

    中國應用創新比較厲害,集成創新相對薄弱,底層創新有一些突破。

    《晚點》:底層創新來自何處,比如第一個想到 Transformer 的人是怎么想到的?

    周明:一是想象力,想象力又來自提問能力。

    做應用創新的人不會去想 “怎么對語言更好地編碼”,但能提出底層創新的人會想,這個問題不解決,后面的東西很難推;他看到了問題的全部,同時能找到突破點。

    二是,做底層創新需要數學功底。

    《晚點》:OpenAI 的成功給你什么啟發?

    周明:它跟微軟是難得的天作之合。Sam 跟微軟 CEO 納德拉,跟馬斯克、黃仁勛都有很好的私交,有信任。加上 Sam 看了很多創業項目,有戰略定力,知道該往哪個方向走,再搭配一個首席科學家 Ilya,那個人就是很執著。

    《晚點》:Ilya 難尋,還是 Sam 更難尋?

    周明:中國有 Ilya,也有 Sam,但是這倆碰到一起不容易。中國也缺乏微軟這樣的公司。

    Ilya 就是堅信某些技術能出奇跡。我們這個領域也有。

    《晚點》:你覺得自己是哪類人才?

    周明:我可能更像一個 architect,架構師。我有清晰的想法,能把不同人、資源架構起來,知道可以往哪走。但是讓我寫特別牛的算法,我寫不出來。

    瀾舟的應用做得非常強了,模型、算法還算國內一流水平。我也看到有些創業團隊,不懂底層的技術,就直接做集成,可能欲速則不達。

    《晚點》:你們是國內最早做大模型開發和應用實踐的公司之一,現在其他公司來挖人你怎么辦?

    周明:他們還沒往我們這看。我們不注重個人英雄主義,我們每個人發揮自己的優勢,不同的人互相支撐,能做出大項目。

    大公司,包括新成立的公司,都在看國際人才。你在 OpenAI 干過,哪怕就是掃地的,現在身價都很高。OpenAI 的沒找著,在微軟、Google 干過也湊合,現在都這么找人。

    《晚點》:他們去美國挖人是明智之舉嗎?

    周明:不論在國內挖還是國外挖,單純挖人都不是上策。多數人在一個公司里只做某一個螺絲釘,只對問題有局部了解,本來就是個兵,你指望他到你這兒做帥,你想想你公司會往哪兒走?

    03 2C更有雄心,但是2B更務實

    《晚點》:你曾評價 OpenAI “雄心令人敬佩”,國內做 NLP 有些 “膽小”。什么是 “雄心”?什么是 “膽小”?

    周明:OpenAI 從一開始就想做 AGI(通用人工智能),不鳴則已,一鳴驚人。國內外其他公司多數沒這個雄心,更多是想著把機器翻譯、搜索引擎等任務做好,不一定非要走到 AGI。

    不過現在一些中國公司看到 OpenAI 的成功之后,雄心又太大了,認為我只要有錢,只要買得起機器,很快會達到或超越 ChatGPT。我覺得是不太可能的。

    《晚點》:你自己也沒想過 AGI?

    周明:我以前認為做不出來,現在我也不敢說瀾舟能做出來了,但有了這個 Vision(愿景)。有和沒有區別很大:我們這一代也許能實現,也許實現不了,但大家每天都在逼近,要有這樣的雄心。

    《晚點》:你怎么定義 AGI?有人認為 AGI 已經來了。

    周明:AGI 是一個遞進過程,你原來只能做一個任務,后來變成 N 個任務、1 萬個任務,都用一個平臺實現。

    1 萬個任務是 AGI 嗎?也不是,它可能一直往上漲,越前面的任務越容易被人用到,越往后的是越長尾的。

    《晚點》:你這是從通用性角度定義 AGI,你并不考慮機器的認知或意識問題?

    周明:我是站在生產力的角度,不是生產關系的角度。現在生產力都還沒做出來。

    《晚點》:想法挺務實。你們具體怎么做?

    周明:我講究兩條腿走路,一個是 Vision,一個是 Stage(階段)。Vision 是終極目標,每個階段還有階段目標,讓公司有中間成果或實現收入。

    所以我們既煉模型,同時也希望它能很快在某些領域落地,邊煉邊用,不能割裂,這二者存在互相反饋:煉模型時要考慮怎么用,這樣會更聚焦,效率更高;用時要想好怎么和 “最后一公里” 結合。現在的創業團隊里,同時有煉和用的能力的很少。

    《晚點》:王慧文的想法也是 “大模型 + 應用”,他管這叫雙輪驅動。

    周明:這說明他真是干過大公司的。瀾舟的優勢是已經做了兩年,吃了很多苦,我們過去的模型已經有落地經驗,現在是做更大的模型去落地,我們多了一個 “反饋鏈”。

    《晚點》:和這一批新公司不同,瀾舟 2021 年初做的是一個 10 億參數的模型,回頭看這是不是一種相對膽小的選擇?

    周明:我剛出來創業時就想做大模型,可我調研了上百家單位,他們說你做大模型,我也用不起,你給我一個百億或千億參數的模型,我得買多少機器?中國央國企是要私有化部署的,我認為它們是中國 2B 最主要的客戶。所以這兩年,瀾舟做輕量化是走務實的路線。

    《晚點》:客戶部署大模型的成本具體是多少?

    周明:如果是訓練千億參數級大模型,追求訓練速度,要上千塊 A100,現在一塊 A100 約 10 萬元人民幣,這是上億元投入。如果接受訓練得很慢很慢,我覺得最少用 128 塊 A100,這也是上千萬投入,而且我不確認能不能訓練出來。

    當然如果只是本地部署推理,則不需要那么多卡。推理就是模型訓好了來用。千億大模型要 8 到 16 塊 A100,也是一二百萬元的投入。如果這個模型支持的任務沒那么重要,客戶還是覺得不合算。所以當時只能做輕量化模型。

    《晚點》:今年 3 月瀾舟的孟子大模型發布會上,你們說接下來要做百億、千億參數的模型。

    周明:2B 的需求分布是:80% 是輕量化模型能解決的任務,如機器翻譯、信息收集、閱讀理解等;還有 20% 的任務需要多輪對話、復雜語義理解或意圖識別,比如客服、合同審核等,這只能大模型來做。我們以前不碰這 20%,即使它客單價更高。

    前兩年我們做的事是先拿 80% 的任務,積累能力,再逐步做更大的模型,去拿 20% 的大單。

    《晚點》:ChatGPT 出來前,一定拿不到那 20% 的單?

    周明:拿不到。你模型能力不夠,客戶也覺得你做不了。我要審時度勢,作為初創團隊,我得先靠 80% 的任務活著。

    但 ChatGPT 一來,它教育了客戶,客戶想用了。我們原本的規劃,加上技術的進步、客戶的教育、同行的競爭,我們能力也更強了,萬事俱備,我就應該做這個(千億參數大模型)。

    《晚點》:現在做百億以上參數規模的大模型,企業客戶會不會還是用不起?

    周明:一是更大、更重要的任務有更大的預算;二是按照摩爾定律,機器每 18 個月性能高一倍,價格低一倍。當然現在中國是被美國限制了芯片。

    《晚點》:你一開始就在調研企業客戶,為什么不考慮做 2C?

    周明:2C 可能成就偉大公司,2B 節奏慢,但是更務實。有 2C 志向的人,大概看不上 2B 志向的人。

    但大模型 2C 在中國很難,我私下以為,可能是一條不歸路。首先現在好多人沒明白 C 和 B 的區別,他覺得我把 ChatGPT 抄出來,將來兩條路全可以做。

    實際上 2C 更需要 AGI,要把各種功能放在一個通用引擎上,不能翻譯一個 App,寫作一個 App,一堆 App。這就要把兩類能力——聽懂人話,即語言理解的基礎能力,和做事,即解決各種任務的能力——放在一個模型里。相應地,模型參數規模必須大。ChatGPT 參數量已到了 1750 億,未來還會更大。做 2C ,未來就是一個不斷增加參數規模、數據量和機器的軍備競賽,可能一直被 OpenAI 壓著走。

    第二,國內 2C 很難直接找用戶收到錢,而且監管比較嚴。

    其實還有第三條路,就是 2B2C,類似 OpenAI 把 GPT 的能力嵌入微軟的標準產品,如 Bing 或 Office 里。這條路得有機緣,要找好合作伙伴。

    《晚點》:瀾舟現在是重點 2B,考慮 2B2C,不碰 2C?

    周明:我們也做 2C,但是是為了獲客。2B2C,我們已和一家大型通信廠商合作,去服務它的客戶。

    《晚點》:未來更追求通用性的 2C 大模型會碾壓更小的模型嗎?

    周明:在具體任務上,相對小的模型,加上更好的微調和特定領域的數據,會超越通用大模型。另外還有成本,對很多場景來說,客戶需要便宜和夠用。

    《晚點》:如果把未來通用大模型做到公有云上再 2B,就可以平攤掉小任務的成本。

    周明:央企國企的很多業務出于數據安全考量,一般不會用公有云,我認為這個形勢大概未來十年不會變。

    《晚點》:這給 2B 帶來一個問題,你們能用客戶數據幫助優化模型,形成數據飛輪嗎?

    周明:國內的行業數據飛輪效應很難建立,央國企的數據、訓練出來的模型也不是你能帶走的。當然這對所有公司都一樣,大家都在一個起跑線。

    人左右不了局勢,只能適應局勢。中國的 SaaS(軟件即服務)沒有美國普及。公有云和 SaaS 有一天可能會迸發,在這之前要積累和保留能力,等待未來的變化。

    《晚點》:變化可能來自哪兒?

    周明:在于自己先強起來,從不能做到能做,然后等待一些外部關系調整,包括看看出海可能,不停尋找新的活下來的機會。

    我出生在比較窮苦的家庭,從小各種惡劣環境都經歷過,所以不怕吃苦。我覺得事情每天都在變好。

    《晚點》:相比上一次 AI 熱潮,中國和世界的差距是拉大還是縮小了?

    周明:越來越好了。如果不是因為芯片的事,差距不會有看起來這么大。

    《晚點》:這次創業之初,你曾和人說希望做世界上最好的 NLP 公司。這受很多因素左右。

    周明:一個人怎么把天時地利用好,才是他的核心競爭力。

    《晚點》:如果最終這個愿望沒實現,是一個怎樣的遺憾?

    周明:這就像機器學習,它需要正反饋,也需要負反饋,最終神經網絡才會越來越強。當你抱著一顆學習之心,人生的經歷,不管成功、失敗,所有人和所有事,都是你的學習,你的訓練語料。

    關鍵詞:

    上一篇:全球快播:黑洞“全景”照誕生:陰影和強大噴流首次合影,“甜甜圈”看著更大
    下一篇:最后一頁

    亚洲精品自在在线观看| 国产成人亚洲综合无| 鲁死你资源站亚洲av| 亚洲色丰满少妇高潮18p| 亚洲午夜国产精品无卡| 亚洲成人在线免费观看| 亚洲美女人黄网成人女| 中文字幕在线观看亚洲| 亚洲精品电影天堂网| 久久久久亚洲AV无码专区首JN| 亚洲黄色网站视频| 亚洲综合视频在线观看| 亚洲成人午夜电影| 亚洲欧洲自拍拍偷综合| 亚洲国产成人九九综合| 国产色在线|亚洲| 亚洲人成色99999在线观看| 亚洲欧美日本韩国| 亚洲aⅴ无码专区在线观看春色| 亚洲色无码国产精品网站可下载| 亚洲男人天堂2018av| 亚洲日韩国产一区二区三区在线 | 国产亚洲精品91| 全亚洲最新黄色特级网站 | 亚洲色欲色欲www| 国产婷婷综合丁香亚洲欧洲| 亚洲午夜精品久久久久久app| 亚洲日韩亚洲另类激情文学| 亚洲成av人片在线天堂无| 亚洲熟女乱色一区二区三区| 中文字幕 亚洲 有码 在线 | 亚洲精品线路一在线观看| 中文字幕亚洲一区| 久久亚洲精品成人777大小说| 久久久久亚洲av无码专区| 亚洲乱码在线视频| 亚洲暴爽av人人爽日日碰| 国产亚洲漂亮白嫩美女在线| 久久久久亚洲AV无码专区桃色| 亚洲精品无码专区在线在线播放| 亚洲va在线va天堂va不卡下载 |