智東西作者 陳駿達編輯 云鵬
(資料圖)
智東西9月27日報道,近日,月之暗面正在小規(guī)模灰度測試Kimi的Agent模式“OK Computer”。OK Computer的目標是通過更多輪次推理、更多工具調(diào)用、更多token消耗,帶來更多智能,月之暗面將其定義為一款“全棧助理”。
在OK Computer模式下,Kimi將擁有自己的虛擬電腦,可以連續(xù)工作幾十分鐘,一步一步自主完成需求調(diào)研、規(guī)劃、分析、設計、開發(fā)等環(huán)節(jié)。
▲OK Computer工作界面,左側為聊天框,右側為虛擬電腦(圖源:智東西)
與傳統(tǒng)依賴人工預設工作流的方式不同,OK Computer背后是月之暗面的原生Agent模型Kimi K2,能應對更多任務場景和突發(fā)情況。
借助端到端強化學習技術,Kimi K2掌握了文件系統(tǒng)、瀏覽器、終端、代碼、圖片生成、音頻生成等20多種工具的使用方式,擁有完成復雜任務所需的內(nèi)在知識。
官方Demo中,OK Computer能夠直接交付功能模塊豐富的多頁面網(wǎng)站、移動端友好的Web應用以及可編輯的高品質(zhì)演示文稿等產(chǎn)出物,也能夠把幾十萬行的Excel 數(shù)據(jù)進行可視化、交互式呈現(xiàn)。
目前,過去兩年曾經(jīng)給予Kimi打賞鼓勵的用戶,將優(yōu)先獲得OK Computer的體驗席位,這部分用戶打開網(wǎng)頁版Kimi即可收到邀請。
月之暗面稱,Agent模式下單個任務的token消耗量可達常規(guī)對話模式的幾十倍,OK Computer會根據(jù)服務器負載情況逐步擴大灰度測試范圍。智東西也對OK Computer的表現(xiàn)進行了體驗。
一、一手體驗海量數(shù)據(jù)分析能力,把英偉達投資策略捋清了
獲得OK Computer模式體驗機會的用戶,在Kimi首頁輸入框的左下角能找到OK Computer模式的切換按鈕,點擊后即可使用。
官方提供了OK Computer模式下的一些模板提示詞,如果想體驗其能力,又不愿意撰寫復雜提示詞,可以直接選用這些模板。
智東西從中選擇了一項數(shù)據(jù)可視化任務,要求Kimi從雅虎財經(jīng)獲取英偉達過去兩年的股價和財報數(shù)據(jù),并分析股價的暴漲是否主要發(fā)生在財報發(fā)布前后、比較估值(市盈率P/E)與標普500科技板塊的平均值。
此外,Kimi還需模擬在每次財報發(fā)布前一周買入,發(fā)布后一周賣出的交易策略,長期來看是否盈利。
設計風格方面,提示詞要求Kimi采用低飽和度的英偉達品牌色,保持布局簡潔和諧,僅使用純色(無漸變),并通過優(yōu)雅圖標提升清晰度。
收到任務后,Kimi會在右側呈現(xiàn)它在虛擬電腦中進行的各類操作。在開始任務之前,它一般會撰寫待辦事項,對任務流程進行全面規(guī)劃,然后再正式執(zhí)行。
開啟OK Computer模式后,Kimi會列出其進行的每一步操作,包括使用數(shù)據(jù)源、使用文件、使用iPython、使用部署工具等等。分析完成后,它還用簡潔的語言給出了關鍵發(fā)現(xiàn),并將分析圖表和結論做成了一個完整的網(wǎng)站,耗時5分鐘左右。
生成結果:
https://www.kimi.com/share/19988a15-7962-8c6a-8000-0000857b187e
可以看到,Kimi給出的網(wǎng)頁完成度較高,數(shù)據(jù)可視化清晰,跳轉邏輯正確,還提供了JSON格式的分析數(shù)據(jù)。
智東西核驗了頁面中部分關鍵數(shù)據(jù)的正確性,如英偉達市值、股價等等。在我們的抽查范圍內(nèi),數(shù)據(jù)基本無誤,不過英偉達的市盈率與雅虎財經(jīng)上顯示的數(shù)據(jù)有出入。
這一任務考察的能力類型眾多,OK Computer模式下的Kimi需要從指定來源抓取正確數(shù)據(jù)和對應時間,理解提示詞中談到的各種金融術語,還需要利用Python進行數(shù)據(jù)分析,并將結果按照風格要求可視化。如果是人工完成,可能需要耗費數(shù)小時。
我們將官方提示詞中的企業(yè)從英偉達改為AMD,切換了比較的基準,Kimi同樣能給出類似質(zhì)量的分析結果,這在某種程度上也印證了其能力不是完全靠“背題”實現(xiàn)的。
生成結果:
https://www.kimi.com/share/19988bb0-9b82-864d-8000-0000e74d03a4
不過,OK Computer并不是市面上唯一一款具備類似能力的Agent,我們也將這一任務交給了Manus。
可以看到,Manus的執(zhí)行風格更偏向直接上手做,收到任務后直接就開始查詢財經(jīng)數(shù)據(jù)的API了。Manus最終交付了一份MarkDown文檔,以及四張數(shù)據(jù)圖表。
Manus的報告內(nèi)容更為宏觀,在具體數(shù)據(jù)的呈現(xiàn)上比OK Computer更少,報告長度也更短,任務耗時比OK Computer長。數(shù)據(jù)可視化方面,其圖表的美觀程度和OK Computer相比還有一定差距。
二、擅長PPT、多功能網(wǎng)站開發(fā),多位網(wǎng)友給出好評
月之暗面介紹,OK Computer已掌握的工具集包括列待辦事項、寫Python代碼、操作終端、瀏覽網(wǎng)頁、文字搜索、圖片搜索、圖片生成、音頻生成、接入專業(yè)財經(jīng)數(shù)據(jù)源、網(wǎng)站部署等。
在該公司的內(nèi)部測試中,OK Computer目前擅長的任務類型,包括多功能網(wǎng)站原型開發(fā)、海量數(shù)據(jù)分析與可視化、高品質(zhì)演示PPT制作等。
x平臺上的一名科技博主分享,他用OK Computer打造了一個功能完備的星座網(wǎng)站。這個網(wǎng)站可以幫助用戶了解每個星座的特征,還可以比較兩個星座之間是否匹配。其設計風格也與網(wǎng)站的主題較為匹配。
▲OK Computer生成的星座網(wǎng)站(圖源:Gadgetify)
還有網(wǎng)友分享,自己用OK Computer打造了一個文檔比較網(wǎng)站,可以看到這一網(wǎng)站設計簡潔美觀,這位網(wǎng)友反饋完成率還不錯。
官方Demo中,借助OK Computer,Kimi還打造了一份對電影《2001太空漫游》視覺元素的深度解析PPT,要求僅使用電影原圖與影視和學術深度解析文章。
Kimi會先設定計劃,搜索電影原圖素材和關鍵場景的圖片,搜索電影深度解釋和學術研究資料,經(jīng)過深度研究和素材資料收集,然后才開始按照視覺規(guī)范制作PPT。
最終,Kimi可以交付一份演示文稿,既可以在線分享,也可以下載到本地。
結語:從問答機器到全棧開發(fā),大模型競逐Agent能力
月之暗面稱,未來他們會為OK Computer模式帶來更豐富的工具選項和自定義工具能力,也支持連接更多外部應用,讓Kimi可以完成更多類型的任務。
這也順應了行業(yè)內(nèi)的一大趨勢:通用大模型正從知識問答階段、生產(chǎn)力工具階段邁向通用Agent階段。未來,誰能率先在工具生態(tài)整合、長時任務執(zhí)行、可靠性和合規(guī)性上建立優(yōu)勢,誰就可能在新一輪競爭中占據(jù)先機。
