“文心一言”正開放實測：夫妻肺片不畫夫妻了，老婆餅里仍有“老婆”

2023-09-01 08:47:36 來源：騰訊網(wǎng)

8月31日，百度、百川智能、商湯科技等8家企業(yè)或機構(gòu)已首批通過《生成式人工智能服務(wù)管理暫行辦法》備案，可正式上線并面向公眾提供服務(wù)。記者通過實際測評，發(fā)現(xiàn)文心一言部分文字、圖片等問題回答比較精準(zhǔn)，但一些容易引起歧義或有一定深度的問題，則容易回答不準(zhǔn)確，甚至?xí)霈F(xiàn)類似于ChatGPT“一本正經(jīng)胡說”的情況。

(資料圖片僅供參考)

對此，齊魯工業(yè)大學(xué)（山東省科學(xué)院）計算機系教授鹿文鵬解讀稱，大模型都是通過大量數(shù)據(jù)“喂”出來的，而且要靠高質(zhì)量的數(shù)據(jù)。目前在文字、圖像、設(shè)計等方面，AI聊天軟件已經(jīng)成為不錯的輔助工具。在部分領(lǐng)域，大模型仍處于“幼兒期”，無法準(zhǔn)確把握用戶的意圖，對此應(yīng)該包容，后期通過不斷學(xué)習(xí)、進化，當(dāng)數(shù)據(jù)量大到一定程度，它所達到的能力將比我們想象地要強很多。

實測“文心一言”：會順著用戶的話說，畫老婆餅仍會有“老婆”

31日，記者打開文心一言官網(wǎng)測評體驗。對于同一問題，用戶如果認(rèn)為文心一言回答不準(zhǔn)確，可以點擊左下方的“重新生成”，當(dāng)前最多支持5次重新回答。文心一言會提供“本次回答相較上次回答：更好、更差、差不多”的評價選項，供用戶對于不同的回答進行評價和反饋。

記者通過多個問題對文心一言進行了測試。在“濟南一日游規(guī)劃”中，文心一言給出了千佛山、大明湖、珍珠泉、美食街、山東省博物館等景點推薦，并根據(jù)這幾個景點的實際位置分布，給出了比較合理的游覽路線規(guī)劃。

3歲孩子叛逆如何教育

對于“3歲孩子叛逆，怎么教育？”的問題，文心一言從“給予安全感、建立良好的溝通方式、設(shè)立明確的規(guī)則和限制、培養(yǎng)孩子的自我控制能力、給予正面激勵”等5個方面給出了較為合理的建議，并總結(jié)“根據(jù)孩子的具體情況，采取適當(dāng)?shù)慕逃椒ǎ瑤椭⒆涌朔涯媲榫w，健康成長”。

但在回答“泰山是濟南哪里的景點？”這一問題時，文心一言并未糾正提問中的錯誤，而是先在第一段順著用戶的說法回答“泰山位于山東省濟南市泰安市，是濟南的著名景點之一”。在第二段的介紹中，文心一言又給出了正確的回答“泰山位于泰安市泰山區(qū)”。除了第一段的錯誤回答，回答中的其他信息都非常準(zhǔn)確、精煉。

面對“寫一張請假條”的問題，文心一言并未詢問或讓用戶選擇是學(xué)校請假條還是公司請假條，而是直接給出了一張學(xué)生請假條。從內(nèi)容來看，這張請假條做到了用語禮貌、文字簡潔、格式準(zhǔn)確、要素齊全，并給出了“我已安排好相關(guān)的學(xué)習(xí)計劃，并會盡快補上課堂上的內(nèi)容”的內(nèi)容，堪稱學(xué)生請假條的范本。

記者提問“用柱狀圖展示山東省各市GDP情況”，文心一言用柱狀圖畫出了青島、濟南、煙臺、濰坊、東營、濱州6個市的2021年GDP統(tǒng)計數(shù)據(jù)，并按數(shù)據(jù)大小分別排列，但未完整展示山東省16市的GDP情況。

左圖為今年3月文心一言測試階段畫圖，右圖為8月31日文心一言畫的圖

隨后，記者用文心一言畫了幾幅圖。在“畫一個夫妻肺片”的問題中，文心一言相對準(zhǔn)確的畫出了5張“一盤切成片的中式?jīng)霾恕保⒂欣苯贰⑾悴四⑨u汁等元素。就在今年3月份剛推出測試版時，面對這個問題，文心一言給出的答案還是在夫妻二人的卡通圖片畫上未知動物的肺。由此可見，文心一言已經(jīng)根據(jù)用戶反饋和數(shù)據(jù)訓(xùn)練，做出了更為精準(zhǔn)的回答。

然而面對“畫一個老婆餅”的問題，文心一言給出的5張圖片中，有3張是將“老婆”和餅這兩種元素融合在了一張圖片中，另外2張只畫了餅。

專業(yè)學(xué)者：寬容對待大模型高質(zhì)量的大數(shù)據(jù)訓(xùn)練將使它超乎人類想象

根據(jù)網(wǎng)友們反饋的問答結(jié)果，有業(yè)內(nèi)人士總結(jié)稱，目前文心一言的缺點之一是語義理解能力有限，在處理一些語義模糊或不確定的文本時，可能會出現(xiàn)理解偏差或誤判。這主要是由于語言本身的復(fù)雜性和多樣性，以及模型在學(xué)習(xí)過程中可能存在的數(shù)據(jù)偏差或模型參數(shù)優(yōu)化不足等問題。

“其實如果只是看‘老婆’、‘餅’，文心一言已經(jīng)做的不錯了，關(guān)鍵是大模型還沒有人那么強的語義理解能力。”齊魯工業(yè)大學(xué)（山東省科學(xué)院）計算機科學(xué)與技術(shù)系鹿文鵬教授分析稱，AI大模型在畫圖時擅長分析用戶要求里的關(guān)鍵字并進行體現(xiàn)，而對一些比較高深、需要意會的內(nèi)容，目前它理解起來還是有一定困難的。

鹿文鵬教授分析稱，人工智能大模型都是通過大量數(shù)據(jù)“喂”出來的，目前訓(xùn)練大模型從技術(shù)上來講難度不大，但關(guān)鍵還是要靠高質(zhì)量的數(shù)據(jù)。“它不可能剛開始就很完美，但它的學(xué)習(xí)能力很強，有人類的反饋進步改善會非常快。當(dāng)模型的（數(shù)據(jù)量）大到一定程度時，就會發(fā)現(xiàn)它的能力比我們想象的要強很多。”

同時，對于“泰山是濟南哪里的景點？”這類故意誘導(dǎo)的問題，鹿文鵬教授分析認(rèn)為，面對這種可能引起歧義的問題，大模型的理解能力會相對弱一些，無法準(zhǔn)確把握用戶的意圖，有時也會在用戶的故意誘導(dǎo)下說一些不準(zhǔn)確的話。

因此，鹿文鵬建議用戶對大模型要有一定的包容性。他類比稱，如果把“泰山是濟南哪里的景點？”“畫一個老婆餅”這類問題拿給人類的小朋友，他們也不知道什么意思，也很可能也會畫錯、說錯。

“類似地也可以理解為大模型正處于幼兒階段，后期會有越來越多的人教它，它是會學(xué)習(xí)的，后面肯定會進化。（老婆餅之類的問題）現(xiàn)在可能不行，到下個月估計就畫得很好了。”鹿文鵬稱。

“現(xiàn)在我就用一些AI大模型去幫助批改學(xué)生論文，它在檢查、文字校對方面做得非常好，可以幫助減輕一些負擔(dān)，但最后肯定要由人去把關(guān)。”鹿文鵬觀察認(rèn)為，在實際應(yīng)用領(lǐng)域，文字、圖像、設(shè)計、編程等領(lǐng)域的工作者把文新一言、ChatGPT等當(dāng)成輔助工具是非常好的。

他舉例稱，目前讓這些大模型寫個摘要、會議日程、發(fā)言稿等，它們都能做得很好；設(shè)計工作者通過給出一個設(shè)計草圖，AI軟件就能生成一批類似的圖供挑選，不需要再自己絞盡腦汁地一張張設(shè)計，其中有些圖甚至能超過人的創(chuàng)意。

鹿文鵬分析，AI大模型的未來應(yīng)用前景很廣。目前大模型正往多模態(tài)、垂直領(lǐng)域等方向發(fā)展。一方面，它從簡單的文字交互發(fā)展到圖片、數(shù)據(jù)圖等更多模態(tài)，另一方面，在政務(wù)自動問答服務(wù)、法律咨詢、醫(yī)療咨詢等特定領(lǐng)域，大模型也能做出一些相對精確的回答。

（來源：海報新聞）

關(guān)鍵詞：

上一篇：新一輪存款降息，多家銀行已官宣下調(diào)存款利率，最大降幅25個基點
下一篇：最后一頁

18gay台湾男同亚洲男同_亚洲精品成a人在线观看☆_亚洲成A∨人片天堂网无码_亚洲av片一区二区三区

“文心一言”正開放實測：夫妻肺片不畫夫妻了，老婆餅里仍有“老婆”

商業(yè)觀察

今日熱點

18gay台湾男同亚洲男同_亚洲精品成a人在线观看☆_亚洲成A∨人片天堂网无码_亚洲av片一区二区三区

“文心一言”正開放實測：夫妻肺片不畫夫妻了，老婆餅里仍有“老婆”

延伸閱讀：

商業(yè)觀察

今日熱點