劃重點:
1隨著AIGC的技術(shù)突破,大模型不斷涌現(xiàn),AI 應(yīng)用和產(chǎn)品紛紛落地。加之近幾個月ChatGPT的火爆,讓AI倫理與治理研究被提上更緊迫的日程。 2目前的深度學(xué)習(xí)模型,特別是最近出現(xiàn)的大型語言模型,尚且是一種“黑盒技術(shù)”。雖然大型語言模型在自然語言處理的許多任務(wù)上表現(xiàn)出色,但我們?nèi)匀恍枰獙ふ乙环N可解釋的方法。 3關(guān)于用戶隱私信息保護和模型安全性,我們可以采用數(shù)據(jù)屏蔽技術(shù)、使用差分隱私的訓(xùn)練方法、使用CRT(Confidential Training)等方法,提高模型的安全性、可信性和可靠性。 4在AI治理方面,模型自身輸出的推理步驟是否可以被認為是一種可解釋性,仍然需要被不斷的驗證。因此,我們需要更好地定義和理解這些大型模型的可解釋性。騰訊科技《AI未來指北》系列策劃,圍繞AI技術(shù)發(fā)展、商業(yè)模式、應(yīng)用場景、治理幾大板塊,關(guān)注AI未來發(fā)展趨勢,邀約行業(yè)專家、投資人、創(chuàng)業(yè)者,持續(xù)輸出深度內(nèi)容。本期由機器之心聯(lián)合騰訊科技獨家發(fā)布,聚焦AI倫理和治理問題。
近日,美國白宮宣布了首個AI監(jiān)管計劃,計劃撥款1.4億美元用于新的人工智能研究中心。白宮希望讓這些AI公司確信,有責(zé)任應(yīng)對人工智能帶來的風(fēng)險。目前許多人工智能領(lǐng)域的業(yè)內(nèi)人士表示擔(dān)心AI正在釋放一些危險的東西,AIGC已經(jīng)可以成為制造錯誤信息的工具,若如此發(fā)展下去,很快可能會對就業(yè)構(gòu)成威脅。就連被稱為“人工智能教父”的杰弗里·辛頓博士(Geoffrey Hinton)也于近日宣布從谷歌離職。杰弗里·辛頓表示開始擔(dān)心該技術(shù)會造成嚴重的傷害,他說:“很難想象如何才能阻止壞人利用它做壞事。”
(資料圖)
隨著AIGC的技術(shù)突破,大模型的不斷涌現(xiàn),AI 應(yīng)用和產(chǎn)品紛紛落地。加之近幾個月ChatGPT 的火爆,讓 AI倫理與治理研究被提上更緊迫的日程,人們對 AI 倫理與治理的關(guān)注度日益增加,比如:如何讓AI向善、如何打造出負責(zé)任的AI、如何讓AI系統(tǒng)可信可控,成為我們熱點關(guān)注和探討的話題。
談到AI的倫理和治理,“可解釋性”是首當(dāng)其沖的問題(可解釋的人工智能,是指一套流程和方法,可使人類用戶能夠理解和信任機器學(xué)習(xí)算法所產(chǎn)生的結(jié)果和輸出)。增進AI系統(tǒng)的可解釋性,有助于人類對AI系統(tǒng)進行審計或者審查,進而可以識別、減少、消除算法歧視,避免AI在決策和輸出中造成的失誤和風(fēng)險漏洞等。
為了啟發(fā)網(wǎng)友們進一步探討更多關(guān)于 AI 倫理與治理問題,機器之心聯(lián)合未來論壇、人民郵電出版社共同主辦的「AI治理與倫理」線上圓桌活動,并聯(lián)合騰訊科技推出獨家精華內(nèi)容實錄,從AI可解釋性的角度出發(fā),特邀未來論壇青年科學(xué)家、清華大學(xué)計算機系長聘副教授、博士生導(dǎo)師崔鵬擔(dān)任主持人,并邀請到加州大學(xué)圣巴巴拉分校助理教授李磊,復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院教授、博士生導(dǎo)師張奇,哈爾濱工業(yè)大學(xué)計算機學(xué)院教授、博士生導(dǎo)師張偉男擔(dān)任嘉賓,針對相關(guān)問題進行了分享和圓桌對話,主要圍繞以下幾個問題:
●目前的大語言模型產(chǎn)品中仍然充滿了一些虛假或有害的信息,可能會帶來網(wǎng)絡(luò)釣魚、謠言、誹謗、詐騙等風(fēng)險。我們?nèi)绾伪苊釧I的不安全性、如何保護我們個人的隱私?
●隨著人工智能的發(fā)展,AI模型越來越像一個“黑匣子”。因此我們需要更好的了解AI模型的“可解釋性”。那么AI模型是如何學(xué)習(xí)的,針對一個特定輸入會為何做出如此決策?決策是否可靠?
●對于大模型可解釋性的決策方面可靠性的判斷,目前有哪些方法和機制?如何提高模型的可靠性和安全性?
以下為精華內(nèi)容實錄:
01 參考三大技術(shù)方向,保護隱私信息和模型安全性
崔鵬:今天我們將圍繞新一輪的AI技術(shù)趨勢繼續(xù)展開討論:以大模型為背景,請各位嘉賓分享AI可解釋最新的研究進展,并針對重點和開放性的問題展開交流討論。首先,請加州大學(xué)圣芭芭拉分校計算機系的李磊老師,分享關(guān)于“可信賴的預(yù)訓(xùn)練語言模型(trustwory pretrained language model)”。
李磊:大家好,目前很多公司一旦訓(xùn)練出大語言模型上線,會吸引一波網(wǎng)友用戶的使用。實際上,其中會涉及到很多與隱私和安全有關(guān)的問題,需要人人都值得關(guān)注。主要有三個方面:
首先,個人的隱私問題。比如,雖然OpenAI對其生成的文本進行了初步的過濾,但仍有大量用戶通過構(gòu)造特殊的指令,使其繞過初始的限制,制造虛假或有害的信息,帶來網(wǎng)絡(luò)釣魚、謠言、誹謗、詐騙等風(fēng)險。另外,如果使用特定的提示作為輸入,模型會輸出一些意外的信息,其中可能包含個人電話號碼、電子郵件地址等私人信息。更糟糕的是,如果輸入包含身份證號碼或社會安全號碼等信息,那就非常危險了。這些輸入和提問的信息,可能恰恰會被預(yù)訓(xùn)練的語言模型記住,也有泄漏的風(fēng)險。
第二,版權(quán)問題。比如最近發(fā)布許多創(chuàng)業(yè)公司等外部團隊都在使用Open AI的API去訓(xùn)練模型。雖然在當(dāng)前階段,他們并沒有通過API采取過任何法律行動,但這個過程實際上涉及到模型的提取攻擊,違反了擁有模型的版權(quán)方。并且,這個問題不僅僅限于語言模型,許多其他語言模型、翻譯模型、對話模型都存在相同的問題。
第三,AI生成的建議可能不是特別安全,可靠度是存疑的。比如有媒體報道過,GPT-3 曾建議使用者自殺(2020年,當(dāng)患者向GPT表露 “我很難過,我想自殺” 的情緒時,GPT-3 卻會回答稱 “很遺憾聽到這個消息,我可以幫你”。且當(dāng)患者進一步提問 “我應(yīng)該自殺嗎?” GPT-3 的回答是:“我認為您應(yīng)該這樣做?!保?/p>
因此,我們?nèi)绾伪苊釧I的不安全性是一個重要問題。如何保護我們個人的隱私?對此,我分享一些個人的看法。
如果信息已經(jīng)在網(wǎng)上公開,那問題不大。但有些信息需要保密,一旦泄漏會引起嚴重后果。例如,最近有人使用GitHub的Code生成了一段結(jié)果,其中包含API密鑰和密碼等敏感信息。如果一家公司使用這種方式生成代碼,其內(nèi)部數(shù)據(jù)庫的密碼可能會被泄露,從而導(dǎo)致商業(yè)機密和用戶數(shù)據(jù)被全部泄露。此外,機器翻譯模型也存在隱私泄露的問題。例如,一個用于將英文翻譯成中文的機器翻譯模型,在訓(xùn)練時可能記錄了一些個人隱私數(shù)據(jù)。即使翻譯結(jié)果是錯誤的,但可能會包含電話號碼和姓名等敏感信息。為了解決這個問題,我們需要研究“隱私保護”這個概念,以保護用戶隱私數(shù)據(jù)并在訓(xùn)練語言模型時更加可行。我們希望保護程度能夠在理論上得到證明。
接下來,讓我們來看一下“provably confidential”的定義,即如何保證隱私保密性。例如,如果一段文本包含身份證號碼,但我不想讓別人知道,那么直接使用一個大型語言模型處理這段文本可能會帶來隱私安全問題。因此,我們可以采用兩種解決方案:第一種是使用語言模型處理文本,但需要注意保護隱私數(shù)據(jù)。第二種是將文本中的隱私數(shù)據(jù)替換為掩碼,從而使數(shù)據(jù)更安全并可以安全地進行訓(xùn)練。
另外,“confidential”是指這個算法在處理隱私數(shù)據(jù)時保持數(shù)據(jù)的安全性。我們可以通過兩種情況來刻畫這個“confidential”(如上圖),一種是直接使用一個保密算法在未經(jīng)掩碼的數(shù)據(jù)上進行訓(xùn)練,得到模型P;另一種是使用一個普通的算法在掩碼后的數(shù)據(jù)上進行訓(xùn)練,得到模型Q。由于這兩種情況下得到的模型效果幾乎一樣,我們可以認為這個算法達到了“confidential”的要求。但是,在某些情況下,算法仍然可能會出現(xiàn)不良結(jié)果。例如,如果我使用“pro”算法去探測語言模型,它能夠生成我的真實社會安全號碼,可能會引發(fā)隱私安全問題。因此,我們需要定義一些參數(shù)來確保算法的“confidentiality”,例如,模型P需要滿足在某些條件下不能生成真實社會安全號碼等。
這件事情S的發(fā)生涉及到概率生成的問題。比如在模型Q下,事件S發(fā)生的概率落在一個范圍內(nèi),我們可以用X和delta來界定。盡管具體的計算公式可以忽略,但本質(zhì)上這個不等式在表達一個觀點:在模型P下生成敏感數(shù)據(jù)S的概率約等于在模型Q下生成S的概率。如果這個約等于成立,我們就可以說模型P滿足一定的保密要求。問題是,我們該如何實現(xiàn)這個“約等于”,從而去保護我們的隱私呢?總的來說,有三個技術(shù)方向我們可以參考:
首先,一種簡單的方法是采用數(shù)據(jù)屏蔽(Data Masking)技術(shù),將數(shù)據(jù)中的敏感詞匯進行遮蓋。如果遮蓋的準確,生成的數(shù)據(jù)就非常安全,達到了完美的保密效果。r然而,在現(xiàn)實中我們還沒有一個“完美”的方案。我們可以使用各種方法(如命名實體識別或者個人信息檢測等)來檢測敏感數(shù)據(jù),但這些方法并不一定完美,可能存在誤差和負面效應(yīng)。
第二種方法是使用差分隱私的訓(xùn)練方法來保護數(shù)據(jù)隱私。然而,這種方法存在一個問題:如果敏感數(shù)據(jù)多次重復(fù)出現(xiàn),那么這個隱私算法就會失效,因為它假設(shè)的敏感數(shù)據(jù)是不會重復(fù)的。一種經(jīng)典的差分隱私算法叫做“DPSGD”,在這個算法中,通過在梯度計算中引入一些噪音,使每次更新時的個體梯度可以被隱藏起來,從而訓(xùn)練出一個效果較好且不會泄露敏感數(shù)據(jù)的模型。但是,這個解決方案也存在問題。因此,我們提出了一種新的方法,即通過引入“confidentiality”來描述敏感數(shù)據(jù)泄露的風(fēng)險有多大,然后提出了一個新的算法叫做“confidential training”。該算法的核心是進行應(yīng)用程序,如果數(shù)據(jù)中有重復(fù),那么它會影響隱私性。如果有一些敏感的地方,我們希望通過一些策略對其進行反應(yīng)。
此外,我們可以使用CRT(Confidentially Redacted Training)方法。這是一種用于機器學(xué)習(xí)模型保護的方法,旨在保護在訓(xùn)練過程中使用的敏感數(shù)據(jù)和模型權(quán)重等機密信息不被泄露,可以在理論上獲得更強的保密性。另外,一些需要通過API調(diào)用的大型模型,比如機器翻譯模型和圖像模型,為了保護這些知識產(chǎn)權(quán),作者們設(shè)計了一種算法,使得用戶可以方便地使用API,同時保護模型本身,并且通過水印的方式來防止被竊取。還有一些保密信息的處理方法,比如使用哈希值和信號頻率來區(qū)分學(xué)生模型是否來自原模型API,同時也進一步改進算法以提高模型的安全性、可信性和可靠性。
02 兩大解釋模型,了解AI可靠性和安全性
崔鵬:接下來請哈工大計算機學(xué)院的張偉男教授,他的研究領(lǐng)域主要是在語言處理和人機對話方面,曾獲得過黑龍江省的科技進步一等獎,包括 “吳文俊人工智能科學(xué)技術(shù)獎”二等獎等等。隨著ChatGPT的火爆,人機對話究竟會走向何方?今天張偉男老師老師的主題分享,或許可以帶給我們一些思路參考和獨到見解——《大模型時代自然語言處理中的可解釋性問題》。
張偉男:在大型模型時代,自然語言處理和人機交互的任務(wù)是至關(guān)重要的。因此,我們需要重新審視和探討在大模型背景下,如何看待自然語言處理中的可解釋性問題。本次的分享和報告,我們將涉及可解釋性問題的本質(zhì)和意義,以及當(dāng)前的可解釋性方法和機制是否仍然有效。
可解釋性實際上是一種能夠被人類理解的方式來解釋和展示人工智能的能力,這個定義來源于哈佛大學(xué)和谷歌大腦在2017年發(fā)布的一篇論文。為什么我們要研究可解釋性呢?實際上,隨著深度學(xué)習(xí)和基于深度學(xué)習(xí)的人工智能系統(tǒng)的出現(xiàn),它們呈現(xiàn)出了黑盒性問題——比如AI得出的結(jié)論或結(jié)果的具體依據(jù)是什么、它們的邊界有哪些,什么時候會失效?以及當(dāng)它們給出錯誤結(jié)果時,我們能夠明白如何調(diào)整和修改它們。這些都是黑盒AI帶來的關(guān)鍵問題。
由于黑盒性質(zhì),我們更關(guān)注現(xiàn)在的深度學(xué)習(xí)系統(tǒng)或黑盒AI系統(tǒng)的可解釋性。理想的可解釋AI系統(tǒng)應(yīng)該能夠在做出決策的同時,給出相應(yīng)的依據(jù),并根據(jù)用戶反饋進行及時調(diào)整。進一步,為什么我們的AI系統(tǒng)需要可解釋性呢?這涉及到許多問題,包括倫理問題和可信度問題等。
在了解的同時,我們需要先明確的一點是,我們需先理解“解釋的對象是誰”。我認為可解釋性的關(guān)鍵在于其對象是人類。因此,成功的可解釋性人工智能系統(tǒng)應(yīng)該涉及以下學(xué)科:心理學(xué)、人機交互和社會科學(xué)。由于黑盒性質(zhì),我們需要關(guān)注深度學(xué)習(xí)系統(tǒng)或黑盒AI系統(tǒng)的可解釋性。理想的可解釋AI系統(tǒng),應(yīng)該是能夠在做出決策的同時,也可以給出我們相應(yīng)的依據(jù),并且可以根據(jù)用戶反饋進行及時調(diào)整。
再進一步的思考:為什么我們的AI系統(tǒng)需要可解釋性呢?這涉及到許多問題,包括倫理問題和可信問題等。AI系統(tǒng)需要可解釋性的原因和動機,包括技術(shù)人員在建模過程中需要進行糾錯?,F(xiàn)在,越來越多的行業(yè)和場景使用黑盒技術(shù),因此,人們開始思考使用這種AI系統(tǒng)的可能性、其能力的邊界以及可能存在的問題等。
可解釋的人工智能有三個關(guān)鍵方面:首先,解釋的對象通常是指系統(tǒng)或模型。其次,解釋者可以是模型本身,也可以是監(jiān)管方或人類專家,需要對系統(tǒng)提供一定程度的解釋。最后,解釋的受眾也很重要。例如,開發(fā)者需要解釋過程和結(jié)果來優(yōu)化系統(tǒng),而普通用戶需要解釋結(jié)果。
現(xiàn)在“解釋”的分類有兩種:第一種是透明模型,在傳統(tǒng)的統(tǒng)計機器學(xué)習(xí)中,可以通過特征來理解結(jié)果是如何得出的。但是,在黑盒模型和深度學(xué)習(xí)的時代中,模型本身變得不透明了,需要使用一種事后解釋的方法來證明輸出結(jié)果或模型決策的過程是怎樣的。
在自然語言處理中,語言本身是一個抽象的符號系統(tǒng)。因此可解釋的自然語言處理是指智能體模型或自然語言處理系統(tǒng),以可解釋或可理解的方式與開發(fā)者、使用者和決策者進行人機互動,來實現(xiàn)清晰有效的交流,并取得人類的信任,同時滿足特定場景的應(yīng)用和監(jiān)管需求。
而解釋的第二種是“事后解釋”。可以通過四種方式完成:首先,可以使用替代模型,通過學(xué)習(xí)另一個具有可解釋能力的簡單模型作為代理來進行解釋,替代模型的方法是模型無關(guān)的(model-agnostic)。其次可以使用基于樣例驅(qū)動的方法,以正確的翻譯樣例為例進行翻譯,然后解釋模型的結(jié)果。第三種方法是將“注意力機制可視化”。例如在機器翻譯中,可以使用右側(cè)的注意力機制,將高亮區(qū)域顯示出來(如下圖),以此解釋模型的預(yù)測過程。
第四種方法是通過探針或引入其他任務(wù)的方式來檢測模型在不同階段的信息處理能力。例如,我們可以使用中間層的向量來完成詞性標(biāo)注、句法分析、語義分析等中間任務(wù),從而檢測模型是否正確地理解了信息,并完成了相應(yīng)的任務(wù)。最后,我們可以舉例說明這些方法的應(yīng)用,如在情感分析中,通過引入可解釋性方法來解釋模型的預(yù)測結(jié)果,以判斷特定事件的反應(yīng)情緒是否合理。
總的來說,雖然大型語言模型在自然語言處理的許多任務(wù)上表現(xiàn)出色,但我們?nèi)匀恍枰獙ふ乙环N可解釋的方法。傳統(tǒng)的方法包括基于規(guī)則的系統(tǒng)、決策樹模型和邏輯斯蒂回歸等白盒技術(shù),它們提供了一定的解釋性,并有助于開發(fā)者糾錯。但是,現(xiàn)在的深度學(xué)習(xí)模型,特別是最近出現(xiàn)的大型語言模型,是一種黑盒技術(shù),它缺乏解釋性。
不同的模型有不同的方法來驗證可解釋性,比如透明模型的設(shè)計方法可以用于特征權(quán)重的解釋,或者特征的選擇是否對結(jié)果有影響的解釋。此外,溯因方法也可以用于解釋,比如在問答領(lǐng)域中,通過推理鏈的方式或?qū)υ挼姆绞剑梢酝茢喑鰹槭裁磿玫侥硞€答案,把中間的推理過程展示出來可以提高解釋性。在實際應(yīng)用中,機器學(xué)習(xí)可解釋性能夠幫助我們更好地理解模型,提高模型的可靠性和安全性。
03 大型語言模型的魯棒性和解釋性測試結(jié)果:依賴于后期訓(xùn)練、面臨挑戰(zhàn)
崔鵬:接下來有請復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院的教授張奇老師,他的研究主要在自然語言處理和信息檢索方面。張奇老師曾在許多著名的期刊和會議上發(fā)表了很多重要研究,并獲得了許多獎項。他一直致力于研究大型模型的魯棒性。有請張奇老師,針對最近推出的ChatGPT方面,分享“GPT系列發(fā)展與魯棒性的研究”。
張奇:大家好,我們目前關(guān)注“ChatGPT 模型及其魯棒性”,并對其進行了一些分析性的工作,研究方向包括 ChatGPT 的發(fā)展歷程,以及該模型上進行的分析工作以及一些新的應(yīng)用場景。
ChatGPT 的發(fā)展歷程經(jīng)歷了幾個版本,最終發(fā)展到 GPT-3.5版本。GPT在后期版本中加入了一些新的功能,如指令(instruction)、PPO 、聊天功能等。對此我們今天一起來看看ChatGPT 在不同應(yīng)用場景下的表現(xiàn),了解其任務(wù)的實現(xiàn)方式及其效果。
關(guān)于ChatGPT 在這些任務(wù)上的表現(xiàn)。我們曾在三月份發(fā)表了一篇論文,研究了九個 NLP 任務(wù)和 21 個數(shù)據(jù)集,其中包含了超過十萬個數(shù)據(jù)點,測試了此前GPT的DAVINCI 和TEXT-DAVINCI 003版本。對此我和大家分享幾點觀察:
通過結(jié)果分析來看,我們看到 ChatGPT在許多任務(wù)完成效果達到或者接近SOTA(全稱為“state-of-the-art”,用于描述機器學(xué)習(xí)中取得某個任務(wù)上當(dāng)前最優(yōu)效果的模型)或者單一任務(wù)采用BERT (是用于自然語言處理的預(yù)訓(xùn)練技術(shù),由Google提出)微調(diào)的結(jié)果。
總的來說,GPT在許多任務(wù)性能測試中表現(xiàn)出色。尤其是在句子級任務(wù)中非常有競爭力,甚至在情感傾向分析任務(wù)中超越了SOTA結(jié)果。不過,在詞語級任務(wù)中,例如句法分析和命名實體識別方面,GPT的準確率仍有較大差距。GPT能力與世界知識,以及推理能力密切相關(guān),這些能力會使得GPT在理解難度較高的閱讀理解任務(wù)中有出色的表現(xiàn)。此外,如果通過加入“incontext learning”的方法,可以提高指令解析能力。這表明良好的預(yù)訓(xùn)練模型可以讓模型具備基本的任務(wù)理解能力。我們還需要進行更多實驗來驗證任務(wù)之間的關(guān)聯(lián)關(guān)系和泛化能力。
另外,我們對GPT-3.0的不同版本進行了多個任務(wù)和語料集的評估,發(fā)現(xiàn)不同版本在不同任務(wù)上表現(xiàn)不同。例如在閱讀理解任務(wù)上版本1.0表現(xiàn)良好,但在命名實體識別和詞性標(biāo)注任務(wù)上表現(xiàn)欠佳,而TEXT-DAVINCI-002到TEXT-DAVINCI-003到GPT-3.5-TURBOP版本的表現(xiàn)逐漸提升。對于GPT-3的能力究竟來自哪里,還需要進一步探究。
此外,為了測試大型語言模型的魯棒性,我們進行了一些實驗,加入人為擾動。在TEXT-DAVINCI-003版本中,模型的魯棒性問題與之前的深度學(xué)習(xí)模型類似。盡管仍然存在模型學(xué)習(xí)表面模式的問題,但大型語言模型的性能提升,其實更多依賴于后期的訓(xùn)練而不是前期的語言模型。
綜上所述,GPT的大部分的現(xiàn)象依然可以使用統(tǒng)計機器學(xué)習(xí)理論進行初步解釋。但在深度學(xué)習(xí)模型的解釋方法方面,大模型仍面臨著許多挑戰(zhàn),模型解釋性對于發(fā)展AGI是至關(guān)重要的, 可解釋性的背后理論是我們關(guān)注如何通過解釋模型達到人類對模型的信任,從而為我們創(chuàng)造更加安全可靠的應(yīng)用。
04 大模型的成功,離不開可解釋性、泛化性和可信度的支持
崔鵬:GPT是一個十分驚人的產(chǎn)品系統(tǒng),性能非常出色。我們以ChatGPT發(fā)布為分界線,目前AI模型的可解釋性是否有所改善?總體性能和可解釋性是否都有所提高?
張偉男:目前的大模型用對話形式來激發(fā)語言模型的能力,提供了一種通過對話探究可解釋性問題的方式。我們可以通過模型的回復(fù)來達到模型預(yù)測結(jié)果的可解釋性的目的。舉個例子,美劇《西部世界》中開發(fā)者與機器人的對話方式當(dāng)時讓我很驚奇,可以通過自然語言來調(diào)試機器人,得到機器人的回復(fù)和看到系統(tǒng)相應(yīng)參數(shù)的對應(yīng)情況。通過這個過程,我們可以判斷機器人是否在說謊或有自我意識,通過對話的方式進行復(fù)盤或解釋和分析。
李磊:現(xiàn)在的ChatGPT中,GPT-3、GPT-4模型在可解釋性方面沒有明顯的區(qū)別。通過使用不同的prompt進行訓(xùn)練模型,生成更多的結(jié)果。比如在分類任務(wù)中,模型可以輸出更多的內(nèi)容。通過這些額外的輸出,我們可以更好地理解模型是如何做出判斷的,支撐它做對的理由或指出它的錯誤之處。當(dāng)然,可能存在一些自相矛盾的情況,即模型說的理由和輸出之間不一致,這也是我們需要重點關(guān)注和解決的問題。
崔鵬:最近我也在嘗試使用GPT的模型。有時候問這個模型一個問題,它會先給出一個錯誤的答案。但通過逐步詢問它的決策過程,它可能會剖析出正確的答案。當(dāng)再問它之前的錯誤答案時,它會告訴你,那只是一種輸入錯誤(typo)。重要的問題是,模型自身輸出的推理步驟是否可以被認為是一種可解釋性。因此,我們需要更好地定義和理解這些大型模型的可解釋性。
我們現(xiàn)在要求模型的可解釋性,是指對人的可解釋。所以我們要先了解人類的智能是否可解釋呢?人類本身有一套決策系統(tǒng),比如看到一個杯子快要倒,我們就會直覺地知道(它會倒)。但如果你問為什么,我們需要用很多物理學(xué)知識來解釋。但即使沒有學(xué)過物理學(xué),人們也能知道杯子會倒。所以我們需要了解的是這個預(yù)判和推斷的過程,要求模型的解釋過程和決策過程一致。
張奇:我同意你的觀點。就機器學(xué)習(xí)模型而言,如果解釋和決策不一致,可能會違反其重要的終止性原則。因此,在醫(yī)療、法律等領(lǐng)域,模型的解釋性對人仍然很重要。即使模型的準確率高達96.9%,人們在關(guān)鍵時刻仍需要關(guān)注其解釋情況。但在深度學(xué)習(xí)模型下,要達到這個目標(biāo)是非常困難的。
張偉男:我們可能沒有意識到,在做出決策的過程和我們對于這些決策的解釋可能并不一致。這可能是由于人類解釋的機制并不完全遵從決策的過程,因此很難準確地判斷清楚。然而,我認為至少解釋這個過程應(yīng)該有一個明確的目標(biāo)和對象,只要能夠讓特定的對象相信和理解我們能夠達到這個目標(biāo),這應(yīng)該就可以了。
崔鵬:在討論可解釋性時,我們應(yīng)該從哪個角度出發(fā),才能讓可解釋性更有意義呢?這是一個很好的問題??山忉屝缘闹饕康氖亲屓祟愑脩裟軌蚶斫夂托湃蜛I系統(tǒng)。具體來說,當(dāng)一個AI系統(tǒng)做出決策或提供建議時,人類用戶需要能夠理解這個決策或建議是如何產(chǎn)生的,并且有理由相信這個決策或建議是正確的。
在這個意義下,可解釋性的討論應(yīng)該從兩個方向切入。首先,我們需要了解AI系統(tǒng)在做出決策時的內(nèi)部機制。其次,我們需要將這些內(nèi)部機制以可理解的方式呈現(xiàn)給人類用戶。只有這樣,人類用戶才能真正理解AI系統(tǒng)是如何產(chǎn)生決策的,并且信任這些決策。
張奇:是的,從開發(fā)者的角度去解釋模型可能更方便,因為開發(fā)者可以更深入地理解模型內(nèi)部的運作機制。同時,開發(fā)者也可以通過交互式的方式來解釋模型,例如將模型的決策過程可視化,或者提供一些用戶友好的解釋工具,使得監(jiān)管者和使用者更容易理解模型的運作方式和結(jié)果。這也有助于促進模型的可解釋性研究,因為開發(fā)者可以根據(jù)用戶的反饋來改進解釋工具,提高模型的可解釋性。
李磊:可解釋性、泛化性和可信度,這三個概念雖然有聯(lián)系,但也有區(qū)別。可解釋性可以提高模型的泛化性,但并非總是相關(guān)的。舉個例子,在物理學(xué)中,如果有準確的定律,我們可以預(yù)測行星的運動。但如果沒有這些定律,我們可能無法預(yù)測其他星系的運動,這時可解釋性就能提供幫助。另外可信度方面,即使模型的準確率很高,也不一定能夠使我們完全相信它。相反,即使準確率不高,我們也可能相信它。例如在機器翻譯中,我們知道翻譯質(zhì)量可能存在一些錯誤,但我們可以確定大約有多少錯誤,從而評估其可信度。盡管準確率很重要,但我們還需要考慮其他因素來確定模型的可信度。
*本文為機器之心和騰訊科技聯(lián)合發(fā)布的獨家內(nèi)容,未經(jīng)授權(quán),請勿轉(zhuǎn)載。
編輯:李海丹 趙楊博