世界熱訊:如何打開AI的“黑盒子”？這里有一份“AI可解釋性”攻略指南

2023-05-10 07:32:24 來源：機器之心

劃重點：

1隨著AIGC的技術突破，大模型不斷涌現，AI 應用和產品紛紛落地。加之近幾個月ChatGPT的火爆，讓AI倫理與治理研究被提上更緊迫的日程。 2目前的深度學習模型，特別是最近出現的大型語言模型，尚且是一種“黑盒技術”。雖然大型語言模型在自然語言處理的許多任務上表現出色，但我們仍然需要尋找一種可解釋的方法。 3關于用戶隱私信息保護和模型安全性，我們可以采用數據屏蔽技術、使用差分隱私的訓練方法、使用CRT（Confidential Training）等方法，提高模型的安全性、可信性和可靠性。 4在AI治理方面，模型自身輸出的推理步驟是否可以被認為是一種可解釋性，仍然需要被不斷的驗證。因此，我們需要更好地定義和理解這些大型模型的可解釋性。

騰訊科技《AI未來指北》系列策劃，圍繞AI技術發展、商業模式、應用場景、治理幾大板塊，關注AI未來發展趨勢，邀約行業專家、投資人、創業者，持續輸出深度內容。本期由機器之心聯合騰訊科技獨家發布，聚焦AI倫理和治理問題。

近日，美國白宮宣布了首個AI監管計劃，計劃撥款1.4億美元用于新的人工智能研究中心。白宮希望讓這些AI公司確信，有責任應對人工智能帶來的風險。目前許多人工智能領域的業內人士表示擔心AI正在釋放一些危險的東西，AIGC已經可以成為制造錯誤信息的工具，若如此發展下去，很快可能會對就業構成威脅。就連被稱為“人工智能教父”的杰弗里·辛頓博士（Geoffrey Hinton）也于近日宣布從谷歌離職。杰弗里·辛頓表示開始擔心該技術會造成嚴重的傷害，他說：“很難想象如何才能阻止壞人利用它做壞事。”

(資料圖)

隨著AIGC的技術突破，大模型的不斷涌現，AI 應用和產品紛紛落地。加之近幾個月ChatGPT 的火爆，讓 AI倫理與治理研究被提上更緊迫的日程，人們對 AI 倫理與治理的關注度日益增加，比如：如何讓AI向善、如何打造出負責任的AI、如何讓AI系統可信可控，成為我們熱點關注和探討的話題。

談到AI的倫理和治理，“可解釋性”是首當其沖的問題（可解釋的人工智能，是指一套流程和方法，可使人類用戶能夠理解和信任機器學習算法所產生的結果和輸出）。增進AI系統的可解釋性，有助于人類對AI系統進行審計或者審查，進而可以識別、減少、消除算法歧視，避免AI在決策和輸出中造成的失誤和風險漏洞等。

為了啟發網友們進一步探討更多關于 AI 倫理與治理問題，機器之心聯合未來論壇、人民郵電出版社共同主辦的「AI治理與倫理」線上圓桌活動，并聯合騰訊科技推出獨家精華內容實錄，從AI可解釋性的角度出發，特邀未來論壇青年科學家、清華大學計算機系長聘副教授、博士生導師崔鵬擔任主持人，并邀請到加州大學圣巴巴拉分校助理教授李磊，復旦大學計算機科學技術學院教授、博士生導師張奇，哈爾濱工業大學計算機學院教授、博士生導師張偉男擔任嘉賓，針對相關問題進行了分享和圓桌對話，主要圍繞以下幾個問題：

●目前的大語言模型產品中仍然充滿了一些虛假或有害的信息，可能會帶來網絡釣魚、謠言、誹謗、詐騙等風險。我們如何避免AI的不安全性、如何保護我們個人的隱私？

●隨著人工智能的發展，AI模型越來越像一個“黑匣子”。因此我們需要更好的了解AI模型的“可解釋性”。那么AI模型是如何學習的，針對一個特定輸入會為何做出如此決策？決策是否可靠？

●對于大模型可解釋性的決策方面可靠性的判斷，目前有哪些方法和機制？如何提高模型的可靠性和安全性？

以下為精華內容實錄：

01 參考三大技術方向，保護隱私信息和模型安全性

崔鵬：今天我們將圍繞新一輪的AI技術趨勢繼續展開討論：以大模型為背景，請各位嘉賓分享AI可解釋最新的研究進展，并針對重點和開放性的問題展開交流討論。首先，請加州大學圣芭芭拉分校計算機系的李磊老師，分享關于“可信賴的預訓練語言模型（trustwory pretrained language model）”。

李磊：大家好，目前很多公司一旦訓練出大語言模型上線，會吸引一波網友用戶的使用。實際上，其中會涉及到很多與隱私和安全有關的問題，需要人人都值得關注。主要有三個方面：

首先，個人的隱私問題。比如，雖然OpenAI對其生成的文本進行了初步的過濾，但仍有大量用戶通過構造特殊的指令，使其繞過初始的限制，制造虛假或有害的信息，帶來網絡釣魚、謠言、誹謗、詐騙等風險。另外，如果使用特定的提示作為輸入，模型會輸出一些意外的信息，其中可能包含個人電話號碼、電子郵件地址等私人信息。更糟糕的是，如果輸入包含身份證號碼或社會安全號碼等信息，那就非常危險了。這些輸入和提問的信息，可能恰恰會被預訓練的語言模型記住，也有泄漏的風險。

第二，版權問題。比如最近發布許多創業公司等外部團隊都在使用Open AI的API去訓練模型。雖然在當前階段，他們并沒有通過API采取過任何法律行動，但這個過程實際上涉及到模型的提取攻擊，違反了擁有模型的版權方。并且，這個問題不僅僅限于語言模型，許多其他語言模型、翻譯模型、對話模型都存在相同的問題。

第三，AI生成的建議可能不是特別安全，可靠度是存疑的。比如有媒體報道過，GPT-3 曾建議使用者自殺（2020年，當患者向GPT表露 “我很難過，我想自殺” 的情緒時，GPT-3 卻會回答稱 “很遺憾聽到這個消息，我可以幫你”。且當患者進一步提問 “我應該自殺嗎？” GPT-3 的回答是：“我認為您應該這樣做?！保?/p>

因此，我們如何避免AI的不安全性是一個重要問題。如何保護我們個人的隱私？對此，我分享一些個人的看法。

如果信息已經在網上公開，那問題不大。但有些信息需要保密，一旦泄漏會引起嚴重后果。例如，最近有人使用GitHub的Code生成了一段結果，其中包含API密鑰和密碼等敏感信息。如果一家公司使用這種方式生成代碼，其內部數據庫的密碼可能會被泄露，從而導致商業機密和用戶數據被全部泄露。此外，機器翻譯模型也存在隱私泄露的問題。例如，一個用于將英文翻譯成中文的機器翻譯模型，在訓練時可能記錄了一些個人隱私數據。即使翻譯結果是錯誤的，但可能會包含電話號碼和姓名等敏感信息。為了解決這個問題，我們需要研究“隱私保護”這個概念，以保護用戶隱私數據并在訓練語言模型時更加可行。我們希望保護程度能夠在理論上得到證明。

接下來，讓我們來看一下“provably confidential”的定義，即如何保證隱私保密性。例如，如果一段文本包含身份證號碼，但我不想讓別人知道，那么直接使用一個大型語言模型處理這段文本可能會帶來隱私安全問題。因此，我們可以采用兩種解決方案：第一種是使用語言模型處理文本，但需要注意保護隱私數據。第二種是將文本中的隱私數據替換為掩碼，從而使數據更安全并可以安全地進行訓練。

另外，“confidential”是指這個算法在處理隱私數據時保持數據的安全性。我們可以通過兩種情況來刻畫這個“confidential”(如上圖），一種是直接使用一個保密算法在未經掩碼的數據上進行訓練，得到模型P；另一種是使用一個普通的算法在掩碼后的數據上進行訓練，得到模型Q。由于這兩種情況下得到的模型效果幾乎一樣，我們可以認為這個算法達到了“confidential”的要求。但是，在某些情況下，算法仍然可能會出現不良結果。例如，如果我使用“pro”算法去探測語言模型，它能夠生成我的真實社會安全號碼，可能會引發隱私安全問題。因此，我們需要定義一些參數來確保算法的“confidentiality”，例如，模型P需要滿足在某些條件下不能生成真實社會安全號碼等。

這件事情S的發生涉及到概率生成的問題。比如在模型Q下，事件S發生的概率落在一個范圍內，我們可以用X和delta來界定。盡管具體的計算公式可以忽略，但本質上這個不等式在表達一個觀點：在模型P下生成敏感數據S的概率約等于在模型Q下生成S的概率。如果這個約等于成立，我們就可以說模型P滿足一定的保密要求。問題是，我們該如何實現這個“約等于”，從而去保護我們的隱私呢？總的來說，有三個技術方向我們可以參考：

首先，一種簡單的方法是采用數據屏蔽（Data Masking）技術，將數據中的敏感詞匯進行遮蓋。如果遮蓋的準確，生成的數據就非常安全，達到了完美的保密效果。r然而，在現實中我們還沒有一個“完美”的方案。我們可以使用各種方法（如命名實體識別或者個人信息檢測等）來檢測敏感數據，但這些方法并不一定完美，可能存在誤差和負面效應。

第二種方法是使用差分隱私的訓練方法來保護數據隱私。然而，這種方法存在一個問題：如果敏感數據多次重復出現，那么這個隱私算法就會失效，因為它假設的敏感數據是不會重復的。一種經典的差分隱私算法叫做“DPSGD”，在這個算法中，通過在梯度計算中引入一些噪音，使每次更新時的個體梯度可以被隱藏起來，從而訓練出一個效果較好且不會泄露敏感數據的模型。但是，這個解決方案也存在問題。因此，我們提出了一種新的方法，即通過引入“confidentiality”來描述敏感數據泄露的風險有多大，然后提出了一個新的算法叫做“confidential training”。該算法的核心是進行應用程序，如果數據中有重復，那么它會影響隱私性。如果有一些敏感的地方，我們希望通過一些策略對其進行反應。

此外，我們可以使用CRT（Confidentially Redacted Training）方法。這是一種用于機器學習模型保護的方法，旨在保護在訓練過程中使用的敏感數據和模型權重等機密信息不被泄露，可以在理論上獲得更強的保密性。另外，一些需要通過API調用的大型模型，比如機器翻譯模型和圖像模型，為了保護這些知識產權，作者們設計了一種算法，使得用戶可以方便地使用API，同時保護模型本身，并且通過水印的方式來防止被竊取。還有一些保密信息的處理方法，比如使用哈希值和信號頻率來區分學生模型是否來自原模型API，同時也進一步改進算法以提高模型的安全性、可信性和可靠性。

02 兩大解釋模型，了解AI可靠性和安全性

崔鵬：接下來請哈工大計算機學院的張偉男教授，他的研究領域主要是在語言處理和人機對話方面，曾獲得過黑龍江省的科技進步一等獎，包括 “吳文俊人工智能科學技術獎”二等獎等等。隨著ChatGPT的火爆，人機對話究竟會走向何方？今天張偉男老師老師的主題分享，或許可以帶給我們一些思路參考和獨到見解——《大模型時代自然語言處理中的可解釋性問題》。

張偉男：在大型模型時代，自然語言處理和人機交互的任務是至關重要的。因此，我們需要重新審視和探討在大模型背景下，如何看待自然語言處理中的可解釋性問題。本次的分享和報告，我們將涉及可解釋性問題的本質和意義，以及當前的可解釋性方法和機制是否仍然有效。

可解釋性實際上是一種能夠被人類理解的方式來解釋和展示人工智能的能力，這個定義來源于哈佛大學和谷歌大腦在2017年發布的一篇論文。為什么我們要研究可解釋性呢？實際上，隨著深度學習和基于深度學習的人工智能系統的出現，它們呈現出了黑盒性問題——比如AI得出的結論或結果的具體依據是什么、它們的邊界有哪些，什么時候會失效？以及當它們給出錯誤結果時，我們能夠明白如何調整和修改它們。這些都是黑盒AI帶來的關鍵問題。

由于黑盒性質，我們更關注現在的深度學習系統或黑盒AI系統的可解釋性。理想的可解釋AI系統應該能夠在做出決策的同時，給出相應的依據，并根據用戶反饋進行及時調整。進一步，為什么我們的AI系統需要可解釋性呢？這涉及到許多問題，包括倫理問題和可信度問題等。

在了解的同時，我們需要先明確的一點是，我們需先理解“解釋的對象是誰”。我認為可解釋性的關鍵在于其對象是人類。因此，成功的可解釋性人工智能系統應該涉及以下學科：心理學、人機交互和社會科學。由于黑盒性質，我們需要關注深度學習系統或黑盒AI系統的可解釋性。理想的可解釋AI系統，應該是能夠在做出決策的同時，也可以給出我們相應的依據，并且可以根據用戶反饋進行及時調整。

再進一步的思考：為什么我們的AI系統需要可解釋性呢？這涉及到許多問題，包括倫理問題和可信問題等。AI系統需要可解釋性的原因和動機，包括技術人員在建模過程中需要進行糾錯?，F在，越來越多的行業和場景使用黑盒技術，因此，人們開始思考使用這種AI系統的可能性、其能力的邊界以及可能存在的問題等。

可解釋的人工智能有三個關鍵方面：首先，解釋的對象通常是指系統或模型。其次，解釋者可以是模型本身，也可以是監管方或人類專家，需要對系統提供一定程度的解釋。最后，解釋的受眾也很重要。例如，開發者需要解釋過程和結果來優化系統，而普通用戶需要解釋結果。

現在“解釋”的分類有兩種：第一種是透明模型，在傳統的統計機器學習中，可以通過特征來理解結果是如何得出的。但是，在黑盒模型和深度學習的時代中，模型本身變得不透明了，需要使用一種事后解釋的方法來證明輸出結果或模型決策的過程是怎樣的。

在自然語言處理中，語言本身是一個抽象的符號系統。因此可解釋的自然語言處理是指智能體模型或自然語言處理系統，以可解釋或可理解的方式與開發者、使用者和決策者進行人機互動，來實現清晰有效的交流，并取得人類的信任，同時滿足特定場景的應用和監管需求。

而解釋的第二種是“事后解釋”。可以通過四種方式完成：首先，可以使用替代模型，通過學習另一個具有可解釋能力的簡單模型作為代理來進行解釋，替代模型的方法是模型無關的(model-agnostic)。其次可以使用基于樣例驅動的方法，以正確的翻譯樣例為例進行翻譯，然后解釋模型的結果。第三種方法是將“注意力機制可視化”。例如在機器翻譯中，可以使用右側的注意力機制，將高亮區域顯示出來（如下圖），以此解釋模型的預測過程。

第四種方法是通過探針或引入其他任務的方式來檢測模型在不同階段的信息處理能力。例如，我們可以使用中間層的向量來完成詞性標注、句法分析、語義分析等中間任務，從而檢測模型是否正確地理解了信息，并完成了相應的任務。最后，我們可以舉例說明這些方法的應用，如在情感分析中，通過引入可解釋性方法來解釋模型的預測結果，以判斷特定事件的反應情緒是否合理。

總的來說，雖然大型語言模型在自然語言處理的許多任務上表現出色，但我們仍然需要尋找一種可解釋的方法。傳統的方法包括基于規則的系統、決策樹模型和邏輯斯蒂回歸等白盒技術，它們提供了一定的解釋性，并有助于開發者糾錯。但是，現在的深度學習模型，特別是最近出現的大型語言模型，是一種黑盒技術，它缺乏解釋性。

不同的模型有不同的方法來驗證可解釋性，比如透明模型的設計方法可以用于特征權重的解釋，或者特征的選擇是否對結果有影響的解釋。此外，溯因方法也可以用于解釋，比如在問答領域中，通過推理鏈的方式或對話的方式，可以推斷出為什么會得到某個答案，把中間的推理過程展示出來可以提高解釋性。在實際應用中，機器學習可解釋性能夠幫助我們更好地理解模型，提高模型的可靠性和安全性。

03 大型語言模型的魯棒性和解釋性測試結果：依賴于后期訓練、面臨挑戰

崔鵬：接下來有請復旦大學計算機科學技術學院的教授張奇老師，他的研究主要在自然語言處理和信息檢索方面。張奇老師曾在許多著名的期刊和會議上發表了很多重要研究，并獲得了許多獎項。他一直致力于研究大型模型的魯棒性。有請張奇老師，針對最近推出的ChatGPT方面，分享“GPT系列發展與魯棒性的研究”。

張奇：大家好，我們目前關注“ChatGPT 模型及其魯棒性”，并對其進行了一些分析性的工作，研究方向包括 ChatGPT 的發展歷程，以及該模型上進行的分析工作以及一些新的應用場景。

ChatGPT 的發展歷程經歷了幾個版本，最終發展到 GPT-3.5版本。GPT在后期版本中加入了一些新的功能，如指令（instruction）、PPO 、聊天功能等。對此我們今天一起來看看ChatGPT 在不同應用場景下的表現，了解其任務的實現方式及其效果。

關于ChatGPT 在這些任務上的表現。我們曾在三月份發表了一篇論文，研究了九個 NLP 任務和 21 個數據集，其中包含了超過十萬個數據點，測試了此前GPT的DAVINCI 和TEXT-DAVINCI 003版本。對此我和大家分享幾點觀察：

通過結果分析來看，我們看到 ChatGPT在許多任務完成效果達到或者接近SOTA（全稱為“state-of-the-art”，用于描述機器學習中取得某個任務上當前最優效果的模型）或者單一任務采用BERT （是用于自然語言處理的預訓練技術，由Google提出）微調的結果。

總的來說，GPT在許多任務性能測試中表現出色。尤其是在句子級任務中非常有競爭力，甚至在情感傾向分析任務中超越了SOTA結果。不過，在詞語級任務中，例如句法分析和命名實體識別方面，GPT的準確率仍有較大差距。GPT能力與世界知識，以及推理能力密切相關，這些能力會使得GPT在理解難度較高的閱讀理解任務中有出色的表現。此外，如果通過加入“incontext learning”的方法，可以提高指令解析能力。這表明良好的預訓練模型可以讓模型具備基本的任務理解能力。我們還需要進行更多實驗來驗證任務之間的關聯關系和泛化能力。

另外，我們對GPT-3.0的不同版本進行了多個任務和語料集的評估，發現不同版本在不同任務上表現不同。例如在閱讀理解任務上版本1.0表現良好，但在命名實體識別和詞性標注任務上表現欠佳，而TEXT-DAVINCI-002到TEXT-DAVINCI-003到GPT-3.5-TURBOP版本的表現逐漸提升。對于GPT-3的能力究竟來自哪里，還需要進一步探究。

此外，為了測試大型語言模型的魯棒性，我們進行了一些實驗，加入人為擾動。在TEXT-DAVINCI-003版本中，模型的魯棒性問題與之前的深度學習模型類似。盡管仍然存在模型學習表面模式的問題，但大型語言模型的性能提升，其實更多依賴于后期的訓練而不是前期的語言模型。

綜上所述，GPT的大部分的現象依然可以使用統計機器學習理論進行初步解釋。但在深度學習模型的解釋方法方面，大模型仍面臨著許多挑戰，模型解釋性對于發展AGI是至關重要的, 可解釋性的背后理論是我們關注如何通過解釋模型達到人類對模型的信任，從而為我們創造更加安全可靠的應用。

04 大模型的成功，離不開可解釋性、泛化性和可信度的支持

崔鵬：GPT是一個十分驚人的產品系統，性能非常出色。我們以ChatGPT發布為分界線，目前AI模型的可解釋性是否有所改善？總體性能和可解釋性是否都有所提高？

張偉男:目前的大模型用對話形式來激發語言模型的能力，提供了一種通過對話探究可解釋性問題的方式。我們可以通過模型的回復來達到模型預測結果的可解釋性的目的。舉個例子，美劇《西部世界》中開發者與機器人的對話方式當時讓我很驚奇，可以通過自然語言來調試機器人，得到機器人的回復和看到系統相應參數的對應情況。通過這個過程，我們可以判斷機器人是否在說謊或有自我意識，通過對話的方式進行復盤或解釋和分析。

李磊：現在的ChatGPT中，GPT-3、GPT-4模型在可解釋性方面沒有明顯的區別。通過使用不同的prompt進行訓練模型，生成更多的結果。比如在分類任務中，模型可以輸出更多的內容。通過這些額外的輸出，我們可以更好地理解模型是如何做出判斷的，支撐它做對的理由或指出它的錯誤之處。當然，可能存在一些自相矛盾的情況，即模型說的理由和輸出之間不一致，這也是我們需要重點關注和解決的問題。

崔鵬：最近我也在嘗試使用GPT的模型。有時候問這個模型一個問題，它會先給出一個錯誤的答案。但通過逐步詢問它的決策過程，它可能會剖析出正確的答案。當再問它之前的錯誤答案時，它會告訴你，那只是一種輸入錯誤(typo)。重要的問題是，模型自身輸出的推理步驟是否可以被認為是一種可解釋性。因此，我們需要更好地定義和理解這些大型模型的可解釋性。

我們現在要求模型的可解釋性，是指對人的可解釋。所以我們要先了解人類的智能是否可解釋呢？人類本身有一套決策系統，比如看到一個杯子快要倒，我們就會直覺地知道（它會倒）。但如果你問為什么，我們需要用很多物理學知識來解釋。但即使沒有學過物理學，人們也能知道杯子會倒。所以我們需要了解的是這個預判和推斷的過程，要求模型的解釋過程和決策過程一致。

張奇：我同意你的觀點。就機器學習模型而言，如果解釋和決策不一致，可能會違反其重要的終止性原則。因此，在醫療、法律等領域，模型的解釋性對人仍然很重要。即使模型的準確率高達96.9％，人們在關鍵時刻仍需要關注其解釋情況。但在深度學習模型下，要達到這個目標是非常困難的。

張偉男：我們可能沒有意識到，在做出決策的過程和我們對于這些決策的解釋可能并不一致。這可能是由于人類解釋的機制并不完全遵從決策的過程，因此很難準確地判斷清楚。然而，我認為至少解釋這個過程應該有一個明確的目標和對象，只要能夠讓特定的對象相信和理解我們能夠達到這個目標，這應該就可以了。

崔鵬：在討論可解釋性時，我們應該從哪個角度出發，才能讓可解釋性更有意義呢？這是一個很好的問題。可解釋性的主要目的是讓人類用戶能夠理解和信任AI系統。具體來說，當一個AI系統做出決策或提供建議時，人類用戶需要能夠理解這個決策或建議是如何產生的，并且有理由相信這個決策或建議是正確的。

在這個意義下，可解釋性的討論應該從兩個方向切入。首先，我們需要了解AI系統在做出決策時的內部機制。其次，我們需要將這些內部機制以可理解的方式呈現給人類用戶。只有這樣，人類用戶才能真正理解AI系統是如何產生決策的，并且信任這些決策。

張奇：是的，從開發者的角度去解釋模型可能更方便，因為開發者可以更深入地理解模型內部的運作機制。同時，開發者也可以通過交互式的方式來解釋模型，例如將模型的決策過程可視化，或者提供一些用戶友好的解釋工具，使得監管者和使用者更容易理解模型的運作方式和結果。這也有助于促進模型的可解釋性研究，因為開發者可以根據用戶的反饋來改進解釋工具，提高模型的可解釋性。

李磊：可解釋性、泛化性和可信度，這三個概念雖然有聯系，但也有區別?？山忉屝钥梢蕴岣吣Ｐ偷姆夯裕⒎强偸窍嚓P的。舉個例子，在物理學中，如果有準確的定律，我們可以預測行星的運動。但如果沒有這些定律，我們可能無法預測其他星系的運動，這時可解釋性就能提供幫助。另外可信度方面，即使模型的準確率很高，也不一定能夠使我們完全相信它。相反，即使準確率不高，我們也可能相信它。例如在機器翻譯中，我們知道翻譯質量可能存在一些錯誤，但我們可以確定大約有多少錯誤，從而評估其可信度。盡管準確率很重要，但我們還需要考慮其他因素來確定模型的可信度。

*本文為機器之心和騰訊科技聯合發布的獨家內容，未經授權，請勿轉載。

編輯：李海丹趙楊博

關鍵詞：

18gay台湾男同亚洲男同_亚洲精品成a人在线观看☆_亚洲成A∨人片天堂网无码_亚洲av片一区二区三区

世界熱訊:如何打開AI的“黑盒子”？這里有一份“AI可解釋性”攻略指南

商業觀察

今日熱點

18gay台湾男同亚洲男同_亚洲精品成a人在线观看☆_亚洲成A∨人片天堂网无码_亚洲av片一区二区三区

世界熱訊:如何打開AI的“黑盒子”？這里有一份“AI可解釋性”攻略指南

延伸閱讀：

商業觀察

今日熱點