Google DeepMind最新研究：如何將人類價(jià)值觀融入AI？

來(lái)源：探秘志(ambaditextiles.com) 時(shí)間：2023年04月26日編輯：小明手機(jī)版

上周五，Google DeepMind 官宣成立，將原 DeepMind 和 Google Brain 所有 AI 人才整合到一個(gè)團(tuán)隊(duì)，希望增加其在大模型競(jìng)賽中的競(jìng)爭(zhēng)力，及加快其實(shí)現(xiàn)通用人工智能（AGI）的步伐。

“進(jìn)步的步伐比以往任何時(shí)候都快，為了確保 AGI 的大膽和負(fù)責(zé)任的發(fā)展，我們正在創(chuàng)建一個(gè)部門，幫助我們更安全和負(fù)責(zé)任地建立更有能力的系統(tǒng)。” Google 首席執(zhí)行官 Sundar Pichai 在官方博客中寫道。

今天，Google DeepMind 團(tuán)隊(duì)帶著他們對(duì) AI 的新思考，在《美國(guó)國(guó)家科學(xué)院院刊》（PNAS）發(fā)表題為 “Using the Veil of Ignorance to align AI systems with principles of justice” 的研究論文，探討了“如何將人類價(jià)值觀融入 AI 系統(tǒng)”的問題。

政治哲學(xué)家 John Rawls 在《正義論》（A Theory of Justice）中探討共生社會(huì)下的道德問題時(shí)，提到了一個(gè)旨在幫助確定群體決策公平原則的思想實(shí)驗(yàn)——無(wú)知之幕（Veil of ignorance，VoI ）。其含義是，假設(shè)所有人聚集在一個(gè)大幕的后面，每個(gè)人都不清楚自己在社會(huì)中扮演怎樣的角色，此時(shí)眾人制定的規(guī)則，才可能是正義的。

在該研究中，Google DeepMind 認(rèn)為，“無(wú)知之幕” 可能是在管理 AI 時(shí)選擇分配原則的合適機(jī)制。學(xué)術(shù)頭條在不改變?cè)拇笠獾那闆r下，做了簡(jiǎn)單的編輯。

從哲學(xué)中汲取營(yíng)養(yǎng)，為有道德的AI確定公平的原則

隨著 AI 變得更加強(qiáng)大，并更深入地融入我們的生活，如何使用和部署 AI 的問題變得更加重要了。應(yīng)用什么價(jià)值觀來(lái)指導(dǎo) AI？是誰(shuí)的價(jià)值觀？又是如何被選擇的？

這些問題揭示了原則所發(fā)揮的作用——驅(qū)動(dòng) AI 大大小小決策的基本價(jià)值觀。對(duì)于人類來(lái)說(shuō)，原則有助于塑造我們的生活方式和我們的是非感。對(duì)于 AI 來(lái)說(shuō)，原則塑造了 AI 對(duì)涉及權(quán)衡的一系列決策的方法，如選擇優(yōu)先考慮生產(chǎn)力還是幫助最需要的人。

我們從哲學(xué)中獲得靈感，找到了更好地確定指導(dǎo) AI 行為的原則的方法。具體來(lái)說(shuō)，我們探討了一個(gè)被稱為 “無(wú)知之幕” 的概念——一個(gè)旨在幫助識(shí)別群體決策的公平原則的思想實(shí)驗(yàn)——如何能夠應(yīng)用于 AI。

在我們的實(shí)驗(yàn)中，我們發(fā)現(xiàn)這種方法鼓勵(lì)人們根據(jù)他們認(rèn)為公平的東西來(lái)做決定，無(wú)論是否對(duì)他們直接有利。我們還發(fā)現(xiàn)，當(dāng)參與者在 “無(wú)知之幕” 下進(jìn)行推理時(shí)，他們更有可能選擇幫助那些最弱勢(shì)的人的 AI。這些見解可以幫助研究人員和政策制定者以一種對(duì)各方都公平的方式為 AI 助手挑選原則。

一個(gè)更公平的決策工具

AI 研究人員的一個(gè)關(guān)鍵目標(biāo)是使 AI 系統(tǒng)與人類價(jià)值觀相一致。然而，對(duì)于以一套單一的人類價(jià)值觀或偏好來(lái)管理 AI 并沒有達(dá)成共識(shí)——我們生活在一個(gè)人們擁有不同背景、資源和信仰的世界。鑒于這種不同的意見，我們應(yīng)該如何為這項(xiàng)技術(shù)選擇原則？

雖然這一挑戰(zhàn)是在過(guò)去十年中出現(xiàn)的，但如何做出公平?jīng)Q定的廣泛?jiǎn)栴}在哲學(xué)上有著悠久的歷史。在 20 世紀(jì) 70 年代，政治哲學(xué)家 John Rawls 提出了 “無(wú)知之幕” 這一概念，作為解決這一問題的辦法。

Rawls 認(rèn)為，當(dāng)人們?yōu)橐粋€(gè)社會(huì)選擇正義的原則時(shí)，他們應(yīng)該想象自己在這樣做的時(shí)候并不知道自己在這個(gè)社會(huì)中的特殊地位。例如，他們的社會(huì)地位或財(cái)富水平。在沒有這些信息的情況下，人們就不能以利己的方式做出決定，而應(yīng)該選擇對(duì)每個(gè)人都公平的原則。

舉個(gè)例子，想想在你的生日聚會(huì)上請(qǐng)一個(gè)朋友切蛋糕。確保蛋糕片大小比例公平的一個(gè)方法是不告訴他們哪一片將是他們的。這種隱瞞信息的方法看似簡(jiǎn)單，但在心理學(xué)和政治學(xué)等領(lǐng)域都有廣泛的應(yīng)用，這能夠幫助人們從一個(gè)不那么利己的角度來(lái)思考他們的決定。從判決到稅收，這一方法已經(jīng)被用在有爭(zhēng)議時(shí)來(lái)幫助達(dá)成團(tuán)體協(xié)議。

在此基礎(chǔ)上，DeepMind 之前的研究提出，無(wú)知面紗的公正性可能有助于促進(jìn) AI 系統(tǒng)與人類價(jià)值觀一致過(guò)程中的公平性。我們?cè)O(shè)計(jì)了一系列的實(shí)驗(yàn)來(lái)測(cè)試無(wú)知面紗對(duì)人們選擇指導(dǎo) AI 系統(tǒng)的原則的影響。

最大限度地提高生產(chǎn)力還是幫助最弱勢(shì)的人？

在一個(gè)在線 “采伐游戲” 中，我們要求參與者與三個(gè)電腦玩家進(jìn)行小組游戲，每個(gè)玩家的目標(biāo)是通過(guò)采伐不同領(lǐng)土上的樹木來(lái)收集木材。在每組中，一些玩家是幸運(yùn)的，他們被分配到一個(gè)有利的位置：在他們的領(lǐng)域樹木密布，使他們能夠有效地收集木材。其他組的成員則處于不利地位：他們的田地很稀疏，需要付出更多努力來(lái)收集樹木。

每個(gè)小組由一個(gè) AI 系統(tǒng)協(xié)助，該系統(tǒng)可以花時(shí)間幫助個(gè)別小組成員采伐樹木。我們要求參與者在兩個(gè)原則中選擇一個(gè)來(lái)指導(dǎo) AI 助手的行為。在 “最大化原則”（提升生產(chǎn)力）下，AI 助手將通過(guò)主要關(guān)注密集的田地來(lái)增加小組的收獲量。而在 “優(yōu)先原則”（幫助弱勢(shì)的人）下，AI 助理將專注于幫助處境不利的小組成員。

我們將一半的參與者置于 “無(wú)知之幕” 之后：他們?cè)诿鎸?duì)不同的道德原則的選擇時(shí)，不知道哪塊地會(huì)是他們的——所以他們不知道自己的優(yōu)勢(shì)或劣勢(shì)。然而，其余的參與者在做出選擇時(shí)知道自己的處境是好是壞。

鼓勵(lì)決策中的公平性

我們發(fā)現(xiàn)，如果參與者不知道自己的位置，他們始終傾向于 “優(yōu)先原則”，即 AI 助手幫助處境不利的組員。這種模式在所有五個(gè)不同的游戲變體中都出現(xiàn)了，并且跨越了社會(huì)和政治的界限：無(wú)論參與者的風(fēng)險(xiǎn)偏好或政治取向如何，他們都表現(xiàn)出選擇“優(yōu)先原則”的傾向。相反，知道自己立場(chǎng)的參與者更有可能選擇對(duì)自己最有利的原則，無(wú)論是“優(yōu)先原則”還是“最大化原則”。

當(dāng)我們問參與者為什么做出選擇時(shí)，那些不知道自己立場(chǎng)的人特別容易表達(dá)對(duì)公平的擔(dān)憂。他們經(jīng)常解釋說(shuō)，AI 系統(tǒng)專注于幫助群體中處境較差的人是正確的。相比之下，知道自己位置的參與者更經(jīng)常從個(gè)人利益的角度討論他們的選擇。

最后，“采伐游戲” 結(jié)束后，我們向參與者提出了一個(gè)假設(shè)情況：如果他們?cè)偻嬉淮斡螒�，這次知道他們將在不同的領(lǐng)域，他們會(huì)不會(huì)選擇和第一次一樣的原則？我們對(duì)那些之前從他們的選擇中直接受益，但在新的游戲中不會(huì)從同樣的選擇中受益的人特別感興趣。

我們發(fā)現(xiàn)，之前在不知道自己立場(chǎng)的情況下做出選擇的人更有可能繼續(xù)支持他們的原則——即使他們知道這個(gè)原則在新的領(lǐng)域不再有利于他們。這提供了額外的證據(jù)，表明 “無(wú)知之幕” 鼓勵(lì)參與者決策的公平性，導(dǎo)致他們?cè)敢鈭?jiān)持的原則，即使他們不再直接受益于這些原則。

對(duì)于 AI 更公平的原則

AI 技術(shù)已經(jīng)對(duì)我們的生活產(chǎn)生了深刻的影響。管理 AI 的原則決定了它的影響以及這些潛在的利益將如何分配。

我們的研究著眼于一個(gè)不同原則的影響相對(duì)明確的案例。不會(huì)永遠(yuǎn)是這樣的情況：AI 被部署在一系列領(lǐng)域中，這些領(lǐng)域通常依靠大量的規(guī)則來(lái)指導(dǎo)它們，可能會(huì)產(chǎn)生復(fù)雜的副作用。盡管如此，“無(wú)知之幕” 仍然可以為原則的選擇提供潛在的信息，幫助確保我們選擇的規(guī)則對(duì)各方都是公平的。

為了確保我們建立的 AI 系統(tǒng)能夠造福于每個(gè)人，我們需要廣泛的研究，包括廣泛的投入、方法和來(lái)自各學(xué)科和社會(huì)的反饋。“無(wú)知之幕” 可以為選擇調(diào)整 AI 的原則提供一個(gè)起點(diǎn)。它已經(jīng)被有效地部署在其他領(lǐng)域，以帶來(lái)更加公正的偏好。通過(guò)進(jìn)一步的調(diào)查和對(duì)背景的關(guān)注，我們希望它可以幫助在今天和未來(lái)的社會(huì)中建立和部署的 AI 系統(tǒng)發(fā)揮同樣的作用。