倫敦大學學院計算機系教授汪軍：決策大模型

機器之心發布

機器之心編輯部

不久之前，在機器之心舉辦的「決策智能產業應用」在線圓桌論壇上，倫敦大學學院計算機系教授汪軍發表了主題演講《決策大模型》。

機器之心對汪軍教授的演講內容進行了不改變原意的整理。

謝謝機器之心的邀請，我今天分享的題目是《決策大模型》。首先我將要介紹我們在決策智能領域做的一些研究，同時我認為大模型很重要，它代表了其在現在技術上的一個思路，不管從技術突破層面，還是實際應用層面，大模型可能給大家帶來不一樣的東西，同時大模型也有不足之處，學術界、工業界也在不斷地推進大模型發展，所以這是一個不斷發展的研究領域，最後我會點題大模型。

決策智能和預測智能是有差別的。需要強調的是在人工智慧應用領域，一開始我們是在做感知智能、預測智能，這相當於在數據裡面找規律，有了規律以後，我們希望能夠反饋到數據來改變數據，甚至能夠優化決策，對數據產生改變，然後形成閉環。

我目前在上海籌備一個名為「數字大腦研究院」的機構，這是一家以科技創新與資本聯動方式加速科技成果快速商業化的新型科研機構，已經研發出全球第一個多智能體決策大模型。其目的也是想把決策智能應用，進行更清楚地梳理，特別是用大模型大數據來解決決策智能問題，驅動各產業全面智能化升級。

今天我講的內容主要分成幾個部分。

首先我會介紹決策在數學上是怎麼表達的，以及為何如此重要。

第二部分我會介紹決策智能最重要、最關鍵的問題：安全性和魯棒性問題。決策智能可應用於網際網路，比如搜索推薦廣告，這些對安全要求其實並不高，其本質就是推薦內容，推薦錯了也不會造成大的財產損失，只要平均能提高百分之幾的點擊率就可以了。所以在網際網路上的這些搜索廣告推薦，很容易就會用到決策的一些方法。但是我們將決策智能用到工業網際網路，或是其他地方，情況可能就不一樣了，我們必須有一個從理論上、實際上都要保證它是安全、魯棒的。因此我會介紹一下這方面的思路是什麼、研究方法，以及可能的實現方法，此外我還會介紹各個技術點。

第三部分我會介紹因果分析。

第四部分我會介紹貝葉斯優化，貝葉斯優化數據樣本效率特別高，使得我們在小數據的情況下也可以做決策。

最後我會介紹大模型，我們為什麼要做決策的大模型？我們應該怎麼做？潛在的影響是什麼？

決策

首先是決策，歷史上笛卡爾在 17 世紀作為哲學家和數學家，就開始思考人是怎樣做決策的。當然那時的科學還是比較落後的，給出的解釋是比較機械的。大家都知道所謂的二元論觀點，即在大腦裡面，二元論觀點認為有一個特定的器官：松果體。心靈和肉體之間有一個交互的地方，這個地方就是在大腦的松果體裡。心靈是沒法解釋的，但是心靈可以控制人體行為動作，通過心靈的引導人類能夠進行一些日常決策、行動等。以上是對人的決策解釋。

其實再往前、往大的地方考慮的話，有一個思路可以去解釋人、生命，即熵增熵減。整個宇宙是一個熵增的過程，即從有序變無須的狀態。假設某個封閉的空間被抽成了真空，在一邊劃一個裂縫，將氣體放進去，慢慢擴散到整個空間，這種氣體的擴散就是從有序變成無序的狀態。生命體則相反，吸收能量，是從無序走向有序的狀態；於是從人生下來到死亡是一個熵減的過程。人的生活日常其實是在找規律，即使生活環境在變，人內環境的很多東西是不會變的，比如說身體的體溫，身體體液的成分等。所以作為一個生命體，無論外界的情況如何變化，其內部總是希望保持一個恆定的狀態。

人類開發了人工智慧以及各種技術，必然是幫助我們解決不變性的，或者說是解決熵減。所以按照這個思路進行思考，就會比較容易理解一個生命體如何去做決策，或者說生命體做決策原理是什麼。我們用一個最簡化的數學模型來描述這個過程。

如下圖，比如說整個世界假設它是不可知的，我們可以用一個隱變量 s* 來描述這個世界（或者說代表世界運行的規律或真理）。然後作為個體，比如生命體或是細胞，存在於這個世界當中，受這個世界運行影響。這個生命體不知道 S * 但會觀察這個外部世界，假設這個觀察量是 o （因為 s * 是不可觀察的，但是 o 是 s * 生成的，可以推理出 s*）。透過 o，生命體對 s * 有了理解，但生命體不是 100% 完全可以推理出自然界隱藏的規律。比如說重力，牛頓根據蘋果落地這樣一個事實，他觀察到了這種現象 o，對真實世界產生一定認知和理解，這個認知和理解就是 s。但是 s 和 s * 可能不一樣，也可能一樣，因為其代表了個體對外界的理解。當個體理解以後，個體就會採取行動（下圖的 u）改變世界，比如說人，人可以改變世界，細胞可以釋放某些東西，與病毒做鬥爭，所有這些都是個體對外界的影響。在外界影響的情況下，改變自然界，自然界然後又會出現新的狀態規律，個體在根據觀察做出理解和改變，依次反覆。

所以對於感知智能來說，感知是從觀察到發現規律 o -> s；決策智能，就是從規律再返回事件 s -> u，來改變數據環境。

感知是主觀的，它是個體的感知，每個人可能不一樣，難以用語言來描述，但可以通過其他方式來描述。人與人之間會產生共鳴，這是為什麼？因為你的感知和另外一個人的感知，對於觀察到的同一個東西或者觀察到的同一現象可能不一樣，但是會產生共鳴。所以當你看到這些繪畫的時候，就會和這些繪畫的作者產生共鳴。所以這就是感知方面的一個規律，這個也就是藝術存在的本源。

決策是如何進行的？效用理論（Utility theory）。John Von Neuman 是一位非常著名的數學家，同時也是計算機學科的奠基人，他同時也創立了 Games Theory。在經典的《Games Theory》裡，他講到了 Utility theory，提供了一套數學工具來告訴大家怎樣去做決策。其數學表達可以認為是優化某一個特定的函數，選擇能夠最大化函數的值。

如果一個智能體是理性的話，那麼怎樣做決策呢？我們還是用上面的這個例子來講，假設人或者機器都可以，他們存在於一個世界中，我從外界觀察到一個信號 o，那麼我要選擇的最優決策是什麼 u？貝葉斯決策理論就是說，當我觀察 o 的時候，其實對 s 到底長什麼樣已經有了一定的估計，比如說一個分布和描述。通過觀察 o 之後的後驗知識，那麼我對自然界的一些規律和法則有了一定的了解。這個了解反映在它的分布和後驗概率上 p(s|o)。也就是說，我對它的了解有一定的不確定性。

再來看所謂的獎勵函數。如果自然界長成這個樣子 s，我採取了行動 u，那麼我的獲利應該是多少，我們用 R(s,u) 這個函數來描述？只要你可以定義這個獲利，就可以最大化平均的獲利值。我選擇自己的決策，最大化預期利益或者說平均利益。貝葉斯決策理論可以告訴你，這個就是最優的決策。剛才其他演講者講到強化學習和優化，無外乎就是上述公式，優化一個特定的（獎勵）函數。我選擇的這個決策變量使得這個函數值是最大化的。

另外一個更基礎的問題來了，什麼是智能呢？其實，智能可以用函數來解決。我使得自己的長期收益是最好的，比如說經典的巴普洛夫條件反射，為什麼狗可以跟它的鈴聲和食物產生聯繫呢？為什麼一聽到鈴聲就會產生唾液呢？這是因為它學習到了你經常一敲鈴便會給它食物，這樣狗當然就迅速行動了。

從長期角度來講，對狗這個生命體來說，它優化了自己「迅速跑到這邊獲取食物」。狗的行為最優的的表現是它可以適應環境獲取食物，從長時間來達到它的受益。

但實際上，我們說做（機器）決策智能的時候，包括將來講的應用如網際網路廣告，已經廣泛地應用到了。我之前做聯合創始人的公司就是專門做強化學習用於網際網路廣告。除了強化學習，決策智能有其他的表現形式或數學表達，能夠解決不一樣的東西。

剛才有演講者講到了運籌優化的內容。運籌優化本質是個優化問題，就是我給定一個目標函數 f（x），它可以是知道的，也可以是不知道的。在不知道的情況下，我們叫它黑盒優化；在知道的情況下，我們叫它白盒優化。然後，我的目的是要找到決策 x，我選擇自己的決策並最大化函數 f。這個函數可以是剛才說到的 utility 獎勵函數，也可以是其他各種各樣的函數。那麼如果從這個角度來講的話，它就有很廣泛的用途。

比如其他演講者所講的電廠和 EDA 優化的問題。生物化學上，我們甚至可以用它來尋找抗體，就是用機器學習或黑盒優化的方法，幫助找到更合適的抗體。還有演講者提到的 AutoML，它們本質上也是黑盒優化問題。

黑盒優化裡面比較好的方法就是貝葉斯優化，比如我們做優化時允許去試錯。我們找一些 x「餵」到 f 裡面，然後去測試（給出 f 的值）。如果說我們的任務是找抗體的話，則允許做一些黑盒實驗，看看化學反應如何。然後我們再去建一個對 f 了解的模型，叫做代理模型（surrogate model）。接著再創建一個採集函數 (acquisition function)，告訴我們下一個實驗應該怎麼做 (下一個測試的輸入值 x 應該是什麼)，然後無限循環往復，直到實現最優。

貝葉斯優化好處是什麼？它從理論上保證能夠找到全局最優。同時它也能減少做實驗的次數，所以貝葉斯優化可以幫助我們在數據稀疏的情況下，去優化決策。

大約一年前，我帶著華為團隊一起做了一個貝葉斯優化算法，獲得 NeurIPS 黑盒優化冠軍，名字為河伯，該系統已經開源，被研究者廣泛使用，該研究應用領域包括在 Auto ML、蛋白質設計、 MindSpore 超參數優化、機器學習系統里的 rate 超參數優化，此外還包括各種各樣的實際場景應用。接下來我會介紹幾個例子，我認為這是比強化學習更容易落地、更接地氣的方法，因為這種方法對數據要求不高。

以上是我介紹的決策智能一些重點內容。那麼決策智能難點在哪？剛才有演講者講了安全的知識，安全在決策智能中非常重要，我會稍微介紹一下最近的一些算法，然後我再講一些因果分析的內容（對決策的可解釋性提供了理論基礎）。

大約十多年前，我剛去 UCL 的時候，對網際網路搜索的問題很感興趣。其中很關心搜尋引擎的不確定性問題，比如用戶使用百度搜索 iPhone 4 代，能搜索出結果。但是當用戶搜索了一個困難的主題關鍵字，可能沒有一個跟用戶的需求相關的，那麼用戶就會不在用這個搜尋引擎，改用其他的搜索方法。所以搜尋引擎需要有個有效的方法避免以上問題出現。

我們該如何看待這個問題？其實就是最大化用戶滿意度。我們在 2009 年做過一套理論，參考了投資的一些原則，就是不要把所有的錢都投到同一個地方。為什麼這樣做？因為股票價值有高有低，之間此起彼伏，你需要多樣化投資組合。同樣的道理，你在做搜索推薦或者網際網路廣告時，不要把你認為用戶相關的都展示出來，萬一判斷有錯怎麼辦，所以你要多樣化你的文件列表。當時在學術圈，大家都已經開始做多元化排序了，但其實沒有給出一套理論，我們給出了一套理論，該理論告訴搜尋引擎在什麼時候多樣化，多樣化多少的的。SIGIR 對這個工作非常認可，去年授予了 test of time honorable mention: 十年、甚至十幾年之後再去看這篇文章，還是非常有影響力的。我本身對這個工作還是非常自豪的。

安全和魯棒

在工業網際網路時代，需要做更加精細的決策，安全與風險是其中重要的部分。我之前帶領了華為諾亞實驗室倫敦團隊，在 2022 年發表在機器學習會議 ICML 上的一篇文章（SAUTE RL）。幾乎肯定（或以概率為一）的滿足安全約束對於在現實應用中部署強化學習 (RL) 至關重要。例如，飛機著陸和起飛在理想情況下應該以概率 1 發生。我們團隊通過引入安全增強的馬爾可夫決策過程（MDP）來解決這個問題，其中通過將安全約束增強到狀態空間並重塑目標來消除安全約束。團隊證明了「炒」（Saute）過的馬科夫決策過程（ MDP）滿足貝爾曼（Bellman）方程，並更接近於解決幾乎肯定滿足約束的安全強化學習。團隊認為 Saute MDP 採用了一個不同角度對待安全決策問題。例如，新提出的方法具有即插即用的特性，即任何 RL 算法都可以「炒」。此外，狀態增強允許跨安全約束的策略泛化。最終表明，當約束滿足非常重要時，Saute RL 算法可以超越其最先進的算法。在下圖所示的實驗中，可以 Saute RL 算法在一些極端的測試下，安全性仍然是綠色的，圖中虛線表示 100% 安全。Saute RL 算法在一些安全性要求較高的場景廣泛應用，比如電力、自動駕駛等。

這是我們做的一個實驗，可以看到在一些 setting 極端策略下，我們的方法保證 100% 安全。不管從實驗上、還是理論上我們都可以 100% 得到安全保障。如果用這些方法，我們在一些嚴格的安全性場景里，比如電力、自動駕駛等，我們就可以廣泛地使用這些強化學習和優化決策的方法了。

另外一個更難的問題是如何保證模型訓練安全。我們將類似的方法運用到訓練中。訓練過程中加入一個安全狀態，它會記錄歷史上的操作是否安全，在學習的過程中可以根據安全狀態選擇安全的路徑。

因果分析

下面介紹因果分析，剛才有人講到數字孿生，這其中涉及模型和數據的關係。所謂數字孿生，本質就是對真實世界建模，如果僅憑自己想像建模，那結果和真是世界差別很大。同樣的道理，假如你有數據，但數據不代表真實情況，數據在採樣的情況下就存在偏差，用存在偏差的數據建立模型，顯然不能真實地反映情況，導致模型和數據之間有差別。如果你用這些數據建立數字孿生去仿真、去學習，顯然不準確。所以數字孿生的核心問題就是建立必須要讓它與環境一致、與數據一致。舉例來說，在推薦系統裡面，我們可以去做推薦的仿真，可以去仿真數據，但是要強調的是仿真必須跟真實情況保持一致。

我認為 Judea Pearl 因果分析的研究很有意義，給我們提供了很好的理論基礎。他提出的結構化的因果模型（structure causal model）對因果關係提供了一個系統的描述。從我個人理解來講，如果將其與圖模型或者主流的統計方法相比的話，主要分別在於增加了外生變量，這些外生變量對系統會造成改變。我們必須有一套理論去理解它，而不是假設它不存在，假如這些外生變量不存在，你就沒有規則去完全消除這些偏差（ bias）的問題。只有對這些外生變量建模，模型才會有效。Judea Pearl 的一個思路很有意思，就是系統的介紹了干預和想像的操作。比如 A 和 B 經常在一起，當有 A 的時候，預測 B 的存在。但實際上 A 和 B 的存在可能是另外一個 confounding 干擾變量的影響， A 和 B 實際上沒有任何內在的因果關係，他們只是關聯（association）的關係。

第二個就是 DO 操作，就是去干預，假如改變某一個量，另外一個量會不會隨之改變。如果我看到 A ，就說明看到 B，哪一天 A 消失了， B 是不是也消失了，還是 B 因為另外一個 confounding 的存在導致 B 一直存在，所以你可以通過此方法進行分析。

第三個是想像（imagine），你可以問 what if 問題，剛才我們在講運籌優化的時候，會進行 what if 分析，問如果當初我們執行另外一個策略，會給我們帶來什麼。沒有進行 what if 推論，就把一個策略執行到實際中是不科學的。所以，我們需要在仿真器里問「what if question」問題，即如果這樣做結果會怎麼樣，是不是有更好的決策，這就是所謂的反事實（counterfactual），它實際沒有出現，需要在腦子裡進行想像，用數字孿生去想像，但必須保證 counterfactual 是無偏見的。所以，如果我們要做數字孿生，就必須解決 counterfactual 的問題。

舉例來說，在智能推薦系統里，首要的問題是數據偏差問題，如下圖標記的有用戶 user （U）、推薦列表 recommendation list (R)、正例 positive items (S) 。一個物品 items 要被用戶喜歡並且被觀察到，必須滿足兩個條件，首先要被推薦，如果沒有推薦，用戶就看不到，所以必須和 R 有關係；同時要跟用戶 U 有關係，就是用戶可能喜歡、也可能不喜歡。同時喜歡並且被推薦了，那麼這個 item 是被觀察了 S，在數據裡面它是有 bias 的，如果它不在推薦系統裡面，但用戶是喜歡的，這種情況下是觀察不到的。如果你使用觀察到的這些數據來構建仿真器，必然存在一個偏差項，是被推薦過去，只有被推薦過的東西你才會看見被仿真。但實際上還有那些沒有被推薦，實際上用戶可能喜歡的，所以你需要問 what if question，用戶是不是喜歡，如果用戶喜歡，你就推薦，如果用戶不喜歡，你就不推薦。

我們需要構建一個所謂的數據產生模型 data impression model 和用戶反饋模型 user feedback model 。外生變量是需要模型的，在一般的推薦系統裡面，它是不存在建模問題的。圖中的 beta 也是個外層變量，需要對它進行建模並估計。當出現新數據時，我們需要估計 alpha 、beta ，然後再去糾正當前狀態，進行真正的仿真。

我們也做了一些理論分析，如果我們有這樣的仿真系統，數據多事效果會更好。這就面臨一個問題，有了數據以後，我是用數據來構建仿真器再去做決策，還是直接用數據做優化決策。方案是如果你有 inductive bias 歸納偏置，構建到這個模型裡面，這樣用仿真器才有意義。

小數據決策

然後我再講一下貝葉斯優化。

我帶領華為團隊解決電子設計自動化 EDA 問題時，我們用貝葉斯優化解決各種各樣的 EDA 的問題。EDA 問題其實是一個離散優化 combination optimization 的問題，比如我們研究的一系列序列決策問題。我們在邏輯綜合裡面，想把整個的邏輯數據轉換成另一個更實際的簡化的邏輯實際，使它的邏輯功能完全不變，對於是否完全不變，我可以用 QoR 來橫量它，QoR 值是多少，我是不知道的，我沒有任何的數學表達，但是經過不斷的試錯，可以達到最優，但怎麼提高試錯效率？顯然我就可以用剛才講的貝葉斯黑盒優化，對 QoR 進行建模，然後去解決這個問題。

今年我們也發表了論文來闡述怎樣用貝葉斯優化來做邏輯綜合。順便提一下，我們為華為團隊做的研究達到 SOTA 水平，該研究在公開測試數據里名列前茅，所以貝葉斯優化為解決邏輯綜合問題提供了一個比較好的思路。

我再舉另外一個例子，我想設計一個抗體能夠抗擊抗原，這兩種蛋白質會發生一些反應。這裡我們就要找出胺基酸的排列次序及其形成的蛋白質，使得 Binding-Energy 結合能最小化。使用窮舉的方法幾乎是不可能的，因為可能性空間太大了。小數據決策就需要貝葉斯優化了。

另外，我們如何形成應用大模型和大數據的思路？我們組做了很多多智能體強化學習方向的研究。那麼，智能交互相關的研究只能用在遊戲上嗎，是不是可以用到其他應用上？回答是肯定的。我們最近做了一個遊戲場景的「AI 奧林匹克」系列競賽，因為遊戲場景可以放大決策中的關鍵問題，使我們能夠找到其中的規律。我們的目的是通過遊戲的方式弄清楚決策中的技術方法，以用到其他各種場景中。

這個「AI 奧林匹克」競賽和其他仿真遊戲的分別是什麼呢？首先在目的上，我們做這個比賽是為了探究智能體泛化性，以用於實際場景。第二，在「AI 奧林匹克」競賽中，智能體並不能獲取全部信息，而是只提供部分信息，我們想知道系統如何解決問題。

我們只有把一個跨任務的，信息不完備的場景弄清楚，才能夠解決一些實際問題，模型的泛化能力也就增強了。

我們在「AI 奧林匹克」系列競賽中運用了多智能體人工智慧的思路。關於「多智能體人工智慧是不是只能用在遊戲裡，還是也能用於其他場景」這個問題，我們認為在多智能體場景下可以「重新制定（reformulate）」實際問題。比如在運籌優化里，包括經典的旅行推銷員問題（TSP，travel salesman problem）多智能體學習能發揮跨任務的優勢，也在 meta level 層面解決這個問題。

TSP 是一系列問題，這一系列問題是有共性的。我們要在 meta level 上找到這個共性，建模一個新的 TSP 問題，只需少量數據就能很快找到答案，進而對提出解決方案提供指導作用。

傳統的優化算法只能解決一個 TSP 問題，對於第二個第三個等等 TSP 問題沒有泛化性。第二，傳統方法中能夠提升模型能力的只有數據。解決第一個問題的數據可以和之後新添加的數據結合起來，讓模型的能力進一步提高。因此這種方法是數據驅動的（data driven）。

我們用多智能體的方式，把數據驅動和 meta level 結合到 TSP server 里。簡單來說，我會做一個 meta level 的求解方法，然後有一個 Oracle 評價系統與之對抗。我讓求解方法和評價系統 Oracle 之間就產生一個對於 TSP 問題的競賽。顯然我們可以用互相競爭的多智能體方法來解決這個問題，例如提供一個跨任務的求解方法。多智能體人工智慧在 meta level 可以幫助解決一些運籌優化的重要問題。

我們發現這裡存在一個趨勢：從單一問題遷移到多個任務（meta level）後，我們可以很快地 pre-solve 預先解決新問題，這類似於 NLP 自然語言問題中預訓練模型的概念。

去年，UC 伯克利考慮在決策智能中使用 transformer 大模型和一些稱為離線學習「offline training」的方法，拉近了 NLP 自然語言和 CV 機器視覺的距離。offline 的意思是運用一些策略（policy）得到一些數據，然後完全拋開仿真器，直接拿數據進行有監督訓練。

我們在此基礎上又測試了多智能體。offline 訓練能夠達到的水平是有限的，因為數據有局限性。而 online 方法通過微調和添加數據能夠不斷改進訓練效果。

使用 transformer 做決策的好處是什麼？首先它的泛化性非常強，這一個模型幾乎在所有任務上的效果都很好。以前每個任務都單獨用一個模型，而現在一個模型就能解決所有任務。前段時間 DeepMind 發布了一個大模型，可以解決 CV、NLP 等任務。當然，DeepMind 的大模型不包括 Multi-Agent ，但這足以證明一個模型解決多個領域任務是大勢所趨。我們應該創建一個在跨任務、聯合 CV、NLP 的通用模型。

在預訓練方面，我們認為多智能體訓練可以用語言模型來做，把所有的智能體和決策都生成出來。因此，語言模型的方法可以直接遷移到多智能體上，以達到一個非常好的效果。