利用人工智慧增強人類智能

利用人工智慧增強人類智能

系統來幫助開發新的智能增強方法。這個新領域引入了新的重要基本問題,與其父

出品 | CDA數據分析研究院,轉載須授權

通過創建允許我們使用機器學習模型中的表示的用戶界面,我們可以為人們提供推理的新工具。

什麼是電腦?

從歷史上看,這個問題有不同答案——即不同的計算視圖——有助於激發和決定人類最終建立的計算系統。考慮早期的電子計算機。ENIAC是世界上第一台通用電子計算機,受委託為美國陸軍計算炮兵射擊台。其他早期計算機也用於解決數值問題,例如模擬核爆炸,預測天氣和規劃火箭的運動。這些機器以批處理模式運行,使用原始輸入和輸出設備,沒有任何實時交互。這是計算機作為數字計算機的願景,用於加速以前需要數周,數月的計算。

在20世紀50年代,對計算機的不同看法開始發展。1962年道格拉斯·恩格爾巴特(Douglas Engelbart)提出計算機可以作為一種方式使用。在這種觀點中,計算機不是解決數字運算問題的主要工具。相反,它們是具有豐富輸入和輸出的實時交互系統,人類可以與之合作以支持和擴展自己的問題解決過程。這種情報增強(IA)的願景深深地影響了許多其他人,包括施樂PARC的Alan Kay,Apple的Steve Jobs等企業家,以及現代計算系統的許多關鍵思想。它的思想也深刻影響了數字藝術和音樂,以及互動設計,數據可視化,計算創造力和人機互動等領域。

對IA的研究經常與人工智慧(AI)的研究競爭:資金競爭,競爭有才能的研究人員的利益。雖然這些領域之間一直存在重疊,但IA通常專注於構建使人和機器協同工作的系統,而AI則專注於將智能任務完全外包給機器。特別是,人工智慧問題通常是在匹配或超越人類表現方面構成的:在西洋棋或圍棋中擊敗人類;學習識別語音和圖像或翻譯語言以及人類等等。

本文描述了一個新的領域,今天出現在AI和IA的綜合中。對於這個領域,我們建議使用人工智慧增強(AIA):使用AI系統來幫助開發新的智能增強方法。這個新領域引入了新的重要基本問題,與其父級領域無關的問題。我們相信AIA的原則和系統將與大多數現有系統完全不同。

我們的文章首先調查了近期關於人工智慧增強的技術工作,包括生成界面的工作——即可用於探索和可視化生成機器學習模型的界面。這樣的界面開發了一種生成模型的製圖,人類從這些模型中探索和創造意義的方法,並將這些模型「知道」的內容融入他們的創造性工作中。

我們的文章不僅僅是對技術工作的調查。我們認為現在是在這個新興領域的基礎上確定一些廣泛的基本問題的好時機。這些新工具能在多大程度上實現創造力?基於現有想法的微不足道的重組,它們能用於產生真正令人驚訝和新的想法,還是想法陳詞濫調?這些系統能用於開發基本的新接口原語嗎?這些新原語將如何改變和擴展人類的思維方式?

使用生成模型發明有意義的創造性操作

讓我們看一個機器學習模型使一種新型接口成為可能的例子。要理解界面,想像一下你是一個類型設計師,正致力於創建一個新的字體。在草擬了一些初始設計之後,您希望嘗試使用粗體,斜體和濃縮變體。讓我們來看一下從任何初始設計中生成和探索這些變化的工具。由於很快就會解釋的原因,結果的質量非常粗糙;請耐心等待。

IA的綜合中。對於這個領域,我們建議使用人工智慧增強(AIA):使用AI

當然,改變粗體(即重量),斜體和寬度只是改變字體的三種方式。想像一下,用戶可以僅通過選擇現有字體的示例來構建自己的工具,而不是構建專用工具。例如,假設您想要改變字體上的serif度。在下面,請從頂部框中選擇5到10個sans-serif字體,然後將它們拖到左側的框中。選擇5到10個serif字體並將它們拖到右側的框中。在您執行此操作時,在瀏覽器中運行的機器學習模型將自動從這些示例中推斷出如何以serif或sans-serif方向插入起始字體:

譯語言以及人類等等。本文描述了一個新的領域,今天出現在AI和
超越人類表現方面構成的:在西洋棋或圍棋中擊敗人類;學習識別語音和圖像或翻

事實上,我們使用相同的技術來構建早期的粗體斜體和冷凝工具。為此,我們使用以下粗體和非粗體字體,斜體和非斜體字體以及壓縮和非壓縮字體的示例:

AI則專注於將智能任務完全外包給機器。特別是,人工智慧問題通常是在匹配或

為了構建這些工具,我們使用了所謂的生成模型。要理解生成模型,考慮描述字體的先驗似乎需要大量數據。例如,如果字體是64 × 64像素,那麼我們需要64 × 64 = 4096個參數來描述一個字形。但我們可以使用生成模型來找到更簡單的描述。

我們通過構建一個神經網絡來實現這一點,該神經網絡採用少量輸入變量(稱為潛在變量),並將整個字形作為輸出。對於我們使用的特定型號,我們有4040個潛在空間維度,並映射到4096描述字形所有像素維空間。換句話說,想法是將低維空間映射到更高維空間:

些領域之間一直存在重疊,但IA通常專注於構建使人和機器協同工作的系統,而

我們使用的生成模型是一種稱為a的神經網絡。就我們的目的而言,生成模型的細節並不那麼重要。重要的是,通過更改用作輸入的潛在變量,可以將不同的字體作為輸出。因此,潛在變量的一個選擇將提供一種字體,而另一種選擇將提供不同的字體:

人工智慧(AI)的研究競爭:資金競爭,競爭有才能的研究人員的利益。雖然這

您可以將潛在變量視為字體的緊湊,高級表示。神經網絡採用該高級表示並將其轉換為全像素數據。真是太了不起了4040個數字可以捕獲最初需要的字形中的明顯複雜性4096個變量。

我們使用的生成模型是從一個從開放的網絡上刮下來的5萬字體的訓練集中學習的。在訓練期間,調整網絡中的權重和偏差,使得網絡可以輸出與訓練集中的任何期望字體的近似近似,只要做出適當的潛在變量選擇。在某種意義上,該模型正在學習所有訓練字體的高度壓縮表示。

實際上,該模型不僅僅重現了訓練字體。它還可以概括,生成訓練中看不到的字體。通過被迫找到訓練樣例的簡潔描述,神經網絡學習了一個抽象的,更高級別的字體模型。這種更高級別的模型使得可以概括超出已經看到的訓練示例,以產生逼真的字體。

理想情況下,一個好的生成模型將暴露於相對少量的訓練樣例,並使用該暴露來推廣到所有可能的人類可讀字體的空間。也就是說,對於任何可想到的字體 - 無論是現有的還是未來的想像 - 都可以找到與該字體完全對應的潛在變量。當然,我們使用的模型遠遠沒有達到這個理想。一個特別令人震驚的失敗是模型生成的許多字體省略了大寫「Q」的尾部(你可以在上面的例子中看到這一點)。不過,記住理想的生成模型還是會有用處的。

這些生成模型在某些方面與科學理論的工作方式類似。科學理論通常大大簡化了對複雜現象的描述,將大量變量簡化為幾個變量,從中可以推導出系統行為的許多方面。此外,良好的科學理論有時使我們能夠概括地發現新現象。

例如,考慮普通的材料對象。這些物體具有物理學家所稱的相 - 它們可以是液體,固體,氣體,或者可能是更具異國情調的物質,如超導體或玻色 - 愛因斯坦凝聚物。 先驗地說,這樣的系統似乎非常複雜,或許涉及到10^23個左右的分子。但是熱力學和統計力學的定律使我們能夠找到一個更簡單的描述,將這種複雜性降低到幾個變量(溫度,壓力等),這些變量包含了系統的大部分行為。此外,有時可以概括,預測意外的物質新階段。例如,在1924年,物理學家利用熱力學和統計力學來預測物質的一個顯著的新階段,即玻色 - 愛因斯坦凝聚,其中一組原子可能都占據相同的量子態,導致令人驚訝的大規模量子干涉效應。在我們後來關於創造力和生成模型的討論中,我們將回到這種預測能力。

回到生成模型的細節,我們如何使用這些模型進行上述工具中的基於實例的推理?讓我們考慮一下粗體工具的情況。在這種情況下,我們採用用戶指定的粗體字體的所有潛在向量的平均值,以及所有用戶指定的非粗體字體的平均值。然後我們計算這兩個平均向量之間的差異:

數據可視化,計算創造力和人機互動等領域。對IA的研究經常與

我們將其稱為粗體向量。為了使一些給定的字體更粗,我們只需將一些粗體向量添加到相應的潛在向量,添加粗體向量的數量來控制結果的粗體:

算系統的許多關鍵思想。它的思想也深刻影響了數字藝術和音樂,以及互動設計,

這項技術是由,像粗體矢量這樣的矢量有時被稱為屬性矢量。我們展示的工具有許多缺點。考慮下面的示例,我們從中間的示例字形開始,然後增加或減少粗體(分別在右側和左側):

的AlanKay,Apple的SteveJobs等企業家,以及現代計

檢查左右兩側的字形,我們看到許多不幸的文物。特別是對於最右邊的字形,邊緣開始變粗糙,並且襯線開始消失。更好的生成模型可以減少這些偽影。這是一個很好的長期研究計劃,帶來了許多有趣的問題。但即使使用我們的模型,使用生成模型也有一些顯著的好處。

要了解這些好處,請考慮一種天真的粗體方法,我們只需在字形邊緣添加一些額外的像素,然後將其加粗。雖然這種增厚可能與非專家對類型設計的思考方式相匹配,但專家做了更多涉及的事情。在下文中,我們展示了這個天真的增稠程序與喬治亞和Helvetica實際完成的結果:

過程。這種情報增強(IA)的願景深深地影響了許多其他人,包括施樂PARC

正如您所看到的,在兩種情況下,天真的粗體過程都會產生完全不同的結果。例如,在喬治亞,左筆劃僅通過粗體略微改變,而右筆劃大大擴大,但僅在一側。在這兩種字體中,粗體不會改變字體的高度,而天真的方法也是如此。

正如這些示例所示,良好的粗體不是加厚字體的簡單過程。專家類型設計師有許多用於粗體的啟發式方法,從先前的許多實驗中推斷出的啟發式方法,以及對歷史實例的仔細研究。在傳統程序中捕獲所有這些啟發式算法將涉及巨大的工作。使用生成模型的好處是它可以自動學習許多這樣的啟發式方法。

例如,天真的粗體工具將快速填充在字母「A」的封閉上部區域中的封閉負空間中。字體工具不會這樣做。相反,它保留了封閉的負空間,向下移動A的杆,並且比外部更慢地填充內部筆劃。這個原理在上面顯示的例子中很明顯,特別是Helvetica,它也可以在字體工具的操作中看到:

豐富輸入和輸出的實時交互系統,人類可以與之合作以支持和擴展自己的問題解決

保留封閉負空間的啟發式不是先驗明顯的。但是,它是在許多專業設計的字體中完成的。如果您檢查上面顯示的示例,很容易理解為什麼:它提高了可讀性。在訓練過程中,我們的生成模型從它看到的例子中自動推斷出這個原理。然後我們的粗體界面使用戶可以使用它。

實際上,該模型捕獲了許多其他啟發式方法。例如,在上面的例子中,(粗略地)保留了字體的高度,這是專業字體設計的標準。同樣,正在發生的不僅僅是字體的加厚,而是生成模型推斷出更微妙的啟發式的應用。這種啟發式方法可用於創建具有屬性的字體,否則這些屬性不太可能發生在用戶身上。因此,該工具擴展了普通人探索有意義字體空間的能力。

字體工具是一種認知技術的例子。特別是,它包含的原始操作可以內化為用戶思考的一部分。在這方面,它類似於Photoshop或電子表格或3D圖形程序等程序。每個都提供了一組新的界面原語,原語可以被用戶內化為他們思想中的基本新元素。這種新原語內化的行為對於智力增強的大量工作至關重要。

字體工具中顯示的想法可以擴展到其他域。使用相同的界面,我們可以使用生成模型來使用諸如表情,性別或頭髮顏色等品質來操縱人臉圖像。或者使用長度,諷刺或語調來操縱句子。或者使用化學特性操縱分子:

用。在這種觀點中,計算機不是解決數字運算問題的主要工具。相反,它們是具有

這種生成界面提供了一種生成模型的製圖,人類探索的方法和使用這些模型的意義。

我們之前看到,字體模型自動推斷出有關字體設計的相對深入的原則,並使其可供用戶使用。儘管可以推斷出如此深刻的原則是很好的,但有時候這些模型會推斷出其他錯誤或不可取的東西。例如,在某些臉部模特中加入微笑矢量會使臉部不僅僅是笑容更多,而且更具女人味。為什麼?因為在訓練數據中,女性比男性更多。所以這些模型可能不僅僅是學習關於世界的深刻事實,它們也可能內化偏見或錯誤的信念。一旦知道了這種偏差,通常就可以進行修正。但要找到這些偏見需要仔細審核模型,目前尚不清楚我們如何確保此類審核是詳盡無遺的。

更廣泛地說,我們可以問為什麼屬性向量工作,何時工作,何時失敗?目前,人們對這些問題的答案知之甚少。要使屬性向量起作用,需要採用任何起始字體,我們可以通過在潛在空間中添加相同的向量來構造相應的粗體版本。然而,先驗地沒有理由使用單個常數向量來替換將起作用。可能我們應該以許多不同的方式取代。例如,用於加粗serif和sans-serif字體的啟發式方法是完全不同的,因此似乎可能涉及非常不同的位移:

爾巴特(DouglasEngelbart)提出計算機可以作為一種方式使

當然,我們可以做一些比使用單個常量屬性向量更複雜的事情。給定成對的示例字體(unbold,bold),我們可以訓練機器學習算法,將未加載版本的潛在向量作為輸入,並輸出粗體版本的潛在向量。通過關於字體權重的附加訓練數據,機器學習算法可以學習生成任意權重的字體。屬性向量只是進行這些操作的一種非常簡單的方法。

由於這些原因,屬性向量似乎不太可能作為操縱高級特徵的方法。在接下來的幾年裡,將會開發出更好的方法。但是,我們仍然可以期望提供的操作與上面概述的操作大致相似,從而允許訪問高級和潛在的用戶定義概念。該接口模式不依賴於屬性向量的技術細節。

交互式生成對抗模型

讓我們看一下使用機器學習模型來增強人類創造力的另一個例子。它是由互動式生成對抗性網絡或iGAN引入的。

在2016年。Zhu 等人的一個例子是在界面中使用iGAN來生成諸如鞋子之類的消費產品的圖像。傳統上,這樣的界面將要求程式設計師編寫包含關於鞋子的大量知識的程序:鞋底,鞋帶,鞋跟等。朱等人沒有這樣做,而是用一種生成模型訓練505幅0 鞋子千圖像,從Zappos的下載。然後,他們使用該生成模型構建一個界面,讓用戶粗略地勾勒出鞋子,鞋底,鞋帶等的形狀:

在20世紀50年代,對計算機的不同看法開始發展。1962年道格拉斯·恩格

視覺質量低,部分原因是朱等人使用的生成模型是已經過時的。現代(2017)標準——更現代的模型,視覺質量會更高。

但視覺質量不是重點。這個原型正在進行許多有趣的事情。例如,注意鞋底的整體形狀如何在鞋底填充時發生顯著變化 - 它變得更窄更光滑。填充了許多小細節,例如白色鞋底頂部的黑色滾邊,鞋底上到處都是紅色。這些和其他事實是從基礎生成模型中自動推導出來的,我們將在稍後描述。

相同的界面可用於草繪風景。唯一的分別是潛在的生成模型已經在景觀圖像而不是鞋子圖像上進行了訓練。在這種情況下,可以僅繪製與景觀相關的顏色。例如,這裡有一個用戶在一些綠草中繪製草圖,山的輪廓,一些藍天和山上的雪:

算機作為數字計算機的願景,用於加速以前需要數周,數月的計算。

這些界面中使用的生成模型與我們的字體模型不同。它們不是使用變分自動編碼器。但潛在的想法仍然是找到一個低維潛在空間,可用於表示(比如說)所有風景圖像,並將潛在空間映射到相應的圖像。同樣,我們可以將潛在空間中的點視為描述景觀圖像的緊湊方式。粗略地說,iGAN的工作方式如下。無論當前圖像是什麼,它都對應於潛在空間中的某個點:

些機器以批處理模式運行,使用原始輸入和輸出設備,沒有任何實時交互。這是計

假設,正如之前的影片中所發生的那樣,用戶現在勾畫出一個概述山形的筆畫。我們可以將筆畫看作是對圖像的約束,挑選出潛在空間的子空間,包括潛在空間中與圖像匹配的所有點:

期計算機也用於解決數值問題,例如模擬核爆炸,預測天氣和規劃火箭的運動。這

界面工作的方式是在潛在空間中找到一個靠近當前圖像的點,因此圖像不會改變太多,但也接近滿足強加的約束。這是通過優化目標函數來完成的,該目標函數將距離與每個施加的約束相結合,以及從當前點移動的距離。如果只有一個約束,比如說,對應於山脈,這看起來如下所示:

AC是世界上第一台通用電子計算機,受委託為美國陸軍計算炮兵射擊台。其他早

因此,我們可以將此視為對潛在空間施加約束以便以有意義的方式移動圖像的一種方式。

iGAN與我們之前展示的字體工具有很多共同之處。兩者都提供了編碼關於世界的微妙知識的可用操作,無論是學習理解山是什麼樣的,還是推斷在加粗字體時應該保留封閉的負空間。iGAN和字體工具都提供了理解和導航高維空間的方法,使我們保持在字體或鞋子或風景的自然空間。正如朱等人所說:

或我們大多數人,即使在Photoshop中進行簡單的圖像處理也會帶來難以克服的困難......任何不完美的編輯都會立即使圖像看起來完全不切實際。換句話說,經典的視覺操作範例並不能阻止用戶「脫落」自然圖像的多樣性。

與字體工具一樣,iGAN是一種認知技術。用戶可以將界面操作內化為他們思維中的新原始元素。例如,在鞋子的情況下,他們可以學習根據他們想要應用的差異來思考,添加鞋跟,或更高的鞋面,或特殊的亮點。這比非專家對鞋的傳統方式(「11號,黑色」 )更為豐富)。在某種程度上,非專家確實以更複雜的方式思考 - 「讓頂部更高一些,更時尚」 - 他們在這方面思考的方式很少,或者看到他們選擇的後果。擁有這樣的界面可以更容易地探索,開發習語的能力和計劃能力,與朋友交換想法等等。

兩種計算模型

讓我們重新回顧一下我們開始撰寫文章的問題,關於計算機的用途以及這與智能增強的關係。

計算機的一個常見概念是它們是解決問題的機器,如:

「計算機,在這樣的風中發射這種炮彈的結果是什麼?」

「計算機,東京的最高溫度在5天內會是多少?」

「電腦,當Go董事會處於這個位置時,最好的舉動是什麼?」

「計算機,這個圖像應該如何分類?」 等等這些問題。

這是計算機作為數字計算器的早期觀點所共有的概念,也是歷史和現在人工智慧的大量工作。它是計算機模型,作為外包認知的一種方式。在可能的未來人工智慧的推測性描述中,這種認知外包模式經常出現在人工智慧作為神諭的視野中,能夠解決一些具有優於人類表現的大類問題。

但是對計算機的用途有一個非常不同的概念是可能的,這個概念與智力增強的工作更加一致。

要理解這種替代觀點,請考慮我們的主觀思想體驗。對於許多人來說,這種體驗是口頭的:他們認為使用語言,在他們的頭腦中形成文字鏈,類似於言語中的句子或寫在頁面上。對於其他人來說,思考是一種更直觀的體驗,包含圖形和地圖等表示。還有其他人將數學融入他們的思維中,使用代數表達式或圖解技術,如費曼圖和彭羅斯圖。

在每種情況下,我們都在考慮使用其他人發明的表示:單詞,圖形,地圖,代數,數學圖表等。隨著我們的成長,我們將這些認知技術內化,並將它們作為我們思考的基礎。

在歷史的大部分時間裡,可用的認知技術範圍已經緩慢且漸進地發生了變化。將引入一個新詞或一個新的數學符號。更少見的是,將開發一種全新的認知技術。例如,在1637年,笛卡爾發表了他的「方法話語」,解釋了如何用代數表示幾何思想,反之亦然:

——有助於激發和決定人類最終建立的計算系統。考慮早期的電子計算機。ENI

這使我們對幾何和代數的思考方式發生了根本變化和擴展。

從歷史上看,持久的認知技術很少被發明。但現代計算機是一種元媒體,可以快速發明許多新的認知技術。考慮一個相對平庸的例子,比如Photoshop。熟練的Photoshop用戶通常會有以前不可能的想法,例如:「讓我們將克隆圖章應用到這樣的圖層。」 這是一個更普遍的思想類型的例子:「計算機,[新型動作]這種[新想像的一類物體的新表現形式]」。當這種情況發生時,我們正在使用計算機來擴展我們可以思考的思路。

正是這種認知轉化模式奠定了智力增強的最深層次工作的基礎。而不是外包認知,而是改變我們用來思考的操作和表示; 它是關於改變思想本身的基礎。因此,雖然認知外包很重要,但這種認知轉換視圖提供了更為深刻的智力增強模型。這是一種觀點,其中計算機是改變和擴展人類思想的手段。

從歷史上看,認知技術是由人類發明者開發的,從蘇美爾和中美洲的寫作發明到道格拉斯·恩格爾巴特,艾倫凱等設計師的現代界面。

本文中描述的例子表明,AI系統可以創建新的認知技術。當你想要一個新的字體時,像字體工具這樣的東西不僅僅是要諮詢的神諭。相反,它們可以用於探索和發現,提供新的表示和操作,這些表示和操作可以作為用戶自己思考的一部分內化。雖然這些例子處於早期階段,但他們認為人工智慧不僅僅是認知外包。人工智慧的另一種觀點是可能的,它可以幫助我們發明新的認知技術,從而改變我們的思維方式。

在這篇文章中,我們專注於少數幾個例子,主要涉及對潛在空間的探索。還有許多其他人工智慧增強的例子。給一些味道,而不是全面的用於神經網絡輔助繪圖; 這使用戶能夠快速建立新的樂器和藝術系統;通過探索潛在的空間來開發動畫、機器學習設計模型和一個能夠插值的生成模型。在每種情況下,系統都使用機器學習來啟用可以集成到用戶思維中的新原語。更廣泛地說,人工智慧增強將利用諸多的領域。

尋找強大的新思想基礎

我們認為機器學習系統可以幫助創建表示和操作,作為人類思想中的新原語。我們應該在這些新原語中尋找什麼屬性?這個問題太大了,無法在一篇短文中全面回答。但我們將簡要探討一下。

從歷史上看,重要的新媒體形式在引入時通常看起來很奇怪 許多這樣的故事已經傳播到流行文化中:斯特拉 Vince 基和Nijinksy的「春天的儀式」首映的近乎騷亂; 由早期的立體派繪畫引起的驚愕,引領紐約時報 :「他們的意思是什麼?那些對他們負責的人是否已經離開了他們的感官?這是藝術還是瘋狂?誰知道?」

另一個例子來自物理學。在20世紀40年代,量子電動力學理論的不同表述由物理學家Julian Schwinger,Shin'ichirōTomonaga和Richard Feynman獨立開發。在他們的作品中,Schwinger和Tomonaga使用了傳統的代數方法,沿著與其他物理學類似的方式。費曼使用了一種更為激進的方法,基於現在所謂的費曼圖,描繪了光與物質的相互作用:

是電腦?從歷史上看,這個問題有不同答案——即不同的計算視圖

最初,Schwinger-Tomonaga方法對其他物理學家來說更容易理解。當Feynman和Schwinger在1948年的研討會上展示他們的作品時,Schwinger立刻受到了好評。相比之下,費曼讓他的觀眾神秘莫測。正如James Gleick所說的那樣:

Feynman發現每個人都有一個最喜歡的原則或定理,並且他都違反了這些原則...... Feynman知道他失敗了。當時,他很痛苦。後來他簡單地說:「我的東西太多了。我的機器來自太遠了。「

當然,僅僅為了陌生而陌生是沒用的。但是這些例子表明,代表性的突破一開始往往顯得很奇怪。有任何潛在的原因是真的嗎?

部分原因是因為如果某些表示是真正新的,那麼它將顯得與您以前見過的任何不同。費曼的圖表,畢卡索的畫作,斯特拉 Vince 基的音樂:都揭示了真正的新意義。良好的陳述可以提升這些洞察力,讓熟悉的人們儘可能生動地展示出新的東西。但由於強調不熟悉,表現形式似乎很奇怪:它表現出你以前從未見過的關係。在某種意義上,設計師的任務是識別核心的陌生感,並儘可能地擴大它。

奇怪的陳述通常很難理解。起初,物理學家更喜歡Schwinger-Tomonaga和Feynman。但隨著費曼的方法被物理學家慢慢理解,他們意識到儘管施溫格 - 智多和費曼在數學上是等價的,但費曼更強大。正如格萊克所說:

Schwinger在哈佛大學的學生處於競爭劣勢,或者在其他地方的同伴看來,他們懷疑他們無意中使用了這些圖表。這有時候是真的...... Murray Gell-Mann後來花了一個學期留在Schwinger的房子裡,後來喜歡說他到處尋找Feynman圖。他沒有找到任何,但有一個房間已被鎖定......

這些想法不僅適用於歷史表徵,也適用於計算機界面。然而,我們對表現形式的陌生感的提倡與關於界面的許多傳統智慧相矛盾,特別是廣泛認為它們應該是「用戶友好的」,即新手簡單且可立即使用。這通常代表著界面是陳詞濫調,由標準方式組合的傳統元素構建。但是,雖然使用陳詞濫調的界面可能既簡單又有趣,但與閱讀公式化的浪漫小說類似。這代表著界面沒有透露任何真正令人驚訝的主題領域。因此,它對加深用戶的理解或改變他們的思維方式幾乎沒有作用。對於平凡的任務,這是很好的,但對於更深層次的任務。

理想情況下,界面將表現出主題背後最深層的原則,為用戶揭示新的世界。當您學習這樣的界面時,您會將這些原則內化,為您提供更強大的推理方式來推理這個世界。這些原則是你理解的差異。他們真的很想看到,其他一切都是最好的支持,最糟糕的是不重要的渣滓。最好的接口的目的不是在某種淺層意義上用戶友好。它在更強的意義上是用戶友好的,關於世界,使它們成為用戶生活和創造的工作條件。在那一點上,曾經出現過奇怪的東西可以變得舒適和熟悉,成為思想模式的一部分。

這對於使用AI模型進行智力增強代表著什麼?

令人嚮往的是,正如我們所見,我們的機器學習模型將幫助我們構建界面,以對用戶有意義的方式實現深層原則。為了實現這一點,模型必須發現關於世界的深層原則,識別這些原則,然後在界面中以用戶可理解的方式儘可能生動地表現它們。

當然,這是一個很高的命令!我們展示的例子幾乎沒有開始這樣做。確實,我們的模型有時會發現相對較深的原則,例如在加粗字體時保留封閉的負空間。但這僅僅隱含在模型中。雖然我們已經構建了一個利用這些原則的工具,但如果模型自動推斷出所學的重要原則,並找到通過界面明確表示它們的方法,那就更好了。(鼓勵取得進展)使用信息理論思想來尋找潛在空間中的結構。)理想情況下,這些模型將開始得到真實的解釋,不僅僅是靜態形式,而是動態形式,可由用戶操縱。但是從那時起我們還有很長的路要走。

這些界面會抑制創造力嗎?

我們很容易懷疑我們所描述的接口的表現力。如果界面限制我們只探索圖像的自然空間,那是否代表著我們只是在做預期的?這是否代表著這些界面只能用於生成視覺陳詞濫調?它是否會阻止我們從創造真正的創造性工作中產生任何真正新的東西?

要回答這些問題,找出兩種不同的創造方式是有幫助的。這種雙模式模式過於簡化:創造力並不完全適合兩個不同的類別。然而,該模型澄清了新界面在創造性工作中的作用。

第一種創造方式是從事工藝的工匠的日常創造力。例如,字體設計師的大部分工作都包括對最佳現有實踐的有效重組。此類工作通常涉及許多創造性選擇,以滿足預期的設計目標,但不會開發關鍵的新基礎原則。

對於這樣的工作,我們一直在討論的生成接口是有希望的。雖然它們目前有許多局限性,但未來的研究將識別並解決許多不足之處。這與GAN迅速發生:原始的GAN有許多限制,但很快出現的模型更適合圖像,提高了解析度,減少了偽影, 等等。通過足夠的疊代,這些生成接口將成為工藝工作的強大工具,這似乎是合理的。

第二種創造方式旨在開發從根本上改變創造性表達範圍的新原則。人們在畢卡索或莫奈等藝術家的作品中看到了這一點,他們違反了現有的繪畫原則,開發了新的原則,使人們能夠以新的方式看待。

使用生成界面時,是否可以進行此類創造性工作?難道這些界面不會將我們限制在自然圖像或自然字體的空間中,從而積極地阻止我們探索創造性工作中最有趣的新方向嗎?

情況比這更複雜。

在某種程度上,這是關於我們生成模型的力量的問題。在某些情況下,模型只能生成現有想法的重組。這是理想GAN的限制,因為訓練有素的GAN生成器將重現訓練分布。這樣的模型不能基於新的基本原理直接生成圖像,因為這樣的圖像看起來不像它在訓練數據中看到的那樣。

Mario Klingemann和Mike Tyka 等藝術家現在正在使用GAN創作有趣的藝術作品。他們正在使用「不完美」的GAN模型,他們似乎可以用來探索有趣的新原則; 也許情況可能是,糟糕的GAN可能比理想的GAN更具藝術趣味。此外,沒有什麼說接口必須只能幫助我們探索潛在的空間。也許可以添加操作,故意將我們帶出潛在的空間,或者自然圖像空間的不太可能(以及更令人驚訝的)部分。

當然,GAN不是唯一的生成模型。在一個足夠強大的生成模型中,模型發現的概括可能包含超出人類發現的想法。在這種情況下,對潛在空間的探索可以使我們發現新的基本原理。該模型將發現比人類專家更強大的抽象。想像一下,在立體主義者的時代之前,一直在繪畫的生成模型; 可能是通過探索這個模型,有可能發現立體主義嗎?如本文前面所討論的那樣,它將類似於玻色 - 愛因斯坦凝聚的預測。這樣的發明超越了今天的生成模型,但對於未來的模型似乎是值得的。

到目前為止,我們的例子都是基於生成模型。但是有一些有啟發性的模型不是基於生成模型。考慮一下開發的pix2pix系統。該系統在成對的圖像上訓練,例如,顯示貓的邊緣的對和實際相應的貓。一旦經過訓練,就可以顯示一組邊緣並要求生成實際相應貓的圖像。它經常做得很好:

模型中的表示的用戶界面,我們可以為人們提供推理的新工具。什麼

當提供不尋常的約束時,pix2pix可以產生醒目的圖像:

研究院,轉載須授權通過創建允許我們使用機器學習

與我們之前的例子不同,pix2pix不是一個生成模型。這代表著它沒有潛在的空間或相應的自然圖像空間。相反,有一個神經網絡,被稱為混淆,一個生成器 - 這與我們早期的生成模型沒有意義相同 - 將約束圖像作為輸入,並產生填充圖像作為輸出。

對發生器進行針對鑑別器網絡的訓練,其作用是區分由真實數據產生的圖像對和由發生器產生的圖像對。

雖然這聽起來類似於傳統的GAN,但存在一個至關重要的分別:發生器沒有潛在的矢量輸入 5。相反,只有一個輸入約束。當人類輸入一個不同於訓練中所見的約束時,網絡被迫即興發揮,盡其所能根據先前學到的規則來解釋該約束。創造力是從訓練數據推斷的知識的強制合併以及用戶提供的新穎約束的結果。因此,即使是相對簡單的想法 - 如麵包和旁觀者貓 - 也會產生引人注目的新型圖像,圖像不在我們以前認為的自然圖像空間之內。

結論

人工智慧將改變我們與計算機交互的方式,這是傳統觀念。不幸的是,AI社區中的許多人都大大低估了界面設計的深度,經常將其視為一個簡單的問題,主要是關於使事情變得漂亮或易於使用。在這種觀點中,界面設計是一個需要傳遞給他人的問題,而艱苦的工作則是培養一些機器學習系統。

此視圖不正確。最深的是,界面設計代表著開發人類思考和創造的基本原則。這是一個問題,其知識產生可追溯到字母表,製圖和音樂符號的發明者,以及現代巨人如笛卡爾,Playfair,費曼,恩格爾巴特和凱。這是人類在努力解決的最困難,最重要和最基本的問題之一。

如前所述,在人工智慧的一個共同觀點中,我們的計算機將繼續更好地解決問題,但人類將基本保持不變。在第二種常見觀點中,人類將在硬體層面進行修改,可能直接通過神經接口進行修改,或通過全腦仿真間接進行修改。

我們已經描述了第三種觀點,其中AI實際上改變了人性,幫助我們發明了新的認知技術,擴展了人類思想的範圍。或許有一天,這些認知技術將在一個良性反饋循環中加速AI的發展:

出品|CDA數據分析

它不會是機器中的奇點。相反,它將是人類思想範圍內的奇點。當然,這個循環目前非常具有推測性。我們所描述的系統可以幫助開發更強大的思維方式,但最多只是間接意義上的這些思維方式被用來開發新的AI系統。

當然,從長遠來看,機器可能會在所有或大多數認知任務上超過人類。即使是這種情況,認知轉型仍然是一個有價值的目標,值得追求。即使機器做得更好,學習下棋或順利進行也有樂趣和價值。在講故事等活動中,利益往往不是作為建築本身的過程和偽造的關係而產生的。除了工具性福利之外,個人變化和成長具有內在價值。

我們討論的面向接口的工作不在用於判斷人工智慧中大多數現有工作的敘述之外。它不涉及打破分類或回歸問題的一些基準。它並沒有涉及令人印象深刻的壯舉,例如在Go等遊戲中擊敗人類冠軍。相反,它涉及更主觀和難以衡量的標準:它是否有助於人類以新的方式思考和創造?

這給做這種工作帶來了困難,特別是在研究環境中。應該在哪裡發布?一個人屬於哪個社區?判斷此類工作應採用什麼標準?好的工作和壞的分別是什麼?

我們相信,在未來幾年內,將出現一個回答這些問題的社區。它將舉辦研討會和會議。它將在Distill等場所發布作品。它的標準將來自許多不同的社區:來自藝術和設計以及音樂社區; 來自數學界對抽象和良好定義的品味; 以及現有的AI和IA社區,包括計算創造力和人機互動方面的工作。成功的長期考驗將是創作者廣泛使用的工具的開發。藝術家是否使用這些工具開發出非凡的新風格?其他領域的科學家是否使用它們以其他方式發展理解?這些都是偉大的願望。

聲明:文章觀點僅代表作者本人,PTTZH僅提供信息發布平台存儲空間服務。
喔!快樂的時光竟然這麼快就過⋯
繼續其他精彩內容吧!
more