深度學習 AI 解釋:神經網絡

來源:ScienceAI

編譯:綠蘿

在過去的 10 年裡,性能最好的人工智能系統——比如智能手機上的語音識別器或谷歌最新的自動翻譯器——都是由一種稱爲「深度學習」的技術產生的。

深度學習實際上是一種稱爲神經網絡的人工智能方法的新名稱,70 多年來一直時興時衰。神經網絡最初是由 Warren McCullough 和 Walter Pitts 於 1944 年提出的,這兩位芝加哥大學的研究人員於 1952 年搬到麻省理工學院,他們有時被稱爲第一個認知科學系的創始成員。

神經網絡是神經科學和計算機科學的一個主要研究領域,直到 1969 年,根據計算機科學界的傳說,它們被麻省理工學院的數學家 Marvin Minsky 和 Seymour Papert 「扼殺」了。一年後,Marvin Minsky 和 Seymour Papert 成爲麻省理工學院新的人工智能實驗室的聯合主任。

該技術隨後在 20 世紀 80 年代復興,在新世紀的第一個十年再次陷入衰退,並在第二個十年如火如荼地迴歸,主要是由於圖形芯片處理能力的提高。

麻省理工學院麥戈文腦科學研究所研究員、麻省理工學院大腦、思想和機器中心、麻省理工學院腦與認知科學教授 Tomaso Poggio 說:「有一種觀點認爲科學中的想法有點像病毒的流行。 顯然有五六種基本的流感病毒株,而且顯然每一種都會在大約 25 年的時間內迴歸。人們被感染後會產生免疫反應,因此在接下來的 25 年內不會被感染。然後新的一代,將被同一株病毒感染。在科學中,人們會愛上一個想法,爲之興奮,將其錘死,然後免疫——他們厭倦了它。所以思想應該有同樣的週期性!」

重大事項

神經網絡是進行機器學習的一種手段,計算機通過分析訓練示例來學習執行某些任務。通常,這些示例已經預先進行了手工標記。例如,對象識別系統可能會收到數千張帶有汽車、房屋、咖啡杯等標籤的圖像,它會在圖像中找到與特定標籤一致相關的視覺模式。

神經網絡以人腦爲模型,由數千甚至數百萬個緊密互連的簡單處理節點組成。今天的大多數神經網絡都被組織成節點層,它們是「前饋」的,這意味着數據只能在一個方向上通過它們。一個單獨的節點可以連接到它下面一層的幾個節點,從那裡接收數據,並連接到它上面一層的幾個節點,向那裡發送數據。

對於每個傳入的連接,節點將分配一個稱爲「權重」的數字。當網絡處於活動狀態時,節點在其每個連接上接收不同的數據項(不同的數字),並將其乘以相關的權重。然後將結果乘積加在一起,產生一個數字。如果該數字低於閾值,則節點不會將數據傳遞到下一層。如果數量超過閾值,則節點「觸發」,這在當今的神經網絡中,通常意味着沿其所有輸出連接發送數字——加權輸入的總和。

在訓練神經網絡時,其所有權重和閾值最初都設置爲隨機值。訓練數據被饋送到底層——輸入層——它通過後續層,以複雜的方式相乘和相加,直到最終到達輸出層,徹底改變。在訓練期間,權重和閾值會不斷調整,直到具有相同標籤的訓練數據始終產生相似的輸出。

頭腦和機器

McCullough 和 Pitts 在 1944 年描述的神經網絡有閾值和權重,但沒有分層,研究人員也沒有指定任何訓練機制。McCullough 和 Pitts 表明,原則上,神經網絡可以計算數字計算機可以計算的任何函數。結果是神經科學而不是計算機科學:重點是表明人腦可以被認爲是一種計算設備。

神經網絡仍然是神經科學研究的寶貴工具。例如,用於調整權重和閾值的特定網絡佈局或規則,再現了觀察到的人類神經解剖學和認知特徵,這表明它們捕獲了大腦如何處理信息的某些信息。

1957 年,康奈爾大學心理學家 Frank Rosenblatt 展示了第一個可訓練的神經網絡——感知器。感知器的設計與現代神經網絡的設計非常相似,只是它只有一層,權重和閾值可調,夾在輸入層和輸出層之間。

在 1959 年之前,感知器一直是心理學和計算機科學等新興學科的活躍研究領域,當時 Minsky 和 Papert 出版了一本名爲《感知器》的書,該書表明在感知器上執行某些相當常見的計算會非常耗時。

「當然,如果你採用稍微複雜一點的機器——比如兩層,所有這些限制都會消失,」Poggio 說。但當時,這本書對神經網絡研究產生了寒蟬效應。

「你必須把這些事情放在歷史背景下,」Poggio 說。「他們在爭論編程——像 Lisp 這樣的語言。不久之前,人們還在使用模擬計算機。當時根本不清楚編程要走的路。我認爲他們有點過火了,但像往常一樣,這不是黑白分明的。如果你認爲這是模擬計算和數字計算之間的競爭,他們在爲當時正確的事情而戰。」

週期性

然而,到 20 世紀 80 年代,研究人員已經開發出修改神經網絡權重和閾值的算法,這些算法對於具有不止一層的網絡來說足夠有效,消除了 Minsky 和 Papert 確定的許多限制,該領域迎來了復興。

但從理智上講,神經網絡有一些不令人滿意的地方。足夠的訓練可能會將網絡的設置修改爲可以對數據進行有用的分類,但這些設置意味着什麼?對象識別器正在查看哪些圖像特徵,它如何將它們拼湊成汽車、房屋和咖啡杯的獨特視覺特徵?查看單個連接的權重並不能回答這個問題。

近年來,計算機科學家開始想出巧妙的方法來推斷神經網絡採用的分析策略。但在 20 世紀 80 年代,網絡的策略難以理解。所以在世紀之交,神經網絡被支持向量機取代,支持向量機是一種基於一些非常簡潔「優雅」的數學的機器學習替代方法。

最近神經網絡的復興——深度學習革命——得益於計算機遊戲行業。當今視頻遊戲的複雜圖像和快速節奏需要能夠跟上的硬件,結果就是圖形處理單元 (GPU),它在單個芯片上封裝了數千個相對簡單的處理內核。研究人員很快就意識到 GPU 的架構與神經網絡的架構非常相似。

現代 GPU 使 20 世紀 60 年代的單層網絡和 20 世紀 80 年代的兩到三層網絡發展爲今天的 10 層、15 層甚至 50 層網絡。這就是「深度學習」中的「深度」所指的——網絡層的深度。目前,深度學習幾乎在人工智能研究的每個領域都爲性能最佳的系統負責。

引擎蓋下

網絡的不透明性仍然令理論家感到不安,但在這方面也取得了進展。除了指導大腦、思維和機器中心 (CBMM) 外,Poggio 還領導該中心的智能理論框架研究項目。最近,Poggio 和他的 CBMM 同事發佈了一個由三部分組成的神經網絡理論研究。

內容地址:https://cbmm.mit.edu/research/thrusts/theoretical-frameworks-intelligence

第一部分發表在《國際自動化與計算雜誌》(International Journal of Automation and Computing)上,討論了深度學習網絡可以執行的計算範圍,以及深度網絡何時比淺層網絡更具優勢。

論文地址:https://link.springer.com/article/10.1007/s11633-017-1054-2

第二部分和第三部分已作爲 CBMM 技術報告發布,解決了全局優化問題;或保證網絡找到最符合其訓練數據的設置、過度擬合;或者網絡變得如此適應其訓練數據的細節以致無法推廣到相同類別的其他實例的情況。

論文地址:

http://cbmm.mit.edu/sites/default/files/publications/CBMM-Memo-067.pdf

還有很多理論問題有待回答,但 CBMM 研究人員的工作,可以幫助確保神經網絡最終打破使它們在七十年內受到青睞和失寵的世代循環。

參考內容:https://scitechdaily.com/deep-learning-ai-explained-neural-networks/

未來智能實驗室的主要工作包括:建立AI智能系統智商評測體系,開展世界人工智能智商評測;開展互聯網(城市)大腦研究計劃,構建互聯網(城市)大腦技術和企業圖譜,爲提升企業,行業與城市的智能水平服務。每日推薦範圍未來科技發展趨勢的學習型文章。目前線上平臺已收藏上千篇精華前沿科技文章和報告。

如果您對實驗室的研究感興趣,歡迎加入未來智能實驗室線上平臺。掃描以下二維碼或點擊本文左下角“閱讀原文”