張鈸院士專訪:人工智能永遠在路上
來源: 瑞萊智慧RealAI
新一代人工智能蓬勃興起,各類應用加速落地,“人工智能”的本質到底是什麼?今天,以數據驅動的人工智能在“奔跑”的道路又會遭遇哪些瓶頸問題?什麼是第三代人工智能?它能讓人工智能更加安全、可信、可靠嗎?
本期《超級智能》,世界工程組織聯合會(WFEO)主席,中國新一代人工智能發展戰略研究院執行院長龔克深度對話中國科學院院士、清華大學人工智能研究院名譽院長、我國人工智能奠基人、瑞萊智慧RealAI首席科學家張鈸,從本源出發,去探尋人工智能的未來。
專家介紹
龔克
世界工程組織聯合會(WFEO)主席、
中國新一代人工智能發展戰略研究院執行院長、
南開大學學術委員會主任
張鈸
中國科學院院士、
清華大學人工智能研究院名譽院長、
我國人工智能奠基人、
瑞萊智慧RealAI首席科學家
訪談直擊
情景再現
1
什麼是人工智能?
龔克
張老師,我知道您是我們在中國的科學家裡最早接觸人工智能的(之一),現在人工智能應該說是和原來已經不在一個階段了。
現在人工智能進入了2.0時代,我想這個階段非常重要的一個特點呢,從應用角度來講,是真正有了實際的應用的時期,在社會上的談論也特別多。
我想咱們回到一個根本的問題上:在您看來,到底什麼是人工智能?
張鈸
這個問題很好,因爲現在大家對於人工智能的問題都非常關注,但是對人工智能究竟做什麼?什麼是人工智能?大多數人還不是很理解,我們也是從四十多年的工作中慢慢地理解到人工智能究竟是做什麼的、究竟能做什麼。大家都以爲人工智能就是用機器來模擬人類的智能,但實際上這是很困難的。
大家知道,我們對人類的大腦和人的智能瞭解得很少。如果要沿着這個方向做研究的話,它必須去模擬大腦的工作機理,而怎麼去模擬大腦的工作機理?所以走這條路就很困難,這在人工智能領域也算是一個比較少數的流派。
現在大多數人做的人工智能,實際上是用機器來模擬人類的智能行爲,簡單地來理解就是:智能行爲就是智能的外部表現。比如說人類的情感,就是喜怒哀樂等情緒,是模擬困難的一部分,好多人以爲我們去模擬情感,是真的去模擬情感,所以大家對這個會提出質疑。
確實我們沒法去模擬人類的情感,因爲很多時候人類的情感無法定義,是因人而異的,我們不是很清楚當產生情感時,它的生理基礎是什麼、它的大腦起什麼變化、它的心理學基礎是什麼,所以人們會很疑惑人工智能到底能不能產生情感。
這個不是該對人工智能提出的問題,人工智能是要模擬情感的表現,比如說模擬快樂的表現,由一般情感通過三個途徑的表達,即臉部、語言及聲音、肢體的動作等方面進行模擬;或者通過情感分析,即通過分析人類的語言去分析他的情感。
這樣的前提是智能的行爲是可以觀察的,因爲可以觀察我們就可以模擬它,模擬的結果我們可以評價它,這就可以作爲一個科學問題來研究。
2
人工智能走到了什麼程度?
龔克
您現在談的是對“什麼是人工智能”這個問題的解答,我覺得非常受啓發。概括下來就是說人工智能實際上是在用人工,即我們設計的各種算法,利用各種工具去模擬人的智能行爲。
接下來,請您繼續爲我們分析下,基於我們對於人工智能的定義,在經過了這麼多年的發展後,人工智能現在走到了一個什麼程度?
張鈸
到本世紀初的時候,因爲我們有了大數據、有了計算能力,在這方面人工智能就在圖像識別、語音識別、文本處理方面有了很大的進步,而且也產生了很多實用的系統,這個技術現在還在繼續發展,因此人工智能取得了很大的進步。
3
什麼是人工智能?
龔克
我自己也有所體會。其實在我們九十年代的時候,當時也出現了一些手寫的輸入、語音的輸入,但對我個人來說,錯誤率太高,很不實用。
現在對比當時有了很大的進步,從原來的基本不可用到現在的基本可用,產生這樣的變化,像您剛纔所提到的是因爲我們有了大數據技術,我們有了強大的算力,使得我們有了深度機器學習的辦法。那是不是就可以說機器學習就是人工智能了呢?
張鈸
應該說機器學習是人工智能中間的一部分,而且深度學習是機器學習裡頭的一部分。語音識別、圖像識別在深度學習出來之前,它基本上是不能用的,主要歸功於大數據的數據和計算能力。
這幾年算法技術本身就有很大的改進,但是在這之前,算法在其中的貢獻還不是很大,因爲和以前的技術不可同日而語了,現在有很快速的算法了。深度學習,我們現在把它叫做第二代人工智能,有的時候又把它叫做數據驅動的方法,因爲它必須要有數據來驅動。
人工智能的創始人最早就提出來一個基於知識和經驗的符號推理模型,比如醫生看病,這是一種診斷的行爲,是醫生利用他本身豐富的醫學知識和臨牀經驗做一些推理,一般情況就是從症狀到疾病的推理,然後再從疾病到如何用藥做治療。
所以我們可以把人類的很多行爲看成是在知識和經驗支持下面的一些推理行爲,它是專門針對某些領域,醫療也好、生產過程也好、調度過程也好,建立的這些實用的專家系統,我們把它叫做第一代人工智能。現在,支撐人工智能發展的主要是知識驅動和數據驅動。
4
怎麼看待建立可信、可靠的人工智能?
龔克
人們對現在的人工智能,比如說我們要建立可信的人工智能、可靠的人工智能,張老師您怎麼看待這個問題?
張鈸
深度學習就是剛纔說的數據驅動的方法,有個很大的好處,它可以利用大數據做出來很多實用系統,但是有很大的問題,就是這個方法本質上是不可解釋的。如果嚴格地講,人工智能現在只能用到一些結構化的、變化比較小的、信息比較完備的環境中。
所以人工智能一個很大的問題就是如何處理這個不確定性,如果針對不確定性去做的話,做出來的系統就很難對付一些複雜的環境。
現在我們想出來的辦法,就是用概率統計的方法去做,把概率加進入,實際上考慮了不確定性,這樣才符合實際情況。應該說現在人工智能遇到了一個很大的困難,我過去用“天花板問題”來描述它,即單純地沿着兩代人工智能的方法走下去,會遇到的很大的困難。
5
爲什麼提出“第三代人工智能”的概念?
龔克
您用了“天花板”這個詞,實際上是描述這個困難之大,人工智能的發展受到很嚴重侷限。您在2015年的時候提出了“第三代人工智能”的概念,爲什麼要提出這個概念呢?
張鈸
2015年,在深度學習在全世界範圍內如日中天被討論的時候,首先是由美國發現了深度學習的一個非常致命的缺點——深度學習非常脆弱。
他們做了一個圖像,原來是熊貓的圖像,機器的識別率很高,但是如果在熊貓的圖像上加上一點點噪聲,人類可以識別它是熊貓,可機器卻會99.9%的認爲它是長臂猿。
機器跟人類的視覺是完全不同的,在一定條件下,它的識別率甚至能超過人類,但它跟人類視覺的性能差得太遠了。拿上面的例子來說,只有將圖片上的熊貓改變成語言概念上的其他物種人類纔會識別出錯,但對於機器來說,即使給圖片上加上一點點噪聲,語義上沒有任何改變,機器仍然會將圖片識別成完全不同的東西。
這就說明機器的根本不能理解圖像的語義的,而只是處理實際上的形式。不僅僅圖像是這樣,語音、文本也是這樣,尤其是文本,只要加上一點點變化,文章的意思就完全不同。
之所以會有這樣的現象,就是因爲純粹數據驅動的方法會必然帶來這樣的問題。與人類從大的輪廓來識別圖像不同,人工神經網絡、深度學習只能提取局部的紋理色彩特徵,所以只要改變局部的特徵,就會出現識別錯誤。如果用技術的術語來講的話,數據驅動最大的問題就在於單純的數據驅動只是在低層次的特徵空間層面來識別物體,而不是在高層的語義空間中進行識別。
因此,我們提出了“第三代人工智能”的概念,就是把數據驅動和知識驅動結合起來。
數據驅動爲什麼會有那麼多的缺點?是因爲在人工智能領域,只用了數據驅動的三個要素:數據、算力和算法。同樣的,知識驅動也有不少的缺點,我們也只用了其中另外的三個要素:
知識、算法和算力。
爲了克服這兩個算法存在的缺點,應該將四個要素結合起來,而且四個要素之間,我認爲應該遵循以下的順序:第一應該是知識,我認爲知識才是人類智慧的源泉;第二是數據,因爲機器處理數據能力遠比人類強,利用這個要素,機器就有可能做出超越人類(能力)的事情;第三是算法;第四是算力。我們現在也是沿着這個方向去發展第三代人工智能。
6
結合產業應用,談談人工智能的發展
龔克
從現在來看,過去十多年來,以機器學習算法爲代表的大量應用走到了生產和生活裡,各種應用場景不斷地展開,知識的一些算法也有一定進展,期間也有一些結合。
下面張老師是不是能夠結合產業的應用,來進一步的談一談人工智能的發展?
張鈸
這也是一個很好的問題。實際上人工智能從一開始就非常重視應用和產業發展,當時也一直在摸索人工智能產業的發展道路應該是什麼樣子,同樣也是經過六七十年的發展,不斷地積累經驗。
最初時候的發展有點像按照信息產業發展的路子走,我們能看到信息產業的發展是非常快而且非常順利的,中間基本上沒有過停頓。
它的發展路徑,拿計算機來講,首先是做機器、做硬件等體系結構,經過了三代的發展,由一臺機器好多人用發展到一臺機器一個人用,再到後來的以手機爲代表的移動端,它的發展是非常迅速的,產業的發展也非常順利。
從硬件到系統軟件,再到後來成千上萬的應用軟件的開發,每一個硬件、每一個軟件都能支撐起大量的企業。之所以會這樣,在於軟硬件具有通用性,具有很大的市場,從而推動了信息產業的快速發展。
人工智能一開始發展時,也有一部分人想沿着信息產業的發展道路走,如七八十年代美國的Lisp機、日本的五代機,都是想做出來一個人工智能的硬件或者機器,在此之上發展軟件及應用,但是後來都失敗了,沒能形成產業,原因就在於人工智能沒有理論基礎的支持,我們不知道智能機器應該是什麼樣子的。
後來大家被迫選擇了一條路,現在看來這條路也還是可以的。如上面說到的人工智能所擁有的兩類算法:基於數據驅動的算法和基於知識驅動的算法,我們現在的產業就不是從硬件出發,而是從算法出發,根據算法來定義硬件或者定義軟件,所以不是硬件在先而是算法在先。或者我們不去定義硬件,而是利用現有的硬件來進行應用,且這個應用是必須針對行業的應用,場景的應用,這一點和信息產業不同。
深度學習出現之後,緊接着大家就用深度學習的算法去定義一些硬件,如我們現在看到的所謂AI芯片,它實際上是由深度學習定義出來的硬件,我們也可以用算法開發出來的各種各樣的計算平臺去應用,現在看起來,企業發展還是很快的。
基於知識算法的系統,比如已經出現的各種專家系統,它一定是跟領域緊密相連的,因此它就存在很大的侷限性;基於數據驅動的算法開發出來的產品要比基於知識驅動開發出來的產品要多,但它本身也有一個非常大的弱點,也由算法帶來,限制了它的應用場景。要解決算法的問題,唯一的辦法就是開展基礎研究去克服缺陷,如果我們有辦法克服它,那麼產業就會得到高速的發展。
7
要將通用算法和專業算法結合嗎?
龔克
我聽張老師您講了這一段以後,也很受啓發,我感覺是這樣,我們在人工智能的發展,特別是技術產業發展的過程中,更加凸顯了我們對人工智能紮實的基礎理論的強烈需求。它不是簡單地在一個現有的方法上做一些微調就可能克服我們所有的問題,要從根本上解決問題,我們需要加強基礎研究,但這個基礎研究並不是很遙遠的,並不是遠遠地脫離我們現在的產業實踐。
根據您剛纔的講述,我們是不是可以理解爲一方面要很好地做一個紮實的理論,另一方面也需要對具體的應用場景有比較深入地把握,結合具體應用場景去發展,即通用算法和專業算法還是需要很好地結合?
張鈸
你說得很對。
人工智能從1978年開始發展,我們基本上經歷了人工智能的整個發展過程,前面的二十年基本是探索的過程,這與信息產業的發展非常不一樣。
信息產業的整個發展思路是非常清楚的,人工智能完全不一樣。人工智能是在探索“無人區”,我們連什麼叫智能都沒有搞清楚,人工智能始終在我們對智能一知半解的情況下發展的。
所以其發展就必須要有兩個精神:一個是堅韌不拔,因爲人工智能的發展一定會有起伏;一個是必須相信人工智能永遠在路上,不應該急於求成,必須得有一個長期奮鬥的思想。
未來智能實驗室的主要工作包括:建立AI智能系統智商評測體系,開展世界人工智能智商評測;開展互聯網(城市)大腦研究計劃,構建互聯網(城市)大腦技術和企業圖譜,爲提升企業,行業與城市的智能水平服務。每日推薦範圍未來科技發展趨勢的學習型文章。目前線上平臺已收藏上千篇精華前沿科技文章和報告。