近年來第三代人工智能的討論熱度不斷升溫,特別在張鈸院士發文 “邁向第三代人工智能”之后,AI TIME精心策劃了一場關于“如何邁向知識驅動的人工智能”的PhD Debate,就大家關心的問題邀請了清華大學的韓旭和于濟凡、魁北克人工智能研究院的瞿錳、上海交通大學的晉嘉睿來為大家帶來專題研討。
人工智能60年的歷史中,一共經歷了兩代的發展。
第一代人工智能,優勢在于能夠模仿人類的推理、思考的過程,利用這個辦法進行機器學習。
第二代人工智能,就是大家非常熟悉的深度學習,通過深度神經網絡的模型模擬人類的感知,不需要專家數據,對人工的部分要求比較低,而且大規模神經網絡可以處理大規模數據。
為了彌補前兩代人工智能的不足,嘗試結合前兩代優勢的第三代人工智能應運而生,越來越多的研究者開始為第三代人工智能的發展添磚加瓦。
一、如何得到知識
連接第一代和第二代人工智能的一個關鍵概念是知識,這個概念在第一代人工智能中以人類定義的符號為載體,在第二代人工智能中則以機器從大量樣本中學習的特征為載體。
對于這個問題,大家首先從哲學的角度上進行探討,并認為應當在實際操作過程中拋開知識中行而上的部分。
韓旭進一步提出了自己的看法,提出知識可以被看做是高質量的信息,信息間有分散與集中之分,我們將分散的信息凝結為集中的信息的抽象過程本身就是提取知識的過程。在這種框架下,知識可以進一步分為不同的幾層,比如最底層可能是無結構化的文本信息,進一步是結構化的知識圖譜,再進一步抽象,還可以提取出常識、本體等概念信息等。
瞿錳則討論了知識對人類和機器的不同,有一些知識是人類可以利用但機器所不具備,比如人類有一些對世界的常識,而機器學習出的更多的都是領域的知識。
晉嘉睿進一步提出了在強化學習中,有一種方法是利用其它智能體的經驗來學習的方法,比如模仿學習等,這種方法中,其它智能體的經驗可能就是一種知識。
對于如何表示知識的問題,從萊布尼茨開始,人們希望可以通過數理符號來幫助機器進行推理,這是符號主義的濫觴。而近年來的深度學習的成功則是連接主義的成功。這兩種方向有差異,但沒有明確的對錯之分,比如簡單的數理邏輯,符號主義的方法會好過連接主義,而對于擬合能力,連接主義顯然更勝一籌。第三代人工智能可以說是一種符號主義和連接主義的結合。
瞿錳以人類學習的方式來說明,有一些可以寫下來的比如交通規則,這些可以說是符號主義,有一些需要意會的,更像是連接主義。另一種是行為主義,模仿專家的規律,比如學習圍棋大師下棋。晉嘉睿提出這些方法和主義都可以看成類腦的想法。
在討論中,于濟凡提出除了關注什么是知識,我們還需要關注什么不是知識。晉嘉睿提出一種不是知識的點可能是一千維的數據和特征可以學習成一百維的知識,另外九百維就不是知識。韓旭提出對于人類和機器來說,知識可能不完全一樣。對人類友好的知識形式不見的是對機器友好的,我們在討論知識對機器學習的作用的時候應當考慮這一點。瞿錳在討論中抓住了有用和可以泛化的兩個關鍵點可以來定義知識。
對于抽取知識的方法,韓旭介紹了有關信息抽取的工作,包括關系抽取,實體抽取的方法。瞿錳進一步在邏輯的方法,進行了闡釋,這些方法可以分為兩大類,一個是從上而下和另一個是從下到上的方法。于濟凡提出在應用中,可以提前定義出來,比如一些邏輯。
二、如何利用知識結合學習的方法
對于知識以及邏輯的應用,瞿錳將現有的方法歸納為兩種:一種是把知識當作額外的輸入,比如電商在推薦框架中可以進一步輸入知識圖譜,這種方法通過對模型架構進行修改實現知識的應用;另一種是可以把知識用作數據標注,比如用知識圖譜標注數據,這種方法可以在不改變模型架構的前提下實現知識的利用。這些方法會融入概率圖模型,強化學習和知識蒸餾等方法。而這些方法同時也帶來了一些挑戰,比如可以不可以建立一個統一的模型將知識的利用融入到模型的設計之中。這些設計是不是可以利用神經網絡搜索的方法來幫助模型來學習。
晉嘉睿進一步討論了先可以用學習的方法來預測標簽,然后利用預測標簽來進行學習。
于濟凡提出了利用大規模預訓練的方法將知識進行融合。
韓旭認為結合特定知識對不同的任務或是問題單獨設計針對性的神經網絡會達到比較好的效果,預訓練模型更多的是一種整合知識的方法。有些時候不是機器學習不好,而可能是人們問的方法不對或是任務不好。
三、如何利用知識落地
在定義和表達之后,另一個問題就是知識如何落地到現實生活中,于濟凡認為業界在知識圖譜的構建已經走到了下半場,但是知識圖譜的應用還在上半場。第一種場景是利用知識圖譜來幫助之前的一些任務,比如電商場景,第二種場景在于知識相關度比較高的產業,比如教育等,知識結構本身就可以作為一個產品。另一種場景是利用知識來幫助人們進行決策,知識可以給國家政府提供可解釋的決策。
韓旭提出了在將知識融于一些傳統行業會涉及到相關人員如何適應新的人工智能來輔助的系統。晉嘉睿補充舉例了在阿里電商場景下的知識和邏輯的應用。有一些圖譜的構建在現實生活中是做不到的。于濟凡提出在弱資源下如何構建知識圖譜依然是一大挑戰。
關于挑戰和機遇的問題,晉嘉睿補充了在因果推理方面,如何利用反事實學習的方法進行學習。瞿錳提出了構建第三代人工智能的一大瓶頸是新的算法模型,韓旭補充目前的方法在學習和推理的結合方面并沒有達到最優的表現,知識驅動的人工智能期待新工具的提出和應用。