人工智能潮起,巨頭紛紛搶灘,薩摩耶數科會用遷移學習激起怎樣的浪花?
曾幾何時,讓·鮑德里亞說“人工智能的可悲之處在於它不夠巧妙,因而不夠智能。”如今,用這句話描述人工智能已越來越不恰當。
蘋果、特斯拉、滴滴、百度等國內外巨頭在無人駕駛上的頻頻加碼,讓無人駕駛技術進入了發展的快車道。但自動駕駛,只是人工智能的一個細分領域。
“人工智能是我們人類正在從事的最爲深刻的研究方向之一,甚至要比火與電還更加深刻。” 桑德爾·皮猜曾指出。
近期,一項名爲“遷移學習”的技術被谷歌、阿里雲、薩摩耶數科等知名企業頻頻提及,這項技術雖然不如智能駕駛那麼“接地氣”,但在商業應用上的價值卻毫不遜色。
圖片來源於網絡
無處不在的遷移學習
究竟什麼是遷移學習?“你永遠不能理解一種語言——除非你至少理解兩種語言。”英國作家傑弗裡·威廉斯的這句話有助於我們理解什麼是遷移學習。
不必討論它冗長的概念,只需要思考一些生活中的細節。在幼兒園學習拼音的時候,老師教我們“a、o、e、i、u、ü”,教我們聲母、韻母如何搭配組合;而在我們學習英語的時候,常常自然而然地將一些拼音中的規律帶到音標中,這就是遷移學習一個常見的應用。
學習一類外語時,人們常常將在學習母語過程中的經驗、技巧、習慣、方式不自覺的遷移運用於新語種的學習當中。如果是可借鑑的經驗與方法,我們會獲取並且加深這種學習方式,如果是不適用的方法,我們則會放棄,換一種學習方式。
遷移學習的原理與人類學習語言的過程十分相似,在從源領域(比如漢語中拼音)學習的過程中,根據目標領域(比如英語中的音標)的數據特性,來決定是否需要將知識從源領域遷移到目標領域。
數據是人工智能的底層基礎,也是人工智能時代最核心的競爭力之一,必然“洛陽紙貴”。
如果源數據是“1”,那遷移學習的價值在於,它可以在源數據在源領域實現自身“1”的價值的同時,在諸多目標領域實現0.5、0.6乃至0.9的價值;使用遷移學習的新模型在開發過程中,也不用經歷“從0到1”的過程,而是從0.5、0.6乃至0.9起步。
在薩摩耶數科看來,遷移學習就是“借力打力”,酷似諸葛孔明草船借箭,通過“借力”它將自己學習的框架放大,找到更多更有“能力”的樣本,並且充分利用他們的能力。
如今遷移學習已成爲機器學習的基礎研究領域之一,在計算機視覺、文本分類、醫療健康領域有着廣闊的應用場景,當然也包括金融領域。
“與廣告推薦等領域相比,金融領域獲取的無偏樣本不僅僅需要獲客成本、營銷推廣費用,更需要付出昂貴的客戶逾期成本。而使用遷移學習的時候,就可以直接採用大量的業務樣本,這種近乎於零成本的樣本獲取方式的優勢正是建模樣本所或缺的,能夠解決有標註的樣本的昂貴的產生代價問題。” 薩摩耶數科人工智能部負責人指出。
薩摩耶數科是一家以AI爲驅動的金融數字科技公司,現有團隊規模超450人,其中風控及研發技術人員佔比80%以上,依託人工智能和雲計算等技術,爲金融機構提供全方位、專業的數字金融科技服務。截至2021年一季度,薩摩耶數科已與包括商業銀行、消費金融公司在內的超100家機構達成合作,累計註冊用戶超7130萬。
而遷移學習就是薩摩耶數科在人工智能領域廣泛應用的技術之一。
薩摩耶數科與遷移學習
薩摩耶數科是國內較早將遷移學習應用於金融科技領域的企業之一。通過結合薩摩耶數科內部常用的自動建模平臺AUTOMAN,薩摩耶數科開發了一套合適自身特點和需求的遷移學習工具。
例如在通過AUTOMAN自動建模過程中,在存在兩份建模數據集(目標數據集、輔助數據集)的前提下,通過遷移學習的方式,來調整兩份樣本中每個樣本實例的權重,通過每一輪的迭代,使得目標數據集中的錯分樣本權重提高,同時使得輔助數據集中的錯分樣本權重降低;如此,使得輔助數據集中有用的樣本可以爲建模集所用,而無用的樣本從建模集中剔除,來實現建模數據樣本的調整。
該工具是否真的能通過遷移學習的方法改善建模效果?薩摩耶數科舉了一個項目實例:
此項目模擬了兩個數據集用遷移學習方式改善建模效果的實例,實際的樣本構成如下表所示:
最終建模效果如下圖所示,在相同的跨時間建模樣本上驗證模型效果,KS從0.328提升到0.406,效果有了非常顯著的提升。儘管兩份數據集的正樣本比例有着巨大的差距(圖1所示),但遷移學習可以在迭代的過程中消除這種差異,將可用數據爲建模數據集所用。
從此項目實例可以看出,遷移學習在金融領域大有可爲,而薩摩耶數科就是這項技術的先行者之一。
經過了十餘年的發展,金融科技已經走過了一個完整的週期,大浪淘沙之下,穿越週期的企業很少,其中就有薩摩耶數科的身影。“穿越週期需要終局思維”薩摩耶數科董事長林建明曾如此說。
薩摩耶數科的終局思維體現在哪裡?就在諸如遷移學習等人工智能技術上。截止2021年Q1季度,薩摩耶數科知識產權申請(專利、商標、著作權)418個,行業獲獎超50項。
6月初,智源研究院理事長張宏江一次活動上指出:在智能化時代,AI已經像電力一樣變成無所不在的能力,數據已經像燃料一樣變得隨處都需要。
誠然,人工智能早已不再是侷限於圍棋上的阿爾法狗,它與我們的生活聯繫越來越緊密,若說AI是“電力”,數據是“燃料”,那遷移學習這類技術是什麼呢?在薩摩耶數科看來,它是人類在提升“燃料”使用效率的探索,就像人類對內燃機的改進和研究。