爲什麼數據整合很難?圖靈獎得主邁克爾·斯通布雷克這樣“解答”

5月26日,2022中國國際大數據產業博覽會開幕式在線上舉辦。2014圖靈獎得主、世界知名數據庫科學家邁克爾·斯通布雷克在開幕式上說,爲什麼數據整合很難,因爲必然會遇到要集成多個數據源的情況。

邁克爾·斯通布雷克舉出例子,他說,假設你的員工數據庫設在巴黎,而我的員工數據庫設在紐約,你有員工,我也有員工;你的員工拿的是定期薪水,我的員工拿的是計時計件工資,所以這兩種數據庫模式不一樣;你的員工的薪水用歐元支付,而我的員工薪水用美元支付,貨幣單位也不一樣,我付給員工的工資是稅前總額以美元計,而你付給員工的薪水是稅後淨額以歐元計,而且包含午餐補貼……所以你得付出精力,把雙方數據進行統一協調,然後還得想辦法處理無效數據。

想象一下,這些數據中可能有10%的數據丟失或出錯,最簡單的例子是有很多人會輸入-99,而這是空值,如果你在分析時把-99當成了真實數值,那麼你肯定會得到錯誤的結果,所以必須清理數據,同時也必須清除重複數據。如果有一名員工部分時間在巴黎工作,部分時間在紐約工作,那麼就必須刪掉重複數據,避免重複計算。當然,其中沒有任何捷徑,得將數據進行模糊匹配。比如,我是在巴黎工作的斯通布雷克,而另一個人是在紐約上班的斯通布雷克,兩者只有姓氏不一樣,所有這樣的混亂都必須解決,而這一過程很複雜,也很難,但如果不這麼做,數據分析就沒有意義,機器學習模型就會失效自然這一切也就喪失了價值意義。

(貴陽日報融媒體記者 高春春)