你可能不知道的!大數據分析方法與實務應用

文:黃正傑 2020-06-16

發布時間: 2020-06-11 17:11:00

KDD 數據挖掘 大數據 數位轉型


數據挖掘從數據裡挑出金礦


11-14.jpg


大數據分析是"舊方法+新數據+新運算技術"的融合,大數據分析方法類型,製造業常見的大數據分析應用方向。




1980年代,人工智慧許多技術問題無法突破,造成第二次衰退。於是有些學者開始思考將焦點轉至解決企業特定需求的實用問題。


俄羅斯科學家皮埃特斯基思索從資料庫挖掘有意義的模式(pattern)、知識協助企業分析,稱為「資料庫知識發現」(Knowledge Discovery in Databases;KDD)。


當時,已有一些統計學者運用統計學方法從資料中挖掘有趣的分析,稱為「數據挖掘」(Data Mining)。皮埃特斯基認為Data Mining並沒有具體指出其挖掘目的來自於知識發現,因此重新命名為KDD。


1989年,皮埃特斯基與其他學者發起KDD-89 workshop,召集21國家學者共同研究:專家知識庫系統、模糊規則、領域知識、結構式關聯資料學習、文本處理、視覺展現方法等,均以實務主題為導向。


1997年開始舉辦KDD Cup知識發現與數據挖掘競賽,至今聚集20萬以上個專家的龐大社群。2018年,Google 併購KDD Cup所屬經營團隊Kaggle。


KDD數據挖掘方法

從上述歷史可以理解,KDD或數據挖掘其實就是人工智慧實用化的分支之一。1989年,KDD討論的企業數據僅有1MB數據量;如今,動輒數百GB資料儲存及高性能計算能力,使大數據挖掘重啟科學界與企業界信心。


11-6.jpg

圖、KDD資料庫知識發現過程(Fayyad et. al(1996)


KDD不僅重視知識發現結果,更重視知識發現過程。如上圖所示,典型KDD過程包含選擇、預備、轉換、數據挖掘、解釋/評估以產生知識。數據挖掘方法有許多種,也可說是機器學習一部分,常見類型如下:

1. 聚類 (clustering)

聚類的目的是透過某種規則計算,將資料歸為數個不同的群組,使得群組內差異小、組外差異大,例如: 顧客市場區隔、設備異常聚類等。


2. 分類 (classification)

分類的目的是將資料分為多個類型,並解析影響分類原因。例如: 在金融貸款中,將顧客分為會借貸與不會借貸兩種類型,及可能受到性別、年齡、所得等影響;在良率分析中,將良率訂為95%以上及以下,並分析受到原物料、設備、操作人員等影響。


3. 回歸 (regression)

回歸的目的是建立一個學習函數,進行數值性預測。例如:銷售金額預測、產品良率預測、設備壽命預測等。一家航空公司即根據過去數百個失效引擎當下的飛行時間時的溫度、馬達轉速作為變因、及將後來失效轉速減去當時已運轉次數,作為剩餘壽命應變數,建立學習函數。新的引擎即可透過此學習函數,預測目前的剩餘壽命還有多少剩餘轉速? 藉此,可以提醒航空公司進行維修。


4. 依賴模型 (dependency modeling)

依賴模型目的在於發現事務間的關係,包含:結構性關係、數值性關係等,常用的方式包括:貝氏網路、馬可夫網路、隱馬可夫鏈等。這些依賴模型常用機率推論,並以圖型方式表示,被稱為機率圖型。例如:貝氏網路基於貝氏定理的條件機率,建立依賴關係模型,可以進行推論與預測。如下圖所示,根據經驗建立多雲天氣、下雨、灑水器及草地濕的條件機率。因此,當觀察到多雲天氣及草地濕的現象時,可以根據貝氏網路關係及條件機率計算法,得到是灑水器噴灑造成的機率是0.13。


11-8.png

圖、貝氏網路機率圖型


從KDD到大數據分析

到這裡,大家不禁覺得1990年代的KDD舊方法,現在竟然又被重新炒作為大數據? 事實上,大數據發展不僅只是新演算方法或模型的發展,如:深度學習;更是多樣異質數據積累,如: 網路上社群意見、數位影像資訊、物聯網資料;以及數據運算能力提升,如:雲端運算、NVIDA圖形計算晶片。


這些舊方法+新數據,運用在企業實務中的經驗與成功案例,使得大數據分析不斷受到重視。依據Rexer Analytics研究,大數據分析或被稱為「預測分析」的任務中,建立模型的時間僅有20%,其餘的時間在於業務理解(20%)、數據理解與準備(36%)、撰寫報告與發表(15%)等,由上述可知企業實施重點更需要討論如何進行業務需求理解及數據擷取與清理等準備工作。


大數據製造業應用方向

那麼,大數據在製造業有何應用方向呢? 以下列舉幾個常見應用:


1. 預測維修

分析設備剩餘壽命、預測損壞時間以提前維修。例如:高聖帶鋸機提供客戶進行機器設備預測維修服務;勞斯萊斯引擎透過預測維修獲得數據分析營收。


2. 良率預測

分析品質不良原因,並預測產出良率。例如:WD硬碟製造商運用大數據分析技術,追蹤硬碟機生產過程,即時分析每一批產品良率狀況,以避免不良品賣到顧客手中。


3. 供應規劃 

供應規劃包含庫存規劃、物流運送規劃等。除了運用傳統規劃技術外,亦可運用KDD方式協助。例如: Dow Chemical化學公司運用銷售預測、物料採買時間分析、庫存地點最佳化等,降低庫存成本。Jaypee Group 運輸公司運用KDD技術,進行最佳運輸路徑分析,降低油料、運輸成本。


小結

事實上,現代人工智慧技術常融合KDD方法或其他新興大數據分析技術,已經很難區別兩者。但KDD、數據挖掘、大數據分析等重視數據整理、挖掘過程,是企業實施大數據、人工智慧方案時,不可遺忘的重點。




9.jpg

黃正傑

你喜歡挑戰不斷隆起的技術高原、探索無限寬廣的創新領域嗎? 那麼我們是同路人。

黃正傑,台大資管博士,協助鼎新進行前瞻技術研究與應用發展。歷經IT架構技術顧問、供應鏈管理顧問、軟體產業分析師等多項職務,並兼任文化大學助理教授。讓我們一起從創新與變革角度,探索新興技術!


6.jpg


更多案例

x