曹永誠:有效數據的三大原則:影響必要因子、取樣頻率、涵蓋期間
數據至少得滿足這三個條件,才具備有效性與產出效益
文:曹永誠
發布時間: 2019-05-14 09:57:00
在說明有效數據的三大原則,我們已經在上一篇「數據是新能源,但不是多多益善」文章當中,了解有效數據需要滿足的第一個條件就是「影響必要因子」本篇將繼續說明另外二個必備條件…
有效性數據必須具備的第二個條件在於: 這些數據蒐集時的取樣頻率是否足夠。
也就是說,每隔多久取得一次數據,是每秒、每分鐘、還是每小時呢? 因為很多數據的特性都是反應在變化上,若取樣的頻率不夠,那麼這些重要的特性就會消失殆盡。
舉個簡單的例子,若想診斷馬達的健康程度,往往會安裝震動感測器進行數據蒐集。但馬達的震動特性變化非常快,因此至少得一秒蒐集1,000次才足夠反應其特性,後續的大數據分析也才會有效。倘若只是每秒收一筆數據,所能夠產出的價值差異將會非常大。
但這也衍生出一些問題。例如以一秒一千筆的數據量,除非採用特殊機制,否則很難經由機台上的機上盒,用網路通訊連結控制器的方式,來取得這麼大量的數據。通常得透過直接連接感測器來進行。這種蒐集方式若採7X24(一周七天,一天24小時,全年無休),那就得考量到數據是否會灌爆網路與資料庫? 或許得設計分層負責,把感測器的原始數據(Raw Data)先在端點工業電腦做前處理,然後再傳到雲端。
當然,並不是每一種物理量都得這麼高速頻繁的蒐集數據。例如溫度數據,在一般狀況下大約只需每秒取一筆就夠了。
不同的物理量在不同的製程下,所需取樣的頻率就是不同,得視需求盡可能取到足夠的頻率,這樣的數據才足以供後續使用。
第三個條件是數據的涵蓋期間得足夠。
就像是假使我們想要建立數學模型,診斷人的健康程度並預測何時會生病的話,我們所需蒐集的數據期間,必須涵蓋人從健康時期到生病時期這整個週期,當然最好有五次週期以上的數據為佳。
倘若我們所蒐集到的數據都是人身體健康時期的數據,除非從健康到生病總是線性變化,否則所建立的健康數學模型根本就無從預測。更何況非線性是常態,這種僅侷限於健康時期的數據,若想用來預測數據中從沒發生過的生病,就會類似數學上的外插,而外插準確度從來都是『天知道』。
可惜在我的職涯中,卻常常遇到客戶安裝機上盒開始數據蒐集之後,不到二周的時間,客戶老闆就急著催我,何時可以開始建立數學模型預測機台故障呢? 唉,這真的是極大的困擾啊!
總之,若要讓數據成為可以煉金的資產,而不是燒錢的負債,就得在數據蒐集之前事先做好規劃。千萬不要以為亂蒐集、隨手蒐集、有什麼就收什麼、先收下來再說等做法,可以在日後突然煉出一堆黃金、賺大錢。
這種憑運氣的做法其實跟買彩券致富差不多。較佳的做法是從價值面著手,先思考想煉出什麼黃金,例如預知保養。然後分析所需的數據種類,例如哪些零組件會影響機台健康。最後才開始設計蒐集手法並著手進行。這樣所蒐集到的數據才是可以產生價值的有效數據。
延伸閱讀:
第一篇-數字化,撥開工廠雲霧見青天
第二篇-數字化推動關鍵不在技術,而是人性
第三篇-數據是新能源 但不是多多益善
第四篇-有效數據的三大原則:影響必要因子、取樣頻率、涵蓋期間
第五篇-數據的保鮮期 愈即時愈能發揮最大應變效益
第六篇-穩固vs敏捷?穩敏雙態不是單選題
第七篇-讓機台會說話!打造機聯網數據高速公路
--------Comming sooon--------
第八篇-敏態系統套裝軟體化以快速佈署
第九篇-AI在工廠的應用手法案例
感謝您的收看,本專欄將有多篇深度報導,欲蒐藏文章敬請訂閱。
訂閱說明,「社群訂閱」以LINE登記後,每篇文章出刊時將以訊息方式即時發送。
「郵件訂閱」基本資料登記後,將於所有文章發刊後(收錄全九篇)以EDM提供。
更多案例