企業如何善用深度學習？全球Top 4技術長告訴你 - iThome

2024-11-17

文章推薦指數： 80 %

投票人數：10人

正因為深度學習適合用來分析複雜、高維度的數據，比如影像、音訊、影片、時間序列和文字檔等，或像是即時數據流、感測器數據等。

也因此在各行業開始出現 ... 移至主內容文/王若樸 | 2018-06-09發表「企業決策者多半浪費了90%的精力，來篩選、尋找有價值的數據」，曾被選為美國Top4技術長的Teradata技術長StephenBrobst如此說道。

隨著AI風潮崛起，過去大力擁抱大數據分析的企業，紛紛轉向投入機器學習、深度學習技術。

但StephenBrobst認為，企業對這些技術的運用方式，用錯地方。

他認為，企業應該利用人工智慧和機器學習技術，來尋找對決策制定有影響的數據，而不是浪費大把時間來梳理數據。

「這不是決策者該做的事。

」儘管調查機構Gartner預測，2020年時，超過3成CIO會將AI作為企業IT五大投資重點之一，但在StephenBrobst看來，人工智慧只是一個市場行銷用語，他認為，許多企業CEO常把AI掛在嘴邊，認定AI能拯救公司，因此給出許多承諾，要用AI來改善各種現狀，不論目標實不實際，也要求公司CIO得實現這些承諾。

「AI就像一把大傘，包羅萬象，但也可能什麼都不是。

」他提醒。

就像Hadoop，也曾一度被企業視為是資料分析的銀彈，以為可以解決任何問題，後來發現也不盡然。

他建議，企業得對人工智慧（AI）有正確的期待，必須先了解AI到底能做什麼、不能做什麼，而非對AI有過度期待，誤以為它就可以解決所有問題。

相較於沒有明確定義的人工智慧，機器學習是比較具體的技術。

StephenBrobst解釋，現今提到的機器學習，多半指的是線性數學，可用來歸類和預測結果，而且大多已是研究了數十年的資料探勘技術。

「人們對AI總有一種好萊塢式的想像，會問說機器能不能思考？」StephenBrobst直接了當地回答：「不，機器不會思考。

」他補充，比較適當的修正問法應該是，機器能不能仿照人思考特定問題的過程，來處理同樣的情況，「這個答案就會是可以，不過，只是有時，而非總是可以。

」不過，靠機器來處理問題的好處是，可以比人更快、更便宜，甚至不用5秒就可以做出決定。

企業得先了解AI能做什麼、不能做什麼，而非過度期待，誤以為AI可解決所有問題。

──Teradata技術長StephenBrobst　（圖片來源／ Teradata）機器學習和深度學習的應用與工具機器學習正是利用疊代學習技術，讓電腦可以從數據自動找出可用的趨勢和洞察，而不是靠人工定義明確的規則來尋找數據的意義。

也因此，「機器學習技術的優點是快速、低成本和高準確率。

」他說。

而深度學習，則是更進一步運用比機器學習更多層的神經網路，來分析數據，並從中找出模式。

StephenBrobst提到，深度學習可以容忍雜訊高的數據，也能夠整合看似不相關的數據來源，還能解釋數據中非線性的關係。

甚至，他強調，深度學習有趣的地方，在於它的「自動化」。

進一步說，深度學習具有自動抽取特徵（FeatureExtraction）的能力，人們也稱之為特徵學習（FeatureLearning）。

正因為深度學習適合用來分析複雜、高維度的數據，比如影像、音訊、影片、時間序列和文字檔等，或像是即時數據流、感測器數據等。

也因此在各行業開始出現廣泛的應用，如在汽車業將深度學習技術用於自駕車的導航系統，利用深度學習圖像辨識的優勢，來識別路標、交通號誌和道路狀況等。

而在高科技製造業，也能用深度學習技術辨識影像和音訊，來優化工廠營運。

在醫療業也透過深度學習技術來判讀醫療影像，或是來尋找新藥組合。

不過，StephenBrobst認為，深度學習最大的價值是這3個領域：預測配對、詐騙偵測和故障預測。

第一個預測配對應用，指的是透過分析顧客過往的網路行為歷史，比如購買歷史或瀏覽歷史，進而預測、推薦顧客可能會需要的產品或服務。

他舉例，不少零售業者利用深度學習技術，以數據為原料，來打造推薦引擎（Recommendationengines），成功讓特定類型產品的銷量增加了30％。

其次是詐騙偵測，StephenBrobst解釋，由於詐騙人士常在網路活動中隱藏自己的足跡，但藉助深度學習用多層神經網路來分析複雜的數據，能夠找出這些詐騙人士的活動模式，進而有效偵測詐騙，而且「深度學習模型的預測力，比傳統線性數據分析模型要好上許多」。

電信業、零售業和金融業等產業都可運用這類反詐騙偵測技術。

知名第三方支付服務商PayPal，就是利用深度學習成功偵測出詐騙行為的例子。

Teradata技術長StephenBrobst列出了一份深度學習主要開源工具，這也是他認為企業想導入深度學習時可參考採用的技術。

　（攝影／王若樸） PayPal光是2017年交易量超過77億次，出色的成績也引來不少有心人士。

PayPal透過深度學習技術來偵測詐騙行為模式，以過濾可疑的使用者或遭盜用的帳號。

PayPal從支付交易歷史資料中，甚至還有使用者登入裝置，或是交易時的地理位置、IP地址和使用者帳戶資料等資料點，來建立詐欺行為特徵的模型，來分析每筆交易的細節，以判斷是否有詐騙或盜用情形。

過去靠線性模型只能處理20到30個變數，但PayPal改導入深度學習技術後，可以處理到數千個資料點，更容易從大量資料中找出偵測模型。

StephenBrobst舉的另一個例子是丹麥銀行的詐騙檢測系統，過去作法是先仰賴專家人工建立的規則引擎來篩選詐騙事件，再展開進一步調查，但這樣的篩選誤報率很高，導致後續調查費時費工，也只能順利找出4成的詐騙事件。

有時銀行一天就會收到1,200件誤報事件（正常交易，但被規則引擎誤判為疑似詐騙交易），導致大多數調查工作都是做白工，也讓這些應該正常完成的交易，為了調查而暫停或延後執行，進而影響了不少顧客的生意。

後來，丹麥銀行導入Teradata深度學習技術，以真實發生的詐騙案例為數據來源，來訓練誤報事件的判斷模型，讓報錯率大幅減少至少6成。

隨著誤報事件的減少，詐欺調查資源也可以集中，進而提高了成功找出詐騙交易的比例。

此外，丹麥銀行還採取了「冠軍／挑戰者」（Champion／Challenger）的方法，透過不斷比較模型效果，來優化最終的深度學習預測模型。

每個挑戰者（也就是每個模型）的預測表現若低於門檻，系統就會匯入更多資料，比如客戶的地理位置或最近ATM交易資料，讓挑戰者重新訓練新模型，不斷比較每個挑戰者的表現，並從中選出冠軍，來找出最有效率又最能避免報錯率的模型。

最後，丹麥新的檢測系統可以分析每年數百萬次的交易行為，甚至尖峰時期可以分析每分鐘數十萬次的交易行為。

儘管在金融業，運用深度學習來進行詐騙偵測頗有效果，不過，StephenBrobst認為，深度學習運用最有成效是第三個應用領域，也就是故障預測。

他解釋，透過感測器蒐集到的數據，比如IoT裝置的數據流、工廠機器感測器數據，或是自駕車和飛機引擎感測器的數據等，然後以深度學習演算法分析，可用來預測機器什麼時候會故障，並因此提早維修，避免事故發生。

這些用來分析的感測器數據，不論是簡單的溫度、壓力和功耗數值，或是複雜的機器運轉聲音等非結構化資料，都可以放進深度學習模型中訓練來進行預測。

儘管深度學習在以上三方面表現突出，但卻不代表它是萬用金鑰。

StephenBrobst表示，「深度學習雖然是解決問題的好方法，卻不見得是最好的方法。

」結合淺層學習和深度學習來解決問題，也未嘗不是個好辦法。

他進一步解釋，淺學習與深度學習的結合，就是線性數學模型與非線性模型的結合，而線性模型可用來完成簡單任務，比如在網購上用淺層學習，就足以預測顧客挑襯衫會順便看領帶，所以，系統應推薦幾款領帶給顧客。

但是，「若要進一步依據不同顧客的偏好，更精準推薦領帶的款式，實現個人化行銷，就得用到深度學習的非線性模型來分析。

」他說。

在對機器學習和深度學習的能力有所了解後，才能給予合理的期待。

下一步就是要知道，有哪些工具適合打造深度學習模型？StephenBrobst表示，開源機器學習框架TensorFlow就是一個廣受歡迎的工具，因為它可適性強，可以應用在不同設備或環境上，不論是雲端、移動裝置或使用CPU和GPU都支援，也支援多種語言，如Python和C/C++。

而其他開源框架，他也推薦兩個開發人員愛用的工具，適合訓練CNN的Caffe和RNN的Torch。

而以資料倉儲起家的Teradata，StephenBrobst表示，近來在深度學習的布局也正是鎖定第三個應用領域，在自家數據分析平臺（TeradataAnalyticsPlatform）上，最近推出了4DAnalytics功能，主打IoT邊緣裝置的數據分析。

這套分析平臺的4DAnalytics，是指在原本的3D空間位置數據外，還加上了第四維度的時間，讓使用者可以在Teradata分析平臺上處理地理空間、時態和時序數據。

由於許多感測器的數據會隨著時間不斷有微妙變化，比如飛機每次起飛的高度，但人們常忽略這些變化，而4DAnalytics就像一連串的截圖分析一樣，來呈現不同感測器在不同時間的數據。

例如可分析一段時間內，地鐵、計程車或餐廳人潮的變化，作為智慧城市發展的參考，或是分析穿戴裝置或醫療設備上的心跳變化數據等。

用開源框架LIME來面對不可解釋性的挑戰不過，雖然深度學習可帶來精準預測，但卻有不可解釋性的問題。

StephenBrobst表示，一般線性數學有公式可以解釋預測結果，但由於深度學習由層層神經網路堆疊而成，涉及非線性數學，而其中又有許多隱藏層，就像黑盒子一樣，無從理解演算法運作的原理。

也因此，人們對於深度學習演算法做出的決策，會抱持懷疑態度，像是在金融業等，對可解釋性就有嚴苛的要求。

而在醫療方面，StephenBrobst舉例，雖然已知某套演算法的判斷能力通常比人要好，但當它告知醫生該給某位病人截肢時，醫生還是會質疑，或是不願意做，因為他們不了解系統下決策的原因。

然而，面對不可解釋性的挑戰，StephenBrobst表示，現在也有一些方法用來加強深度學習的可解釋性，其中一個就是華盛頓大學開發的開源框架LIME（LocalInterpretableModel-AgnosticExplanations）。

LIME試圖透過一些局部保留、取樣的作法，嘗試建立一個較可理解的解釋層，例如用簡化模型來描述深度學習模型所抽取的特徵，來幫助解釋為何某些特徵比較重要。

丹麥銀行的防詐騙深度學習模型也應用了LIME框架在深度學習模型上增設了一個解釋層，來說明諸如封鎖某交易的原因，提高透明性來爭取顧客信任。

CTO小檔案 Teradata技術長StephenBrobst 學歷：MIT電腦科學暨人工智慧博士經歷：1999年進入Teradata，現為該公司技術長，主導產品技術研發，2014年時更入選為美國Top4技術長。

加入Teradata前，他則是一位連續創業家，創立過Tanning、NexTek和Strategic科技系統等三家專注於資料庫技術的新創。

不只業界經驗豐富，也曾任教於波士頓大學和麻省理工學院。

公司檔案 Teradata ●成立時間：1979年 ●主要業務：提供客戶大數據分析、資料倉儲和整合行銷管理解決方案 ●總部：美國俄亥俄州 ●全球員工數：11,100人 ●年營收：約21.6億美元（2017年） ●總裁兼CEO：VictorLund 公司大事紀 ●2014年：併購ThinkBigAnalytics ●2016年：推出TeradataEverywhere服務 ●2017年：發布Teradata分析平臺 ●2018年：在分析平臺中，新增4DAnalytics功能熱門新聞電子病歷上雲法規正式上路了！4大重點法規速覽 2022-07-18 Google發表欲繼承C++的程式語言Carbon 2022-07-22 群創光電加入FIRST國際資安應變組織，成國內高科技製造業首例 2022-07-20 4年斥資11億研發！獨家解密統一超商新一代XPOS機，一機兩用支援自助結帳，更是未來10年創新關鍵 2022-07-20 VMware邁向全面訂閱制更進一步！vSphere+與vSAN+雲端訂閱正式上路，能跨區統一管理本地IT基礎架構 2022-07-19 【資安日報】2022年7月18日，近160萬WordPress網站遭到外掛程式漏洞攻擊、多家企業級系統軟體廠商著手修補Retbleed 2022-07-18 【資安日報】2022年7月19日，可成科技營業秘密遭員工外洩、研究人員警告NFS漏洞極為容易利用 2022-07-19 美政府稱Log4j漏洞將成安全的「地方流行病」 2022-07-18 Advertisement 專題報導臺灣數位貨幣新進展千億營收電商的SRE之旅摩根大通2022科技新戰略紅帽邊緣運算新戰略【法律科技大創新】用區塊鏈貫穿司法流程，打造被民眾信任的司法聯盟鏈更多專題報導