機器學習CP值最高的自學挑戰課- 機器學習百日馬拉松- Cupoy

文章推薦指數: 80 %
投票人數:10人

... 的AI自學線上課程,只要學員有系統的根據本課程學習資料科學與機器學習的知識點,並進行豐富的程式練習,循序漸進持續練習,你將能掌握Python 資料科學與深度學習 ... Loading... AI共學社群 課程/馬拉松 問答 貼文 新聞 學習活動 學習資源 領域專家 機器學習百日馬拉松 對初學者來說,要進入AI與資料科學的領域並不容易,除了程式基礎,還需要有數學與統計的相關知識,一般人往往在這兩個關卡中敗下陣來,透過親身實作,自主學習才能真正掌握AI與資料科學的學習精髓。

內容簡介 作者介紹 適合人群 你將會學到什麼 購買須知 1.機器學習概論 從概念上理解機器學習的目的與限制,並導覽機器學習流程 資料介紹與評估資料 首先會和大家介紹整個機器學習的概念以及出入資料科學的探索流程 包括發現問題、做出一個原型解決問題以及如何優化他等等 再來就是當你拿到新的一大筆資料時應該要具備四個思維: 1.為什麼這個問題很重要? 2.資料從哪裡來? 3.資料的型態是? 4.我們能夠回答什麼問題? 有了大概的理解之後,我們開始今天的學習吧!!! 機器學習概論 我們會學習到機器學習、深度學習與人工智慧之差別以及 機器學習與AI的基本概念以及它在不同領域的應用 機器學習三大類別: 1.監督式學習(較常見)ex:圖像分類、詐騙偵測 2.非監督式學習ex:維度縮減、分群、壓縮等 3.強化學習ex:下圍棋、打電玩 有了大概的理解之後,我們開始今天的學習吧!!! 機器學習-流程與步驟 今天的內容會帶大家了解一整個機器學習專案的細節 包含開發流程的步驟、每個步驟的進行模式,帶你熟悉整個ML的流程 專案開發流程: 1.資料收集、前處理ex:缺失值填補、離群值處理、標準化 2.定義目標與評估準則ex:訓練集、驗證集、測試集 3.建立模型與調整參數ex:回歸模型、數模型、神經網路 4.導入ex:預測、整合前後端 有了大概的理解之後,我們開始今天的學習吧!!! EDA/讀取資料與分析流程 今天的內容會帶大家了解 讀取資料、萃取想要了解的信息 EDA、數據分析流程 數據分析流程: 1.資料收集 2.數據清理、特徵萃取 3.資料視覺化 4.建立模型、驗證模型 5.決策應用 有了大概的理解之後,我們開始今天的學習吧!!! 2.資料清理數據前處理 以滾動方式進行資料清理與探索性分析 如何新建一個dataframe?如何讀取其他資料?(非csv的資料) 今天的內容會帶大家了解 快速驗證Dataframe操作、讀取其他資料格式 新建一個Dataframe可以將分析資料過程中產生的數據儲存成結構化資料 且有時候資料過大,操作上很費時,就能透過它來測試程式碼是否跟預期結果相符 然而常常我們會有不同的資料(圖片或文字等等) 所以我們也會學習讀取像是txt、jpg、png、json、mat、spy、pal等等 有了大概的理解之後,我們開始今天的學習吧!!! EDA:欄位的資料類型介紹及處理 今天的內容會帶大家了解 Dataframe欄位的資料類型及處理 一般資料的欄位變數可以分為:離散變數、連續變數 PandasDataframe的欄位資料類型可以分為:float64浮點數、int64整數、object字串及類型 通常拿到資料的第一步,就是看我們有什麼欄位、欄位代表什麼意義、儲存的資料類型 而資料原本是字串或是類別的話,如果要進一步做分析就必須轉為數值的資料 通常是透過Labelencoding、OneHotencoding來做轉換 有了大概的理解之後,我們開始今天的學習吧!!! 特徵類型 今天的內容會帶大家了解 特徵工程之中的三種特徵類型,大致可分為:數值特徵、類別特徵、時間型特徵,作法上也不同 當然還有像二元特徵、排序行特徵等等,但上面三種是較為常見的類型 1.數值型特徵:最容易轉成特徵,但需要注意很多細節ex:年齡 2.類別型特徵:通常一種類別對應一種分數,問題在如何對應ex:性別、行政區 3.時間型特徵:特殊之處在於有週期性ex:月、星期 有了大概的理解之後,我們開始今天的學習吧!!! EDA資料分佈 今天的內容會帶大家了解 如何透過基本的統計數值、畫圖來了解資料 EDA統計量化: 1.平均值Mean、中位數Median、眾數Mode 2.最小值Min、最大值Max、範圍Range、四分位差Quartiles、變異數Variance、標準差Standarddeviation 透過上面的統計特徵,可以讓我們初步了解資料的樣子,並解觀察是否有異樣 EDA視覺化: 1.Matplotlib套件 有了大概的理解之後,我們開始今天的學習吧!!! EDA:Outlier及處理 今天的內容會帶大家了解離群值 離群值 1.離群值出現的原因:隨意填補的值、錯誤紀錄等等 2.檢查流程與方法:檢查數值範圍、繪製圖示等等 3.處理方法:填補、新增欄位、刪除欄位 有了大概的理解之後,我們開始今天的學習吧!!! 數值型特徵-去除離群值 今天的內容會帶大家了解 如何去除離群值Outlier 數值型特徵若出現少量的離群值,則需要去除以保持其餘數據不被影響,否則會影響標準化無法處理去 除林群值得方法有兩個: 1.捨棄離群值 2.調整離群值 處理離群值之後 好處是剩餘資料中模型較為單純且準確 壞處是有可能刪除掉重要資訊 因此刪除前最好能先了解該數值會離群的可能原因 有了大概的理解之後,我們開始今天的學習吧!!! 常用的數值取代:中位數與分位數連續數值標準化 今天的內容會帶大家了解 處理離群值、進行連續型數值標準化 透過填補統計值來處理離群值,而常見的統計值如下 1.中位數Median 2.分位數Quantiles 3.平均數Mean 4.眾數Mode 常用標準化方法 1.Z轉換 2.空間壓縮 有了大概的理解之後,我們開始今天的學習吧!!! 數值型特徵-補缺失值與標準化 今天的內容會帶大家了解 處理缺失值、資料標準化意義、標準化使用時機、最大化最小化時機 填補缺值方法 1.填補平均值、中位數、眾數 2.填補指定值(須對欄位領域知識有了解) 3.填補預測值(須提防overfitting) 最大準則為不要破壞資料分布~ 標準化可以平衡數值特徵間的影響力 最大化、最小化對極端數值較為敏感 所以如果資料不會有極端值,或已經去極端值,就適合用最大最小化,否則請用標準化 有了大概的理解之後,我們開始今天的學習吧!!! DataFrameoperationDataframemerge/常用的DataFrame操作 今天的內容會帶大家了解 常見的資料操作方法、資料表串接 資料操作方法、資料表串接: 1.轉換與合併Dataframe(melt函數、concat函數、merge函數) 2.Subset 3.Groupoperations 許多基本操作(如>,==,,==,,==,,==,,==,,==,,==,,==,,==,,==,,==,,==,



請為這篇文章評分?