機器學習CP值最高的自學挑戰課- 機器學習百日馬拉松- Cupoy

2024-11-17

文章推薦指數： 80 %

投票人數：10人

... 的AI自學線上課程，只要學員有系統的根據本課程學習資料科學與機器學習的知識點，並進行豐富的程式練習，循序漸進持續練習，你將能掌握Python 資料科學與深度學習 ... Loading... AI共學社群課程/馬拉松問答貼文新聞學習活動學習資源領域專家機器學習百日馬拉松對初學者來說，要進入AI與資料科學的領域並不容易，除了程式基礎，還需要有數學與統計的相關知識，一般人往往在這兩個關卡中敗下陣來，透過親身實作，自主學習才能真正掌握AI與資料科學的學習精髓。

內容簡介作者介紹適合人群你將會學到什麼購買須知 1.機器學習概論從概念上理解機器學習的目的與限制，並導覽機器學習流程資料介紹與評估資料首先會和大家介紹整個機器學習的概念以及出入資料科學的探索流程包括發現問題、做出一個原型解決問題以及如何優化他等等再來就是當你拿到新的一大筆資料時應該要具備四個思維： 1.為什麼這個問題很重要？ 2.資料從哪裡來？ 3.資料的型態是？ 4.我們能夠回答什麼問題？有了大概的理解之後，我們開始今天的學習吧！！！機器學習概論我們會學習到機器學習、深度學習與人工智慧之差別以及機器學習與AI的基本概念以及它在不同領域的應用機器學習三大類別： 1.監督式學習（較常見）ex:圖像分類、詐騙偵測 2.非監督式學習ex:維度縮減、分群、壓縮等 3.強化學習ex:下圍棋、打電玩有了大概的理解之後，我們開始今天的學習吧！！！機器學習-流程與步驟今天的內容會帶大家了解一整個機器學習專案的細節包含開發流程的步驟、每個步驟的進行模式，帶你熟悉整個ML的流程專案開發流程： 1.資料收集、前處理ex:缺失值填補、離群值處理、標準化 2.定義目標與評估準則ex:訓練集、驗證集、測試集 3.建立模型與調整參數ex:回歸模型、數模型、神經網路 4.導入ex:預測、整合前後端有了大概的理解之後，我們開始今天的學習吧！！！ EDA/讀取資料與分析流程今天的內容會帶大家了解讀取資料、萃取想要了解的信息 EDA、數據分析流程數據分析流程： 1.資料收集 2.數據清理、特徵萃取 3.資料視覺化 4.建立模型、驗證模型 5.決策應用有了大概的理解之後，我們開始今天的學習吧！！！ 2.資料清理數據前處理以滾動方式進行資料清理與探索性分析如何新建一個dataframe?如何讀取其他資料?(非csv的資料) 今天的內容會帶大家了解快速驗證Dataframe操作、讀取其他資料格式新建一個Dataframe可以將分析資料過程中產生的數據儲存成結構化資料且有時候資料過大，操作上很費時，就能透過它來測試程式碼是否跟預期結果相符然而常常我們會有不同的資料（圖片或文字等等）所以我們也會學習讀取像是txt、jpg、png、json、mat、spy、pal等等有了大概的理解之後，我們開始今天的學習吧！！！ EDA：欄位的資料類型介紹及處理今天的內容會帶大家了解 Dataframe欄位的資料類型及處理一般資料的欄位變數可以分為：離散變數、連續變數 PandasDataframe的欄位資料類型可以分為：float64浮點數、int64整數、object字串及類型通常拿到資料的第一步，就是看我們有什麼欄位、欄位代表什麼意義、儲存的資料類型而資料原本是字串或是類別的話，如果要進一步做分析就必須轉為數值的資料通常是透過Labelencoding、OneHotencoding來做轉換有了大概的理解之後，我們開始今天的學習吧！！！特徵類型今天的內容會帶大家了解特徵工程之中的三種特徵類型，大致可分為：數值特徵、類別特徵、時間型特徵，作法上也不同當然還有像二元特徵、排序行特徵等等，但上面三種是較為常見的類型 1.數值型特徵：最容易轉成特徵，但需要注意很多細節ex:年齡 2.類別型特徵：通常一種類別對應一種分數，問題在如何對應ex:性別、行政區 3.時間型特徵：特殊之處在於有週期性ex:月、星期有了大概的理解之後，我們開始今天的學習吧！！！ EDA資料分佈今天的內容會帶大家了解如何透過基本的統計數值、畫圖來了解資料 EDA統計量化： 1.平均值Mean、中位數Median、眾數Mode 2.最小值Min、最大值Max、範圍Range、四分位差Quartiles、變異數Variance、標準差Standarddeviation 透過上面的統計特徵，可以讓我們初步了解資料的樣子，並解觀察是否有異樣 EDA視覺化： 1.Matplotlib套件有了大概的理解之後，我們開始今天的學習吧！！！ EDA：Outlier及處理今天的內容會帶大家了解離群值離群值 1.離群值出現的原因：隨意填補的值、錯誤紀錄等等 2.檢查流程與方法：檢查數值範圍、繪製圖示等等 3.處理方法：填補、新增欄位、刪除欄位有了大概的理解之後，我們開始今天的學習吧！！！數值型特徵-去除離群值今天的內容會帶大家了解如何去除離群值Outlier 數值型特徵若出現少量的離群值，則需要去除以保持其餘數據不被影響，否則會影響標準化無法處理去除林群值得方法有兩個： 1.捨棄離群值 2.調整離群值處理離群值之後好處是剩餘資料中模型較為單純且準確壞處是有可能刪除掉重要資訊因此刪除前最好能先了解該數值會離群的可能原因有了大概的理解之後，我們開始今天的學習吧！！！常用的數值取代：中位數與分位數連續數值標準化今天的內容會帶大家了解處理離群值、進行連續型數值標準化透過填補統計值來處理離群值，而常見的統計值如下 1.中位數Median 2.分位數Quantiles 3.平均數Mean 4.眾數Mode 常用標準化方法 1.Z轉換 2.空間壓縮有了大概的理解之後，我們開始今天的學習吧！！！數值型特徵-補缺失值與標準化今天的內容會帶大家了解處理缺失值、資料標準化意義、標準化使用時機、最大化最小化時機填補缺值方法 1.填補平均值、中位數、眾數 2.填補指定值（須對欄位領域知識有了解） 3.填補預測值（須提防overfitting）最大準則為不要破壞資料分布～標準化可以平衡數值特徵間的影響力最大化、最小化對極端數值較為敏感所以如果資料不會有極端值，或已經去極端值，就適合用最大最小化，否則請用標準化有了大概的理解之後，我們開始今天的學習吧！！！ DataFrameoperationDataframemerge/常用的DataFrame操作今天的內容會帶大家了解常見的資料操作方法、資料表串接資料操作方法、資料表串接： 1.轉換與合併Dataframe（melt函數、concat函數、merge函數） 2.Subset 3.Groupoperations 許多基本操作(如>,==,,==,,==,,==,,==,,==,,==,,==,,==,,==,,==,,==,