筆記整理– 統計學(一) Statistics I - 難得糊塗

2024-10-05

文章推薦指數： 80 %

投票人數：10人

使用了簡便公式來計算。

第五週➠ 第三章：機率. 內容. ◎ 機率基本概念介紹. ◎ 計數 ... Skiptocontent 推薦兩們線上課程：交大開放式學院–唐麗英–基礎統計學、統計學(二) 課程講解邏輯脈絡清晰、組織有條，容易幫我們建構一張統計學的學習藍圖。

👍 (未完，不定期更新內容) 第一週➠第一章：基本統計概念介紹 Introduction BasicConcepts(基本概念) 第二週➠第一章：基本統計概念介紹表示類別(定性)資料之次數分配複習–什麼是統計學？數據的取得方式簡單隨機抽樣系統抽樣分層隨機抽樣部落抽樣/ClusterSampling 第三週➠第二章–UsingNumericalMeasurestoDescribeData 如何以量化指標來展示資料(量測數據,量來的) CentralTendency(orLocation)–集中趨勢 1.平均數(mean)=平衡點=重心 2.中位數(median)=中心 3.眾數(mode) 何時用平均數？何時用中位數，眾數？ Dispersion–分散趨勢全距(Range,R) 變異數(Variance) 標準差(StandardDeviation,STD) (相對)變異係數(CoefficientofVariation,CV) 第四週➠第二章–UsingNumericalMeasurestoDescribeData Skewness–偏態係數 Kurtosis–峰態係數（名稱有「係數」者表示「無單位」）非中趨勢 [重要]如何決定數據分佈之情形？經驗法則TheEmpiricalRule(常用) 柴比雪夫法則TheChebyshev'sRule 共變異數/Covariance(少用) 相關係數(常用) 第五週➠第三章：機率統計學分為敘述統計、推理統計實驗–如丟銅板/骰子n次樣本空間事件機率解題步驟 CountingPrinciples 第六週➠第三章：機率 ProbabilityLaws VennDiagram Union Intersection(交集) ComplementaryEvent(互補) ConditionalProbability條件機率 Independentevents Mutuallyexclusiveevents AdditionRule: Bays'Theorem:貝氏定理第七週➠第四章：離散型機率分佈 RandomVariables(R.V.) 累加機率 TheExpectedValueofaDiscreteR.V.(期望值,帶單位) TheVarianceandStandardDeviationofaR.V.X 第一週➠第一章：基本統計概念介紹內容 ◎統計專有名詞與基本概念介紹 ◎統計學的目的與統計工作流程 Introduction 什麼是統計學？ •讓數字說話的方法 •評估品質(Quality)的概念與方法(Concept+Methods) 第一堂課中，老師會解釋「什麼是統計」？有時候，因為群體資料數量過多、或過於廣泛，我們無法取得完整群體資料，亦或無法辨認其中關係，因此，我們取其中樣本資料來分析，藉由樣本呈現的關係來推論群體資料間的關係，供決策參考。

舉例： *統計學就像是煮一鍋綠豆湯，如何知道綠豆湯好喝？ *「好不好喝」跟什麼有關？我們需要定義出「什麼是好喝？」的度量尺度，跟「品質」的特性有關： 1.甜度 2.豆之軟硬度 3.湯之濃度 4.... 因此，如何用統計學判斷「綠豆湯好喝」為例，將步驟歸納成下表，前四點都有工具軟體可以處理，我們學習統計，最重要的是學會「如何分析、解釋」圖表呈現的關係、推論群體、作出決策！統計學為 1.蒐集(資料)：用概念、抽樣(RandomSamples) 2.整理：有無離群值？ 3.展示：圖表 4.分析：估計，用指標、圖表、假設檢定(差異性比較)、迴歸分析、預測 5.解釋資料：解釋分析結果 6.藉由樣本推論群體(推理），在不確定的情況下作成「決策」：（低)誤差＋(高)可信度的科學方法。

其中，當我們在搜集資料時，須注意此資料需要具「代表性」、需「隨機取樣」，同時比例分布也需要接近群體本身的資料分佈，譬如： *群體中各類資料分佈比例：30%,20%,10%,5%,... *隨機取樣時也需要按此比例，否則將造成偏頗(bias）樣本。

BasicConcepts(基本概念) population(群體/母體）由具有「共同特性」之個體所組成的整體。

例如：此製程全部晶圓厚度組成的資料。

sample(樣本）群體之一部分。

例如：隨機一百片晶圓的厚度資料。

parameter(參數) 由「群體」資料所計算之群體「表徵值」常用：群體平均數：µ(讀作mu) 群體變異數：𝜎2(讀作sigmasquare) 群體標準差：𝜎 群體比例（比率）：P 一般來說，因為我們不知群體，因此上述數值皆為未知，須由樣本來推估。

量測型數據：第1、3點計數型數據：第4點(數來的數據) statistic(統計量) 由「樣本」資料所計算之樣本「表徵值」常用：樣本平均數：(讀作x_bar)，或記作(讀作µ_hat),注意：(µ=70)!=(=70) 樣本變異數：(或記作,) 樣本標準差：樣本比例：(讀作p_hat) 例如： *:所有晶圓之平均厚度 *:100片晶圓之平均厚度 TheObjectiveofStatistics(統計學的目的) •由「樣本」資訊推論母體參數 Q:怎麼抽樣? Q:怎麼估計? Q:檢定方法? 統計學範圍敘述統計(DescriptiveStatistics)：如何蒐集數據、展示數據、及找出可描述數據特徵之值的方法。

(搜集資料、整理資料、統計圖表、計算指標) 推論統計(InferentialStatistics)：如何由樣本資訊推論群體，並估計該推論知可信度大小的方法。

(估計、檢定) 解決統計問題之五大步驟： Step 敘述 1.) Acleardefinitionofquestiontobeansweredandthepopulationthatrelatestoit. 2.) Thedesignoftheexperiment. 3.) Thecollectionandanalysisofdata. 4.) Theprocedureformakinginferences. 5.) Theprovisionofameasureof"Goodness"(reliability)fortheinference. RandomVariable(R.V,隨機變數) R.VDataType分為： Qualitative(定性)orCategorical(類別)data,即無法以數量表示，僅能依特性類別表之。

如：性別、國籍、造成產品變異之可能原因。

(低級) QuantitativeRdata(定量)orNumerical(數值)data.即隨機變數的各結果可以「數量」表之。

A.Discretedata–由計數的方式取得。

（中級） DefectiveItems不良品個數 Numberofstudentsinaclassroom Defectcountsonawafer B.Continuousdata–由量測的方式取得。

(高級) weight height temperature 第二週➠第一章：基本統計概念介紹內容 ◎常用統計之圖表：條圖、柏拉圖、直方圖、莖葉圖、時間序列圖等 ◎常用之抽樣方法：簡單隨機抽樣、系統抽樣、分層隨機抽樣、部落抽樣表示類別(定性)資料之次數分配條圖BarGraph 用來比較及對照不同時期或類別間差異(搭配計數型) 單圓圖/圓餅圖PieChart 柏拉圖/巴瑞多圖ParetoDiagram=條圖＋肩形圖品管七大工具之一定性（類別型）資料最常使用之圖形。

依據「重要少數，瑣細多數」(Majorfew,trivialmany)分類法則（又稱ABC原理,80/20），找出造成問題最關鍵之少數因素。

時間序列圖用來表示資料在不同時間的關係圖，通常時間為橫軸，縱軸表示觀測值單位數量。

莖葉圖/Stem-and-LeafDisplay 假設現有大筆資料每筆資料由莖(前頭的數字)與葉(最後一個數字)快速組成。

重新排序「葉」的部分(小->大) 功用：排序、資料分布直方圖Histogram 品管七大工具之一連續型資料最常用的圖形，用來展示資料分布（變異狀況、是不是常態分佈？）。

接著找重心、最小與最大值（看變異性）通常也會於圖上標記規格的上/下限值、目標值。

譬如：製程品管，我們會定義規格的上下限（分別為下圖最左右兩端），中間線為我們希望達到的產品品質，越多產品品質落在中間範圍區間越好。

同樣不良率(5%)：日本品管(左圖)比美國的(右圖)好，多數日產產品落在中間target區域。

散步圖ScatterDiagram 品管七大工具之一用來表示資料在兩個變數間的關係。

(Y:GPA,X:SATMath) 留意離群值。

※莖葉圖、直方圖、散步圖通常用來表示數值變數(定量資料）複習–什麼是統計學？讓數字說話的方法（Concepts+Methods），由樣本推論群體。

蒐集、整理、展示(圖表)、分析(指標、估計、檢定、預測)、解釋、推論群體、作決策。

[Important!]GarbageIn,GarbageOut 數據的取得方式普查–對群體中的每一個體取得資料，也就是100%的全檢。

抽樣–利用一種程序或方法，由群體中抽出樣本。

常用抽樣有四種：簡單隨機抽樣系統抽樣分層隨機抽樣部落抽樣簡單隨機抽樣亂數取值時要注意，每個個體編碼長度要一致。

系統抽樣分層隨機抽樣部落抽樣/ClusterSampling 前提：假設每個部落分佈都是群體的縮影編碼：00~99(共100) 第三週➠第二章–UsingNumericalMeasurestoDescribeData ◎常用之參數與統計量　•集中趨勢指標：平均數、中位數、眾數　•分散趨勢指標：全距、變異數、標準差、變異係數如何以量化指標來展示資料(量測數據,量來的) 「連續型」資料有四個特性： CentralTendency(orLocation)–集中趨勢 Dispersion–分散趨勢 Skewness–偏態係數 Kurtosis–峰態 CentralTendency(orLocation)–集中趨勢表示一組數據「中央點」位置所在的一個指標。

常用集中趨勢指標：平均數中位數眾數 1.平均數(mean)=平衡點=重心群體平均數：,N表群體大小樣本平均數：,n表樣本大小 Ans:(1)(2)=20 算術平均數：上述。

幾何平均數(G)：,開三次方…(何時用？當我們希望)只要其中一項為零，則平均數為零。

調和平均數：（聯想：F1score）加權平均數：成績/GPA 截略平均數：去頭尾，但是樣本數不能太少；如體操、碩博士招生 2.中位數(median)=中心「必須」將數據排序，「中間」的那一個數值、或中間兩個數值之平均。

群體中位數：𝛈(讀作eta) 樣本中位數：找中位數的方法：奇數>> 偶數>>n/2,(n/2)+1兩者相加的平均 Ans:(4)=9,(5)=(7+9)/2=8 3.眾數(mode) Ans:(6)=3,(7)=1和2 Ans:只適合用眾數表示，因為以銷售量/受歡迎程度來衡量。

何時用平均數？何時用中位數，眾數？ Ans:取決於有無「離群值」 Ans:A,B 例：信義房屋->報平均(數)價格（易受離群值影響，高房價拉抬$latex）拉抬$） Dispersion–分散趨勢表示一組數據間「差異大小」或「數值變化」的一個量數。

常用指標：全距(Range,R) 變異數(Variance) 標準差(StandardDeviation,STD) 變異係數(CoefficientofVariation,CV) 全距(Range,R) 用來衡量一組數據「分散程度」的最簡單方法。

先排序，【缺點】>>當一組數據中有「離群值」出現或資料「筆數太多」(n>10)時，全距並非一個很好的衡量數據分散程度的量數，因其無法解釋最小值與最大值之間數據分布的情形，失真了，不適用全距。

變異數(Variance) 計算每個點的「離中（心）趨勢」，但是（中心點）左半部與右半部距離之和為零，數學上用絕對值或是平方，來避免。

【必記】樣本變異數S2,公式之所以除以(n-1)是因為除以n，推估群體變異數𝜎2時，誤差較大。

其簡便公式記作絕對離差(AbsoluteDeviation,AD) 平均離差【推薦】（快速、誤差小、計算較正確版）簡化分子後得簡便公式= 標準差(StandardDeviation,STD) 將「變異數」開根號得之。

帶「單位」。

值越小，表變異越小。

群體標準差樣本標準差 (相對)變異係數(CoefficientofVariation,CV) 相對變異、不帶單位 ,CV越小表示分散程度越小何時用？使用時機：有多組資料不同單位，要相比時使用，可用CV當指標。

比較股票風險：蒐集股票A,B三十天的記錄，算出平均、標準差來比較。

A,B股票的變異數： B股票(變異)風險小，值得投資 B股票風險小，值得投資第四週➠第二章–UsingNumericalMeasurestoDescribeData 常用來描述資料之統計指標 ◎常用之參數與統計量　•偏態係數、峰度係數　•非中趨勢指標：百分位數、四分位數 ◎經驗法則、柴比雪夫法則 ◎兩變數的關係：共變異數、相關係數 (承前週) Skewness–偏態係數說明一組數據分布的型態。

尾巴誰長，就叫誰（右偏/左偏） Ans:=,>>,<< 公式長得像變異數： Kurtosis–峰態係數（名稱有「係數」者表示「無單位」）量測尾端和頭，無單位常用例子：A,B機台;A,B股票;A,B校學生… 看：頭（尖/頓）、尾巴分佈如果峰度係數=3,表常態分佈; <3表低闊峰,>3表高峽峰。

非中趨勢百分位Percentiles 四分位數Quartiles 如何找？Ans:將資料先排序！！ Q1=位置在0.25*(n+1)之數。

Q3=位置在0.75*(n+1)之數。

n=10 [重要]如何決定數據分佈之情形？經驗法則TheEmpiricalRule(常用) 又稱「689599.73法則」，資料必須是「常態分佈」約68%的資料會落在的範圍內；約95%的資料會落在的範圍內；約99.73%的資料會落在的範圍內。

用來篩選離群值 Ans:正常值範圍：(驗證：看min,max是否落在此區間內，是否為離群值？) 柴比雪夫法則TheChebyshev'sRule 無須考慮資料是否為常態分佈，左偏右偏雙峰…等都適用。

用來篩選離群值。

共變異數/Covariance(少用) 從變異數公式聯想過來，變異數是自己與自己(X,X)的變異程度，共變異數是兩個變數(X,Y)各自變異的程度：帶單位，因此少用。

值越大，表示X,Y關係越強，反之越弱。

【推薦用】Conv_sample簡便公式：相關係數(常用) ，消去單位不帶單位，常用！值越大，表示X,Y關係越強，反之越弱。

群體：【常用】樣本相關係數：,其中,越接近表X,Y有越強的正向(線性)關係(X越大，Y跟著大)。

越接近0表沒有線性關係，但是有可能有很強曲線關係使用了簡便公式來計算。

第五週➠第三章：機率內容 ◎機率基本概念介紹 ◎計數規則：乘法原理、排列、組合統計學分為敘述統計、推理統計敘述統計–搜集資料方法圖表指標 [重要！]推理統計：由樣本推論群體估計(第八章) 檢定(統計學二) 敘述統計：「機率」–>機率分佈–>抽樣分佈–>推理統計機率–事件發生的機率實驗–如丟銅板/骰子n次 1)丟銅板三次 2)擲骰子一次樣本空間 1)丟骰子一次，其樣本空間S={1,2,3,4,5,6} 2)丟銅板兩次，樣本空間S={正正,正反,反正,反反} 事件 (subsetofsamplespace)EventA={1,3,5},EventB={正正} 機率 Ans: 0≤P(A)<1 p(0)=0,p(S)=1 P(A1)+P(A2)+P(A3)…= Ans: Experiment:tossadieonce SampleSpace:S={1,2,3,4,5,6} SimpleEvent:E1~E6 Compoundevent:A,B P(A)=3/6=1/2,SA={1,3,5} P(E6)=1/6,E6={6} P(C)=2/6,C={1,2} Ans: Tosstwocoins:S={HH,HT,TH,TT},#(S)=4 S_A={HT,TH},P(A)=2/4 S_B={HH,HT,TH},P(B)=3/4 解題步驟寫出Experiment=？寫出SampleSpace={…} 寫出EventA,#(A)=?,P(A)=#(A)/#(S) 寫出EventB,#(B)=?,P(B)=? 寫出EventC… CountingPrinciples 解決一些手算困難的狀況：丟骰子20次 CountingRules: TheMultiplicationPrinciple(乘法原理): Permutations(排列) P(10,10)=10! 賽馬+次序不同 P(12,12)=12! 排成圓圈須去頭。

Combinations(組合) C(n,r):n個東西取r個出來撲克牌 A問題因爲次序不同，所以用排列。

B則否，用組合。

應用至求機率：第六週➠第三章：機率內容 ◎機率法則 ◎貝氏定理 ProbabilityLaws VennDiagram Union AorB: #(S)=52,AUB=AorB=#(AUB)=26+4-2=28 Intersection(交集) ComplementaryEvent(互補) ConditionalProbability條件機率已知B發生，A也發生的機率。

Independentevents Ans:P(A|B)=P(A)ifA,Bareindependent. P(A|B)=P(AandB)/P(B)=0.2/0.3!=0.4 Thus,A,Barenotindependent. A,BareME互斥ifP(AandB)=0. Therefore,A,Baredependent! Mutuallyexclusiveevents S={(1,1)(1,2)…(6,6)} #(S)=6*6=36 A=兩數字和為一奇數={(1,2)(2,1)…},#(A)=18 P(A)=18/36=1/2 B={(2,6)(6,2)…},#(B)=10 P(B)=10/36=5/18 P(AandB)=P(A)*P(B)ifA,Bareindependent. AandB=sumis9={(3,6)(6,3)…},P(AandB)=4/36 1/9!=1/2*5/18,Thus,A,Barenotindependent! 1/9!=0,Thus,A,BarenotM.E! Thus,A,Baredependent! 用維氏圖來解最方便。

a)0.2 b)P(AUB)=0.2+0.2+0.3=0.7 c)0.2+0.3=0.5 d)0.2 e)0.3 f)1–0.7=0.3 S=smokecigarette,D=drinktea P(S)=0.1,P(D)=0.3,P(SandD)=0.5 a)1-(0.05+0.05+0.25)=0.65 b)0.05 c)0.25 d)SandDindep?checkifP(SandD)=P(S)P(D) 0.05!=0.10.3andtheyarenotM.E. Thus,theyaredependent! AdditionRule: 如果AB獨立：如果AB互斥： #(S)=52 a)=2/52 b)=P(A)+P(B)-P(AandB)=4/52+26/52–2/52=32/52 c)=0/52=0 d)=P(H)+P(S)-P(HandS)=13/52+13/52–0=1/2 Bays'Theorem:貝氏定理條件機率的應用/推廣。

已知B發生，AandB也發生的機率>>進一步推導 – a)P(D|P)=P(DandP)/P(P) =P(P|D)P(D)/(P(P|D)P(D)+P(P|D_bar)*P(D_bar)) =0.99*0.05/(0.990.05+0.030.95) =0.0495/(0.0495+0.0285) b)P(D_bar|P_bar)=? 求P(I|D)=? 第七週➠第四章：離散型機率分佈內容 ◎累加機率函數 ◎期望值 RandomVariables(R.V.) 1)Xisdiscrete.x=0,1,2,… 2)Xiscontinuous.x>0 3)discrete.x=0,1,2,…,12 4)continuous.x>0 5)discrete.x=0,1,2 6)discrete.x=2,3,…,12 V:netgain Exp:Tossthreedice S={(1,1,1)…(6,6,6)},#(S)=63=216 Bet$1theoccurrenceof'5': 累加機率 Exp:由帽子中隨機抽一張紙條 X=紙條上的數字 a)uniformdistribution TheExpectedValueofaDiscreteR.V.(期望值,帶單位) 就是重心,平均值 Ans=(加權)平均=(上圖所示) TheVarianceandStandardDeviationofaR.V.X 更正:定理1中第一行:E(C)=C Var(X)= 定理3證明，請看W7-2影片1:14:34 證明定理3: Ans: Ans: Sharethis:ClicktoshareonTwitter(Opensinnewwindow)ClicktoshareonFacebook(Opensinnewwindow)Likethis:LikeLoading... Postnavigation PreviousKaggle初體驗Next聚焦 LeaveaReply Enteryourcommenthere... Fillinyourdetailsbeloworclickanicontologin: Email(required)(Addressnevermadepublic) Name(required) Website YouarecommentingusingyourWordPress.comaccount. ( Log Out / Change ) YouarecommentingusingyourTwitteraccount. ( Log Out / Change ) YouarecommentingusingyourFacebookaccount. ( Log Out / Change ) Cancel Connectingto%s Notifymeofnewcommentsviaemail.Notifymeofnewpostsviaemail. Δ ToggleSidebar Menu Categories Apps/PlugIns Life News/Perspective OSX Programming status TheHitTagsAI APPS/PLUGINS Browser C DataSci DataScience DpLRN Extensions Golang Life MachineLearning MachineLRN Note Notes PlugIns RaspberryPi Statistics SWEngineering Tensorflow Tutor Wordpress.com WP.comSearch Searchfor: Meta Register Login Entriesfeed Commentsfeed WordPress.com Categories Apps/PlugIns Life News/Perspective OSX Programming status AI APPS/PLUGINS Browser C DataSci DataScience DpLRN Extensions Golang Life MachineLearning MachineLRN Note Notes PlugIns RaspberryPi Statistics SWEngineering Tensorflow Tutor Wordpress.com WP.com Searchfor: Meta Register Login Entriesfeed Commentsfeed WordPress.com Privacy&Cookies:Thissiteusescookies.Bycontinuingtousethiswebsite,youagreetotheiruse. Tofindoutmore,includinghowtocontrolcookies,seehere: CookiePolicy Follow Following 難得糊塗 Signmeup AlreadyhaveaWordPress.comaccount?Loginnow. 難得糊塗 Customize Follow Following Signup Login Copyshortlink Reportthiscontent ViewpostinReader Managesubscriptions Collapsethisbar %dbloggerslikethis: