筆記整理– 統計學(一) Statistics I - 難得糊塗

文章推薦指數: 80 %
投票人數:10人

使用了簡便公式來計算。

第五週➠ 第三章:機率. 內容. ◎ 機率基本概念介紹. ◎ 計數 ... Skiptocontent 推薦兩們線上課程: 交大開放式學院–唐麗英–基礎統計學、統計學(二) 課程講解邏輯脈絡清晰、組織有條,容易幫我們建構一張統計學的學習藍圖。

👍 (未完,不定期更新內容) 第一週➠第一章:基本統計概念介紹 Introduction BasicConcepts(基本概念) 第二週➠第一章:基本統計概念介紹 表示類別(定性)資料之次數分配 複習–什麼是統計學? 數據的取得方式 簡單隨機抽樣 系統抽樣 分層隨機抽樣 部落抽樣/ClusterSampling 第三週➠第二章–UsingNumericalMeasurestoDescribeData 如何以量化指標來展示資料(量測數據,量來的) CentralTendency(orLocation)–集中趨勢 1.平均數(mean)=平衡點=重心 2.中位數(median)=中心 3.眾數(mode) 何時用平均數?何時用中位數,眾數? Dispersion–分散趨勢 全距(Range,R) 變異數(Variance) 標準差(StandardDeviation,STD) (相對)變異係數(CoefficientofVariation,CV) 第四週➠第二章–UsingNumericalMeasurestoDescribeData Skewness–偏態係數 Kurtosis–峰態係數(名稱有「係數」者表示「無單位」) 非中趨勢 [重要]如何決定數據分佈之情形? 經驗法則TheEmpiricalRule(常用) 柴比雪夫法則TheChebyshev'sRule 共變異數/Covariance(少用) 相關係數(常用) 第五週➠第三章:機率 統計學分為敘述統計、推理統計 實驗–如丟銅板/骰子n次 樣本空間 事件 機率 解題步驟 CountingPrinciples 第六週➠第三章:機率 ProbabilityLaws VennDiagram Union Intersection(交集) ComplementaryEvent(互補) ConditionalProbability條件機率 Independentevents Mutuallyexclusiveevents AdditionRule: Bays'Theorem:貝氏定理 第七週➠第四章:離散型機率分佈 RandomVariables(R.V.) 累加機率 TheExpectedValueofaDiscreteR.V.(期望值,帶單位) TheVarianceandStandardDeviationofaR.V.X 第一週➠第一章:基本統計概念介紹 內容 ◎統計專有名詞與基本概念介紹 ◎統計學的目的與統計工作流程 Introduction 什麼是統計學? •讓數字說話的方法 •評估品質(Quality)的概念與方法(Concept+Methods) 第一堂課中,老師會解釋「什麼是統計」? 有時候,因為群體資料數量過多、或過於廣泛,我們無法取得完整群體資料,亦或無法辨認其中關係,因此,我們取其中樣本資料來分析,藉由樣本呈現的關係來推論群體資料間的關係,供決策參考。

舉例: *統計學就像是煮一鍋綠豆湯,如何知道綠豆湯好喝? *「好不好喝」跟什麼有關? 我們需要定義出「什麼是好喝?」的度量尺度,跟「品質」的特性有關: 1.甜度 2.豆之軟硬度 3.湯之濃度 4.... 因此,如何用統計學判斷「綠豆湯好喝」為例,將步驟歸納成下表,前四點都有工具軟體可以處理,我們學習統計,最重要的是學會「如何分析、解釋」圖表呈現的關係、推論群體、作出決策! 統計學為 1.蒐集(資料):用概念、抽樣(RandomSamples) 2.整理:有無離群值? 3.展示:圖表 4.分析:估計,用指標、圖表、假設檢定(差異性比較)、迴歸分析、預測 5.解釋資料:解釋分析結果 6.藉由樣本推論群體(推理),在不確定的情況下作成「決策」:(低)誤差+(高)可信度的科學方法。

其中,當我們在搜集資料時,須注意此資料需要具「代表性」、需「隨機取樣」,同時比例分布也需要接近群體本身的資料分佈,譬如: *群體中各類資料分佈比例:30%,20%,10%,5%,... *隨機取樣時也需要按此比例,否則將造成偏頗(bias)樣本。

BasicConcepts(基本概念) population(群體/母體) 由具有「共同特性」之個體所組成的整體。

例如:此製程全部晶圓厚度組成的資料。

sample(樣本) 群體之一部分。

例如:隨機一百片晶圓的厚度資料。

parameter(參數) 由「群體」資料所計算之群體「表徵值」 常用: 群體平均數:µ(讀作mu) 群體變異數:𝜎2(讀作sigmasquare) 群體標準差:𝜎 群體比例(比率):P 一般來說,因為我們不知群體,因此上述數值皆為未知,須由樣本來推估。

量測型數據:第1、3點 計數型數據:第4點(數來的數據) statistic(統計量) 由「樣本」資料所計算之樣本「表徵值」 常用: 樣本平均數:(讀作x_bar),或記作(讀作µ_hat),注意:(µ=70)!=(=70) 樣本變異數:(或記作,) 樣本標準差: 樣本比例:(讀作p_hat) 例如: *:所有晶圓之平均厚度 *:100片晶圓之平均厚度 TheObjectiveofStatistics(統計學的目的) •由「樣本」資訊推論母體參數 Q:怎麼抽樣? Q:怎麼估計? Q:檢定方法? 統計學範圍 敘述統計(DescriptiveStatistics): 如何蒐集數據、展示數據、及找出可描述數據特徵之值的方法。

(搜集資料、整理資料、統計圖表、計算指標) 推論統計(InferentialStatistics): 如何由樣本資訊推論群體,並估計該推論知可信度大小的方法。

(估計、檢定) 解決統計問題之五大步驟: Step 敘述 1.) Acleardefinitionofquestiontobeansweredandthepopulationthatrelatestoit. 2.) Thedesignoftheexperiment. 3.) Thecollectionandanalysisofdata. 4.) Theprocedureformakinginferences. 5.) Theprovisionofameasureof"Goodness"(reliability)fortheinference. RandomVariable(R.V,隨機變數) R.VDataType分為: Qualitative(定性)orCategorical(類別)data,即無法以數量表示,僅能依特性類別表之。

如:性別、國籍、造成產品變異之可能原因。

(低級) QuantitativeRdata(定量)orNumerical(數值)data.即隨機變數的各結果可以「數量」表之。

A.Discretedata–由計數的方式取得。

(中級) DefectiveItems不良品個數 Numberofstudentsinaclassroom Defectcountsonawafer B.Continuousdata–由量測的方式取得。

(高級) weight height temperature 第二週➠第一章:基本統計概念介紹 內容 ◎常用統計之圖表:條圖、柏拉圖、直方圖、莖葉圖、時間序列圖等 ◎常用之抽樣方法:簡單隨機抽樣、系統抽樣、分層隨機抽樣、部落抽樣 表示類別(定性)資料之次數分配 條圖BarGraph 用來比較及對照不同時期或類別間差異(搭配計數型) 單圓圖/圓餅圖PieChart 柏拉圖/巴瑞多圖ParetoDiagram=條圖+肩形圖 品管七大工具之一 定性(類別型)資料最常使用之圖形。

依據「重要少數,瑣細多數」(Majorfew,trivialmany)分類法則(又稱ABC原理,80/20),找出造成問題最關鍵之少數因素。

時間序列圖 用來表示資料在不同時間的關係圖,通常時間為橫軸,縱軸表示觀測值單位數量。

莖葉圖/Stem-and-LeafDisplay 假設現有大筆資料 每筆資料由莖(前頭的數字)與葉(最後一個數字)快速組成。

重新排序「葉」的部分(小->大) 功用:排序、資料分布 直方圖Histogram 品管七大工具之一 連續型資料最常用的圖形,用來展示資料分布(變異狀況、是不是常態分佈?)。

接著找重心、最小與最大值(看變異性)通常也會於圖上標記規格的上/下限值、目標值。

譬如:製程品管,我們會定義規格的上下限(分別為下圖最左右兩端),中間線為我們希望達到的產品品質,越多產品品質落在中間範圍區間越好。

同樣不良率(5%):日本品管(左圖)比美國的(右圖)好,多數日產產品落在中間target區域。

散步圖ScatterDiagram 品管七大工具之一 用來表示資料在兩個變數間的關係。

(Y:GPA,X:SATMath) 留意離群值。

※莖葉圖、直方圖、散步圖通常用來表示數值變數(定量資料) 複習–什麼是統計學? 讓數字說話的方法(Concepts+Methods),由樣本推論群體。

蒐集、整理、展示(圖表)、分析(指標、估計、檢定、預測)、解釋、推論群體、作決策。

[Important!]GarbageIn,GarbageOut 數據的取得方式 普查–對群體中的每一個體取得資料,也就是100%的全檢。

抽樣–利用一種程序或方法,由群體中抽出樣本。

常用抽樣有四種: 簡單隨機抽樣 系統抽樣 分層隨機抽樣 部落抽樣 簡單隨機抽樣 亂數取值時要注意,每個個體編碼長度要一致。

系統抽樣 分層隨機抽樣 部落抽樣/ClusterSampling 前提:假設每個部落分佈都是群體的縮影 編碼:00~99(共100) 第三週➠第二章–UsingNumericalMeasurestoDescribeData ◎常用之參數與統計量  •集中趨勢指標:平均數、中位數、眾數  •分散趨勢指標:全距、變異數、標準差、變異係數 如何以量化指標來展示資料(量測數據,量來的) 「連續型」資料有四個特性: CentralTendency(orLocation)–集中趨勢 Dispersion–分散趨勢 Skewness–偏態係數 Kurtosis–峰態 CentralTendency(orLocation)–集中趨勢 表示一組數據「中央點」位置所在的一個指標。

常用集中趨勢指標: 平均數 中位數 眾數 1.平均數(mean)=平衡點=重心 群體平均數:,N表群體大小 樣本平均數:,n表樣本大小 Ans:(1)(2)=20 算術平均數:上述。

幾何平均數(G):,開三次方…(何時用?當我們希望)只要其中一項為零,則平均數為零。

調和平均數:(聯想:F1score) 加權平均數:成績/GPA 截略平均數:去頭尾,但是樣本數不能太少;如體操、碩博士招生 2.中位數(median)=中心 「必須」將數據排序,「中間」的那一個數值、或中間兩個數值之平均。

群體中位數:𝛈(讀作eta) 樣本中位數: 找中位數的方法: 奇數>> 偶數>>n/2,(n/2)+1兩者相加的平均 Ans:(4)=9,(5)=(7+9)/2=8 3.眾數(mode) Ans:(6)=3,(7)=1和2 Ans:只適合用眾數表示,因為以銷售量/受歡迎程度來衡量。

何時用平均數?何時用中位數,眾數? Ans:取決於有無「離群值」 Ans:A,B 例:信義房屋->報平均(數)價格(易受離群值影響,高房價拉抬$latex) 拉抬$) Dispersion–分散趨勢 表示一組數據間「差異大小」或「數值變化」的一個量數。

常用指標: 全距(Range,R) 變異數(Variance) 標準差(StandardDeviation,STD) 變異係數(CoefficientofVariation,CV) 全距(Range,R) 用來衡量一組數據「分散程度」的最簡單方法。

先排序, 【缺點】>>當一組數據中有「離群值」出現或資料「筆數太多」(n>10)時,全距並非一個很好的衡量數據分散程度的量數,因其無法解釋最小值與最大值之間數據分布的情形,失真了,不適用全距。

變異數(Variance) 計算每個點的「離中(心)趨勢」,但是(中心點)左半部與右半部距離之和為零,數學上用絕對值或是平方,來避免。

【必記】樣本變異數S2,公式之所以除以(n-1)是因為除以n,推估群體變異數𝜎2時,誤差較大。

其簡便公式 記作 絕對離差(AbsoluteDeviation,AD) 平均離差 【推薦】(快速、誤差小、計算較正確版)簡化分子後得簡便公式= 標準差(StandardDeviation,STD) 將「變異數」開根號得之。

帶「單位」。

值越小,表變異越小。

群體標準差 樣本標準差 (相對)變異係數(CoefficientofVariation,CV) 相對變異、不帶單位 ,CV越小表示分散程度越小 何時用? 使用時機:有多組資料不同單位,要相比時使用,可用CV當指標。

比較股票風險: 蒐集股票A,B三十天的記錄,算出平均、標準差來比較。

A,B股票的變異數: B股票(變異)風險小,值得投資 B股票風險小,值得投資 第四週➠第二章–UsingNumericalMeasurestoDescribeData 常用來描述資料之統計指標 ◎常用之參數與統計量  •偏態係數、峰度係數  •非中趨勢指標:百分位數、四分位數 ◎經驗法則、柴比雪夫法則 ◎兩變數的關係:共變異數、相關係數 (承前週) Skewness–偏態係數 說明一組數據分布的型態。

尾巴誰長,就叫誰(右偏/左偏) Ans:=,>>,<< 公式長得像變異數: Kurtosis–峰態係數(名稱有「係數」者表示「無單位」) 量測尾端和頭,無單位 常用例子:A,B機台;A,B股票;A,B校學生… 看:頭(尖/頓)、尾巴分佈 如果峰度係數=3,表常態分佈; <3表低闊峰,>3表高峽峰。

非中趨勢 百分位Percentiles 四分位數Quartiles 如何找?Ans:將資料先排序!! Q1=位置在0.25*(n+1)之數。

Q3=位置在0.75*(n+1)之數。

n=10 [重要]如何決定數據分佈之情形? 經驗法則TheEmpiricalRule(常用) 又稱「689599.73法則」,資料必須是「常態分佈」 約68%的資料會落在的範圍內; 約95%的資料會落在的範圍內; 約99.73%的資料會落在的範圍內。

用來篩選離群值 Ans:正常值範圍:(驗證:看min,max是否落在此區間內,是否為離群值?) 柴比雪夫法則TheChebyshev'sRule 無須考慮資料是否為常態分佈,左偏右偏雙峰…等都適用。

用來篩選離群值。

共變異數/Covariance(少用) 從變異數公式聯想過來,變異數是自己與自己(X,X)的變異程度,共變異數是兩個變數(X,Y)各自變異的程度: 帶單位,因此少用。

值越大,表示X,Y關係越強,反之越弱。

【推薦用】Conv_sample簡便公式: 相關係數(常用) ,消去單位 不帶單位,常用! 值越大,表示X,Y關係越強,反之越弱。

群體: 【常用】樣本相關係數:,其中,越接近表X,Y有越強的正向(線性)關係(X越大,Y跟著大)。

越接近0表沒有線性關係,但是有可能有很強曲線關係 使用了簡便公式來計算。

第五週➠第三章:機率 內容 ◎機率基本概念介紹 ◎計數規則:乘法原理、排列、組合 統計學分為敘述統計、推理統計 敘述統計–搜集資料方法圖表指標 [重要!]推理統計:由樣本推論群體 估計(第八章) 檢定(統計學二) 敘述統計:「機率」–>機率分佈–>抽樣分佈–>推理統計 機率–事件發生的機率 實驗–如丟銅板/骰子n次 1)丟銅板三次 2)擲骰子一次 樣本空間 1)丟骰子一次,其樣本空間S={1,2,3,4,5,6} 2)丟銅板兩次,樣本空間S={正正,正反,反正,反反} 事件 (subsetofsamplespace)EventA={1,3,5},EventB={正正} 機率 Ans: 0≤P(A)<1 p(0)=0,p(S)=1 P(A1)+P(A2)+P(A3)…= Ans: Experiment:tossadieonce SampleSpace:S={1,2,3,4,5,6} SimpleEvent:E1~E6 Compoundevent:A,B P(A)=3/6=1/2,SA={1,3,5} P(E6)=1/6,E6={6} P(C)=2/6,C={1,2} Ans: Tosstwocoins:S={HH,HT,TH,TT},#(S)=4 S_A={HT,TH},P(A)=2/4 S_B={HH,HT,TH},P(B)=3/4 解題步驟 寫出Experiment=? 寫出SampleSpace={…} 寫出EventA,#(A)=?,P(A)=#(A)/#(S) 寫出EventB,#(B)=?,P(B)=? 寫出EventC… CountingPrinciples 解決一些手算困難的狀況:丟骰子20次 CountingRules: TheMultiplicationPrinciple(乘法原理): Permutations(排列) P(10,10)=10! 賽馬+次序不同 P(12,12)=12! 排成圓圈須去頭。

Combinations(組合) C(n,r):n個東西取r個出來 撲克牌 A問題因爲次序不同,所以用排列。

B則否,用組合。

應用至求機率: 第六週➠第三章:機率 內容 ◎機率法則 ◎貝氏定理 ProbabilityLaws VennDiagram Union AorB: #(S)=52,AUB=AorB=#(AUB)=26+4-2=28 Intersection(交集) ComplementaryEvent(互補) ConditionalProbability條件機率 已知B發生,A也發生的機率。

Independentevents Ans:P(A|B)=P(A)ifA,Bareindependent. P(A|B)=P(AandB)/P(B)=0.2/0.3!=0.4 Thus,A,Barenotindependent. A,BareME互斥ifP(AandB)=0. Therefore,A,Baredependent! Mutuallyexclusiveevents S={(1,1)(1,2)…(6,6)} #(S)=6*6=36 A=兩數字和為一奇數={(1,2)(2,1)…},#(A)=18 P(A)=18/36=1/2 B={(2,6)(6,2)…},#(B)=10 P(B)=10/36=5/18 P(AandB)=P(A)*P(B)ifA,Bareindependent. AandB=sumis9={(3,6)(6,3)…},P(AandB)=4/36 1/9!=1/2*5/18,Thus,A,Barenotindependent! 1/9!=0,Thus,A,BarenotM.E! Thus,A,Baredependent! 用維氏圖來解最方便。

a)0.2 b)P(AUB)=0.2+0.2+0.3=0.7 c)0.2+0.3=0.5 d)0.2 e)0.3 f)1–0.7=0.3 S=smokecigarette,D=drinktea P(S)=0.1,P(D)=0.3,P(SandD)=0.5 a)1-(0.05+0.05+0.25)=0.65 b)0.05 c)0.25 d)SandDindep?checkifP(SandD)=P(S)P(D) 0.05!=0.10.3andtheyarenotM.E. Thus,theyaredependent! AdditionRule: 如果AB獨立: 如果AB互斥: #(S)=52 a)=2/52 b)=P(A)+P(B)-P(AandB)=4/52+26/52–2/52=32/52 c)=0/52=0 d)=P(H)+P(S)-P(HandS)=13/52+13/52–0=1/2 Bays'Theorem:貝氏定理 條件機率的應用/推廣。

已知B發生,AandB也發生的機率>>進一步推導 – a)P(D|P)=P(DandP)/P(P) =P(P|D)P(D)/(P(P|D)P(D)+P(P|D_bar)*P(D_bar)) =0.99*0.05/(0.990.05+0.030.95) =0.0495/(0.0495+0.0285) b)P(D_bar|P_bar)=? 求P(I|D)=? 第七週➠第四章:離散型機率分佈 內容 ◎累加機率函數 ◎期望值 RandomVariables(R.V.) 1)Xisdiscrete.x=0,1,2,… 2)Xiscontinuous.x>0 3)discrete.x=0,1,2,…,12 4)continuous.x>0 5)discrete.x=0,1,2 6)discrete.x=2,3,…,12 V:netgain Exp:Tossthreedice S={(1,1,1)…(6,6,6)},#(S)=63=216 Bet$1theoccurrenceof'5': 累加機率 Exp:由帽子中隨機抽一張紙條 X=紙條上的數字 a)uniformdistribution TheExpectedValueofaDiscreteR.V.(期望值,帶單位) 就是重心,平均值 Ans=(加權)平均=(上圖所示) TheVarianceandStandardDeviationofaR.V.X 更正:定理1中第一行:E(C)=C Var(X)= 定理3證明,請看W7-2影片1:14:34 證明定理3: Ans: Ans: Sharethis:ClicktoshareonTwitter(Opensinnewwindow)ClicktoshareonFacebook(Opensinnewwindow)Likethis:LikeLoading... Postnavigation PreviousKaggle初體驗Next聚焦 LeaveaReply Enteryourcommenthere... Fillinyourdetailsbeloworclickanicontologin: Email(required)(Addressnevermadepublic) Name(required) Website YouarecommentingusingyourWordPress.comaccount. ( Log Out /  Change ) YouarecommentingusingyourTwitteraccount. ( Log Out /  Change ) YouarecommentingusingyourFacebookaccount. ( Log Out /  Change ) Cancel Connectingto%s Notifymeofnewcommentsviaemail.Notifymeofnewpostsviaemail. Δ ToggleSidebar Menu Categories Apps/PlugIns Life News/Perspective OSX Programming status TheHitTagsAI APPS/PLUGINS Browser C DataSci DataScience DpLRN Extensions Golang Life MachineLearning MachineLRN Note Notes PlugIns RaspberryPi Statistics SWEngineering Tensorflow Tutor Wordpress.com WP.comSearch Searchfor: Meta Register Login Entriesfeed Commentsfeed WordPress.com Categories Apps/PlugIns Life News/Perspective OSX Programming status AI APPS/PLUGINS Browser C DataSci DataScience DpLRN Extensions Golang Life MachineLearning MachineLRN Note Notes PlugIns RaspberryPi Statistics SWEngineering Tensorflow Tutor Wordpress.com WP.com Searchfor: Meta Register Login Entriesfeed Commentsfeed WordPress.com Privacy&Cookies:Thissiteusescookies.Bycontinuingtousethiswebsite,youagreetotheiruse. Tofindoutmore,includinghowtocontrolcookies,seehere: CookiePolicy Follow Following 難得糊塗 Signmeup AlreadyhaveaWordPress.comaccount?Loginnow. 難得糊塗 Customize Follow Following Signup Login Copyshortlink Reportthiscontent ViewpostinReader Managesubscriptions Collapsethisbar %dbloggerslikethis:



請為這篇文章評分?