機率與統計

Fri, 2019 Sep 27

1.2 Basic plots 基本圖形

折線圖看趨勢
直方圖看分佈
莖葉圖

標準化公式

\(z_i = \frac{x_i-\mu}{\sigma}\)

統計

mean為平均數
median不容易找出，但不容易受極端值的影響。

缺失值

NA:缺失值
NaN: 無意義數值

重點

hist(x, breaks): 直方圖，frequency為頻次freq=FALSE時可以輸出density
stem(x): 葉莖圖，顯示結果類似直方圖，
skewness(): 偏度，左偏或右偏
kurtosis(): 峰度，平的或凸的

常用函數

cut(x, breaks): 切分
mean() 計算算術平均值
var(): 變異數
sd(): 標準差
range(): 最大最小值

標準化公式

\(z_i = \frac{x_i-\mu}{\sigma}\)

統計

mean為平均數
median不容易找出，但不容易受極端值的影響。

缺失值

NA:缺失值
NaN: 無意義數值

重點

hist(x, breaks): 直方圖，frequency為頻次freq=FALSE時可以輸出density
stem(x): 莖葉圖，顯示結果類似直方圖，
skewness(): 偏度，左偏或右偏
kurtosis(): 峰度，平的或凸的

常用函數

cut(x, breaks): 切分
mean() 計算算術平均值
var(): 變異數
sd(): 標準差
range(): 最大最小值

1.4 Higher-order statistics

統計量

\(\mu\)
\(\sigma\)
一階: 中心
- 平均值
- 中間值
- 眾數
二階: 分佈
- 標準差
三階: 對稱性
- 偏度

2.1 Basic Descriptive Statistics 敘述統計

mean: \(\bar{x} = \frac{\Sigma x_i}{\mu}\)
variance(變異數): \(\sigma ^ 2 = \frac{\Sigma (x_i - \bar{x})^2}{N}\)
standard deviation(標準差): \(\sigma = \sqrt {\frac{\Sigma (x_i - \bar{x})^2}{N}}\)
mad(): median absolute deviation
boxplot(): 盒鬚圖
quantile(): 四分位
fivenum(): min, Q1, Q2, Q3, max
summary(): 不同於四分位或fivenum()，沒有Q2
IQR(): \(Q_3 - Q_1\)

根據median為中心看。

情況

右偏: median < mean
左偏: mean < median

盒鬚圖

盒子上面有Q1(HL), median, Q3(HU)，中間的線上為median，而下面線為min(也可能是1.5倍的距離)，上面線的位置在1.5*(HU - HL)，大於此數值的點(在圖上方)，為離異點(potential outliers)。

注意

如果上下範圍夠大，都有大於1.5 * (HU - HL)數據的話，上下可能都會有離異點。

potential outliers: 大於1.5倍
suspected outliers: 大於3倍

3.2 Probability Space

實驗->樣本空間 \(\Omega= \{ A \}\)

機率空間 \(S = \{S_i\}\)

樣本事件"sample event"，\(A_i=\{T,H,T\} \rightarrow P_i /8 \)

\(P_i >= 0, \Sigma P_i = 1\) 每個\(A_i\)給機率值\(P_i\)給\(S_i=(A_i, P_i)\)

probspace(A, probs=p)機率空間, 給每個事件賦予機率值，形成機率空間\((A_i, P_i)\)
probspace(A),等機率

實驗的outcome（產出結果）

ELM(等機率模型)

機率子空間

\(S_2 = \{S: X_1 + X_3 >= 3\}\)

subset ()不是機率空間，沒有機率值(總和不為1

機率為measure (量度,量度恆正),

R Big Data Probability And Statistic