1.2 Basic plots 基本圖形
- 折線圖看趨勢
- 直方圖看分佈
- 莖葉圖
標準化公式
\(z_i = \frac{x_i-\mu}{\sigma}\)
統計
- mean為平均數
- median不容易找出,但不容易受極端值的影響。
缺失值
NA
:缺失值NaN
: 無意義數值
重點
hist(x, breaks)
: 直方圖,frequency為頻次freq=FALSE
時可以輸出densitystem(x)
: 葉莖圖,顯示結果類似直方圖,skewness()
: 偏度,左偏或右偏kurtosis()
: 峰度,平的或凸的
常用函數
cut(x, breaks)
: 切分mean()
計算算術平均值var()
: 變異數sd()
: 標準差range()
: 最大最小值
標準化公式
\(z_i = \frac{x_i-\mu}{\sigma}\)
統計
- mean為平均數
- median不容易找出,但不容易受極端值的影響。
缺失值
NA
:缺失值NaN
: 無意義數值
重點
hist(x, breaks)
: 直方圖,frequency為頻次freq=FALSE
時可以輸出densitystem(x)
: 莖葉圖,顯示結果類似直方圖,skewness()
: 偏度,左偏或右偏kurtosis()
: 峰度,平的或凸的
常用函數
cut(x, breaks)
: 切分mean()
計算算術平均值var()
: 變異數sd()
: 標準差range()
: 最大最小值
1.4 Higher-order statistics
統計量
-
\(\mu\)
-
\(\sigma\)
-
一階: 中心
- 平均值
- 中間值
- 眾數
-
二階: 分佈
- 標準差
-
三階: 對稱性
- 偏度
2.1 Basic Descriptive Statistics 敘述統計
- mean: \(\bar{x} = \frac{\Sigma x_i}{\mu}\)
- variance(變異數): \(\sigma ^ 2 = \frac{\Sigma (x_i - \bar{x})^2}{N}\)
- standard deviation(標準差): \(\sigma = \sqrt {\frac{\Sigma (x_i - \bar{x})^2}{N}}\)
- mad(): median absolute deviation
- boxplot(): 盒鬚圖
- quantile(): 四分位
- fivenum(): min, Q1, Q2, Q3, max
- summary(): 不同於四分位或fivenum(),沒有Q2
- IQR(): \(Q_3 - Q_1\)
根據median為中心看。
情況
- 右偏: median < mean
- 左偏: mean < median
盒鬚圖
盒子上面有Q1(HL), median, Q3(HU),中間的線上為median,而下面線為min(也可能是1.5倍的距離),上面線的位置在1.5*(HU - HL),大於此數值的點(在圖上方),為離異點(potential outliers)。
注意
如果上下範圍夠大,都有大於1.5 * (HU - HL)
數據的話,上下可能都會有離異點。
- potential outliers: 大於1.5倍
- suspected outliers: 大於3倍
3.2 Probability Space
實驗->樣本空間 \(\Omega= \{ A \}\)
機率空間 \(S = \{S_i\}\)
樣本事件"sample event",\(A_i=\{T,H,T\} \rightarrow P_i /8 \)
\(P_i >= 0, \Sigma P_i = 1\) 每個\(A_i\)給機率值\(P_i\)給\(S_i=(A_i, P_i)\)
- probspace(A, probs=p)機率空間, 給每個事件賦予機率值,形成機率空間\((A_i, P_i)\)
- probspace(A),等機率
實驗的outcome(產出結果)
- ELM(等機率模型)
機率子空間
\(S_2 = \{S: X_1 + X_3 >= 3\}\)
- subset ()不是機率空間,沒有機率值(總和不為1
機率為measure (量度,量度恆正),
R Big Data Probability And Statistic