Data Story

데이터 사이언스, 쉽게 설명하기

R

R - [Normality]

_data 2022. 12. 25. 12:15

Normality

그림 1

library(dplyr)
library(ggplot2)

#visualization
qqnorm(mpg$hwy)
qqline(mpg$hwy)

시각적으로 보는 방법보다 정규성 검정을 통해서 확인하는 게 더 낫다.

이 때, 정규성 검정의 귀무가설은 '정규성을 따른다'이다.

그림 2

shapiro.test(mpg$hwy)

 

 

[그림 2]를 보면 p-value가 유의수준 0.05보다 작기 때문에 귀무가설을 기각하고 대립가설을 채택하게 된다.

따라서 hwy variable은 정규성을 따르지 않는다고 주장할 수 있다.

 

중심극한정리

동일확률분포를 가진 확률변수 n개의 평균의 분포는 n이 충분히 크다면 '정규분포'에 가까워진다는 것

 

그림 3

mu = 30
sigma = 10

set.seed(10)
pop <- rnorm(100, mean=mu, sd=sigma)
hist(pop)

이제, 30개씩 sampling을 하고 그 sample의 평균을 내보자.

100번을 시행한 것과 10000번을 시행한 것의 차이도 알아보자.

그림 4

#100 iter
sim <- rep(NA,100)
for (i in 1: 100)
{
  sim[i] <- mean(sample(pop, 30, replace = T))
}

qqnorm(sim)
qqline(sim)

그림 5

#10000 iter
sim <- rep(NA,10000)
for (i in 1: 10000)
{
  sim[i] <- mean(sample(pop, 30, replace = T))
}

qqnorm(sim)
qqline(sim)

 

'R' 카테고리의 다른 글

R - [barplot]  (0) 2023.01.18
R - [Visualization. ggplot2]  (0) 2022.12.22
R - R Markdown command  (1) 2022.12.22
R Visualization - [boxplot]  (0) 2022.12.06
R Visualization - [dotchart]  (0) 2022.12.06