Data Story

데이터 사이언스, 쉽게 설명하기

Data Analysis 90

Excel - [Excel Basic]

Excel Basic Udemy에서 배운 것들을 정리함. 단축키 상,중은 무조건 알고가자. 눈금선 셀 간 눈금선 유무를 지정할 수 있다. 필터 컬럼에 필터를 걸어, 정렬이나 값을 추출할 수 있다. 연산함수 SUM, AVERAGE, COUNT 합계의 경우, ```=SUM(C4:C11)``` 작성하면 된다. 영역은 셀 드래그하면 된다. RANK 랭크의 경우 '절대 참조'라는 개념이 도입된다. 내림차순으로 순위를 지정하고자 한다. 자동 채우기까지 진행하면 아래와 같은 그림처럼 겹치는 순위가 이상하게 나온다. F2를 눌러서 자동채우기를 했을 때 RANK 내 ref 인자가 어느 영역을 참조하는지 확인해보자. 빨간 영역이 ref 인자의 영역인데 셀과 함께 영역이 움직이는 것이다. (이것을 '상대참조'라고 한다.) ..

Excel 2023.01.06

Preprocessing - [Large Datasets processing]

Large Datasets processing 대용량 데이터에 Pandas를 사용하면 성능이 떨어진다. Pandas 라이브러리는 메모리 내에서 분석을 수행하기 때문에 데이터셋이 메모리보다 크면 Pandas를 사용하기 어렵다. 또한, 단일 CPU 코어를 사용하기 때문에 매우 큰 데이터셋에서 Hadoop과 같은 병렬 분산 처리 컴퓨팅 도구보다 느리다. 물론, Dask, Modin과 같은 도구나 라이브러리로 처리하면 된다. 대용량 데이터셋에 Pandas를 쓰기 위해서는 아래와 같은 방법이 있다. 1. usecols usecols 인자를 사용하면 전체 데이터셋을 사용하는 것보다 훨씬 빠르다. import pandas as pd cols = ["X1" , "X2" , "X3" , "X4" , "X5"] df = ..

Preprocessing 2023.01.04

Computer Science - [Algorithm]

Algorithm - 문제 해결 절차를 체계적으로 기술한 것 (입력으로부터 출력을 만드는 과정 기술) ​ 바람직한 알고리즘 1. 명확성 2. 효율적 3. 간결성 알고리즘 입출력의 예 e.g.입력 : 100개의 변수 (배열) x[1].x[2] ...x[100] , 출력 : x[1], x[2], ...x[100] 중 최대값 maxScore(x[], n) { x[1,...n]의 값을 차례때로 보면서 최대값을 계산; return 위에서 찾은 최대값; } 알고리즘 공부의 목적 1. 특정한 문제를 해결하기 위한 알고리즘 습득 2. 체계적 생각 훈련 - 문제자체를 해결하는 알고리즘 학습 - 그 과정에 깃든 '생각하는 방법' 배우는게 중요 3. 미래에 다른 문제를 해결하는 생각의 빌딩블록 제공 - 지적 추상회의 레벨 ..

Computer Science 2023.01.02

Statistics - [Statistics Hypothesis Testing]

Statistics Hypothesis Testing Student's T-Test에는 3개의 가정이 있다. [정규성] 정규성을 만족해야하는데 이는 표본의 크기와 관련이 있다. 표본의 크기가 일반적으로 30개 이상인 경우 중심극한정리에 의해서 검정 없이도 정규성을 가정할 수 있다. 10개에서 30개인 경우는 Shapiro-Wilk test 등의 방법으로 정규성을 검증을 한다. 10개 미만인 경우 정규성을 띄지 않는 것으로 판단하고 비모수적 방법을 사용한다. [독립성] 독립성을 만족해야한다. 동일한 대상에 대해서 전후를 비교하는 것은 독립성을 만족하지 못한다. 독립성을 만족하지 못하는 경우, 대응표본 T-검정이나 윌콕슨부호순위검정(Wilcoxon signed rank test)를 사용해야한다. [등분산성]..

Statistics 2022.12.26

R - [Normality]

Normality library(dplyr) library(ggplot2) #visualization qqnorm(mpg$hwy) qqline(mpg$hwy) 시각적으로 보는 방법보다 정규성 검정을 통해서 확인하는 게 더 낫다. 이 때, 정규성 검정의 귀무가설은 '정규성을 따른다'이다. shapiro.test(mpg$hwy) [그림 2]를 보면 p-value가 유의수준 0.05보다 작기 때문에 귀무가설을 기각하고 대립가설을 채택하게 된다. 따라서 hwy variable은 정규성을 따르지 않는다고 주장할 수 있다. 중심극한정리 동일확률분포를 가진 확률변수 n개의 평균의 분포는 n이 충분히 크다면 '정규분포'에 가까워진다는 것 mu = 30 sigma = 10 set.seed(10) pop

R 2022.12.25

R - R Markdown command

R markdown R markdown을 작성하기 위해서는 일반 R script가 아닌 .Rmd script창을 열어야한다. Rstudio 메뉴창의 file아래 새파일추가 버튼을 클릭하면 R script아래 R markdown을 열어주면 된다. 작성하고자 하는 주제와 저자이름 그리고 문서형식을 선택하고 ok버튼을 누르면 .Rmd script창이 생성된다. R markdown 문법에 맞게 문서를 작성하면 된다. 작성한 문서를 HTML파일로 변환하기 위해서는 .Rmd창 아래 Knit 버튼을 클릭하면 문서가 생성된다. Basic Syntax 1. 강조(Empasis) 글자를 강조하기 위해서 기본적으로 italic과 bold체가 있다. italic은 강조하고자 하는 text 양끝에 * 또는_ bold는 강조하고..

R 2022.12.22

ML - [Model Evaluation]

Model Evaluation 높은 성능을 가진 모델로 '어떤 데이터'를 예측하고 그것을 일반화하기 위해 평가를 진행해야한다. ​ 보통 train set을 train set과 valid set로 다시 나누고, valid set 예측 성능을 평가지표에 반영한 점수로 평가한다. 여기서 데이터를 적절히 나누고 일반화 성능을 평가하는 작업 자체를 '검증'이라고 한다. ​ 검증 방법 홀드아웃 검증 교차검증 ​ 홀드아웃 검증 Image from https://jackyoon5737.tistory.com/80 ​ train set의 일부를 학습에 사용하지 않고 valid set으로 남겨둔다. train set으로 모델 학습시키고, 남겨둔 valid set 데이터로 모델을 평가한다. 어느정도 나쁘지 않은 평가가 이루어..

ML 2022.12.20