Data Story

데이터 사이언스, 쉽게 설명하기

전체 글 90

R - [Normality]

Normality library(dplyr) library(ggplot2) #visualization qqnorm(mpg$hwy) qqline(mpg$hwy) 시각적으로 보는 방법보다 정규성 검정을 통해서 확인하는 게 더 낫다. 이 때, 정규성 검정의 귀무가설은 '정규성을 따른다'이다. shapiro.test(mpg$hwy) [그림 2]를 보면 p-value가 유의수준 0.05보다 작기 때문에 귀무가설을 기각하고 대립가설을 채택하게 된다. 따라서 hwy variable은 정규성을 따르지 않는다고 주장할 수 있다. 중심극한정리 동일확률분포를 가진 확률변수 n개의 평균의 분포는 n이 충분히 크다면 '정규분포'에 가까워진다는 것 mu = 30 sigma = 10 set.seed(10) pop

R 2022.12.25

R - R Markdown command

R markdown R markdown을 작성하기 위해서는 일반 R script가 아닌 .Rmd script창을 열어야한다. Rstudio 메뉴창의 file아래 새파일추가 버튼을 클릭하면 R script아래 R markdown을 열어주면 된다. 작성하고자 하는 주제와 저자이름 그리고 문서형식을 선택하고 ok버튼을 누르면 .Rmd script창이 생성된다. R markdown 문법에 맞게 문서를 작성하면 된다. 작성한 문서를 HTML파일로 변환하기 위해서는 .Rmd창 아래 Knit 버튼을 클릭하면 문서가 생성된다. Basic Syntax 1. 강조(Empasis) 글자를 강조하기 위해서 기본적으로 italic과 bold체가 있다. italic은 강조하고자 하는 text 양끝에 * 또는_ bold는 강조하고..

R 2022.12.22

ML - [Model Evaluation]

Model Evaluation 높은 성능을 가진 모델로 '어떤 데이터'를 예측하고 그것을 일반화하기 위해 평가를 진행해야한다. ​ 보통 train set을 train set과 valid set로 다시 나누고, valid set 예측 성능을 평가지표에 반영한 점수로 평가한다. 여기서 데이터를 적절히 나누고 일반화 성능을 평가하는 작업 자체를 '검증'이라고 한다. ​ 검증 방법 홀드아웃 검증 교차검증 ​ 홀드아웃 검증 Image from https://jackyoon5737.tistory.com/80 ​ train set의 일부를 학습에 사용하지 않고 valid set으로 남겨둔다. train set으로 모델 학습시키고, 남겨둔 valid set 데이터로 모델을 평가한다. 어느정도 나쁘지 않은 평가가 이루어..

ML 2022.12.20

Visualization - [plotly library]

matplotlib보다 더욱 직관적이고, 분석하는데에 용이하다. 마우스 커서로 값들을 볼 수 있는 장점이 있다. 코드는 복잡하니 외우지말고 스크랩해서 수정하면 된다. plotly library import pandas as pd import numpy as np import matplotlib as mpl from plotly.offline import import init_notebook_mode, iplot, plot import plotly as py init_notebook_mode(connected=True) import plotly.graph_objs as go from wordcloud import WordCloud Line Plot # prepare data frame df = timesD..

Visualization 2022.12.18

Computer Architecture - [CPU]

CPU (Central Processing Unit) 중앙 처리 장치라 불리며 데이터를 처리하는 역할을 합니다. 컴퓨터의 구성 단위 중 기억, 해석, 연산, 제어를 담당합니다. CPU는 PC의 여러 장치들의 연산과 제어를 관장하기 때문에 CPU의 성능이 PC의 속도와 성능을 결정합니다. ​또한 CPU는 메인보드와 메모리에도 영향을 미칩니다. ​ 구성 제어장치 연산장치 레지스터(CPU 전용 임시기억장치) 캐시메모리(CPU와 주기억장치 간 속도 밸런싱) ​기능 CPU는 출력을 전달하기 전에 컴퓨터 RAM에서 입력을 가져와 명령문을 이해하고 처리합니다. Fetch(인출, 데이터 가져오기) : 실행할 명령어를 가져옵니다. Decoding(해석) : 가져온 명령어를 처리하기 위해서 명령어 종류를 구분합니다. Ex..

Computer Science 2022.12.18