Data Story

데이터 사이언스, 쉽게 설명하기

전체 글 90

Algorithm - [Asymptotic notation]

Asymptotic notation 알고리즘의 수행 시간을 표기하기 위해, 필수적인 부분에 집중하고 불필요한 상세들을 무시한다. 예를 들어, f(n) = n^2 + 2n 일 때, 시간 복잡도는 n^2이라고 한다. n이 무한대로 가는 데에선 낮은 차수의 증가폭이 높은 차수의 증가폭을 넘지 못하기 때문이다. 점근법 표기법 상한 표기법 : Big- O 점근적 상한만 알고 있을 때 사용하며 기껏해야 f(n)의 비율로 증가하는 함수 e.g. 7n-2가 O(n)임을 증명하라. sol) Let. c>0 이고 n_0 >= 1 n = 7n-2를 만족하는 c, n_0가 존재하는가? ​-> c=7,n_0 = 1일때 존재한다. ​ 하한 표기법 : Big - Omega 점근적 하한만 알고 있을 때 사용하며 적어도 f(n)의 비..

Algorithm 2023.01.10

Algorithm - [Sort Algorithm]

Sort Algorithm 기초 정렬 알고리즘 1. 선택정렬 가장 작은 숫자를 구해 맨 왼쪽과 비교 수행시간 : (n-1) + (n-2) + ... + 2 + 1 = O(n^2) 더보기 장점 - n개의 원소에 대해서 n의 메모리를 할당하기 때문에 하나씩 정교하게 비교할 수 있다. - 역순으로 정렬할 선택 정렬이 높은 효율을 보여준다. 단점 - 이미 정렬되어 있는 자료에 한개라도 자료가 추가 된다면 처음부터 재정렬하기 때문에 최악의 시간복잡도를 보일 수 있다. 2. 버블정렬 맨 왼쪽부터 오른쪽에 있는 숫자와 하나씩 비교 수행시간 : (n-1) + (n-2) + ... + 2 + 1 = O(n^2) 더보기 장점 - n개의 원소에 대해서 n의 메모리를 할당하기 때문에 하나씩 정교하게 비교할 수 있다. 단점 -..

Algorithm 2023.01.10

Excel - [Excel Basic]

Excel Basic Udemy에서 배운 것들을 정리함. 단축키 상,중은 무조건 알고가자. 눈금선 셀 간 눈금선 유무를 지정할 수 있다. 필터 컬럼에 필터를 걸어, 정렬이나 값을 추출할 수 있다. 연산함수 SUM, AVERAGE, COUNT 합계의 경우, ```=SUM(C4:C11)``` 작성하면 된다. 영역은 셀 드래그하면 된다. RANK 랭크의 경우 '절대 참조'라는 개념이 도입된다. 내림차순으로 순위를 지정하고자 한다. 자동 채우기까지 진행하면 아래와 같은 그림처럼 겹치는 순위가 이상하게 나온다. F2를 눌러서 자동채우기를 했을 때 RANK 내 ref 인자가 어느 영역을 참조하는지 확인해보자. 빨간 영역이 ref 인자의 영역인데 셀과 함께 영역이 움직이는 것이다. (이것을 '상대참조'라고 한다.) ..

Excel 2023.01.06

Preprocessing - [Large Datasets processing]

Large Datasets processing 대용량 데이터에 Pandas를 사용하면 성능이 떨어진다. Pandas 라이브러리는 메모리 내에서 분석을 수행하기 때문에 데이터셋이 메모리보다 크면 Pandas를 사용하기 어렵다. 또한, 단일 CPU 코어를 사용하기 때문에 매우 큰 데이터셋에서 Hadoop과 같은 병렬 분산 처리 컴퓨팅 도구보다 느리다. 물론, Dask, Modin과 같은 도구나 라이브러리로 처리하면 된다. 대용량 데이터셋에 Pandas를 쓰기 위해서는 아래와 같은 방법이 있다. 1. usecols usecols 인자를 사용하면 전체 데이터셋을 사용하는 것보다 훨씬 빠르다. import pandas as pd cols = ["X1" , "X2" , "X3" , "X4" , "X5"] df = ..

Preprocessing 2023.01.04

Computer Science - [Algorithm]

Algorithm - 문제 해결 절차를 체계적으로 기술한 것 (입력으로부터 출력을 만드는 과정 기술) ​ 바람직한 알고리즘 1. 명확성 2. 효율적 3. 간결성 알고리즘 입출력의 예 e.g.입력 : 100개의 변수 (배열) x[1].x[2] ...x[100] , 출력 : x[1], x[2], ...x[100] 중 최대값 maxScore(x[], n) { x[1,...n]의 값을 차례때로 보면서 최대값을 계산; return 위에서 찾은 최대값; } 알고리즘 공부의 목적 1. 특정한 문제를 해결하기 위한 알고리즘 습득 2. 체계적 생각 훈련 - 문제자체를 해결하는 알고리즘 학습 - 그 과정에 깃든 '생각하는 방법' 배우는게 중요 3. 미래에 다른 문제를 해결하는 생각의 빌딩블록 제공 - 지적 추상회의 레벨 ..

Computer Science 2023.01.02

Statistics - [Statistics Hypothesis Testing]

Statistics Hypothesis Testing Student's T-Test에는 3개의 가정이 있다. [정규성] 정규성을 만족해야하는데 이는 표본의 크기와 관련이 있다. 표본의 크기가 일반적으로 30개 이상인 경우 중심극한정리에 의해서 검정 없이도 정규성을 가정할 수 있다. 10개에서 30개인 경우는 Shapiro-Wilk test 등의 방법으로 정규성을 검증을 한다. 10개 미만인 경우 정규성을 띄지 않는 것으로 판단하고 비모수적 방법을 사용한다. [독립성] 독립성을 만족해야한다. 동일한 대상에 대해서 전후를 비교하는 것은 독립성을 만족하지 못한다. 독립성을 만족하지 못하는 경우, 대응표본 T-검정이나 윌콕슨부호순위검정(Wilcoxon signed rank test)를 사용해야한다. [등분산성]..

Statistics 2022.12.26