Data Story

데이터 사이언스, 쉽게 설명하기

전체 글 90

Preprocessing - [Process missing values]

Preprocessing - [Process missing values] 데이터를 열어보면 결측값이 있을 때가 많다. 결측값을 처리해야할 때 다앙한 방법들이 있다. (비어 있는 부분이 결측값) 결측값을 처리하는 방법들 결측값이 있는 행 지우기 결측값이 많은 열 지우기 평균이나 중위값으로 간단히 통계 처리(결측값이 랜덤으로 분포된 경우에 사용) 다중대체법(Multiple imputation) Python 라이브러리, ```facnyimpute``` https://github.com/iskandr/fancyimpute Maximum likelihood estimator https://www.kaggle.com/code/residentmario/simple-techniques-for-missing-data-i..

Preprocessing 2023.01.25

R - [barplot]

barplot 매개변수 main = ' ' : barplot 제목 xlab = ' ' : x축 변수명 설명 col = '~' : 막대 색 axes = F : 축 미표시 names.arg = : x축 변수명 표시 tip. row.names() or colnames()로 쓰기 beside = T : 행렬 데이터 때, 두개로 구분 + space(0.1,2) 같이 활용할 것. xlim = c(0,5) : x축 길이 조정 ylim = c(0,5) : y축 길이 조정 horiz = T : 막대 가로로 표시 Horizon barplot #기본적인 막대도표 그리는 함수 barplot(c(15,12,5), names.arg=c('G3','G4','G5'), main='car distribution', xlab='the ..

R 2023.01.18

terminal, Git 커맨드 정리 (reset, restore 추가)

버전관리시스템 중 하나인, VCS(Version Control System)입니다. 매일매일 변화된 Task를 관리하며 이전 버전의 파일을 다시보거나 비교 및 협업이 가능하죠 :D GIt은 rinux 기반이기 때문에 window의 경우, git bash를 다운받습니다. Git을 시각적으로 보기 위해 GUI인 gitkraken 등을 활용을 추천합니다. https://www.gitkraken.com/ GitKraken Legendary Git Tools | GitKraken Meet GitKraken, the creator of legendary Git tools for developers and teams - like the GitKraken Client, with Git GUI and CLI, Git I..

Git 2023.01.17

Computer Science - [Handling combined exclusive sets]

Handling combined exclusive sets 상호 배타적 집합의 처리 지원할 연산 - Make-Set(x) : 원소 x로만 이루어진 집합을 만든다. - Find-Set(x) : 원소 x를 가지고 있는 집합을 알아낸다. - Union(x,y) : 원소 x를 가진 집합과 원소 y를 가진 집합 합집합 ​ 연결리스트(Linked list)를 이용한 처리 - 같은 집합의 원소 => 하나의 연결 리스트로 관리 - 연결 리스트의 맨 앞의 원소를 대표원소 ​ 연결 리스트로 된 두 집합 ​ 무게를 고려한 Union - 연결 리스트로 된 두 집합을 합칠 때, 작은 집합을 큰 집합의 뒤에 붙인다. - 대표 원소를 가리키는 포인터 갱신 작업을 최소화 - union시 시간이 가장 많이 드는 작업은 대표원소를 가리..

Computer Science 2023.01.11

Algorithm - [Search Tree]

Search Tree 이진검색트리 Binary Search Tree - 최대 두개의 자식노드 - 노드의 키 값은 왼쪽 자식 노드의 키 값보단 크고 오른쪽 자식의 키 값보단 작다. - 이진 검색 트리에서의 삽입은 최악의 경우에도 이진트리가 균형이 잡혀있으면 시간복잡도는 O(logn). 이진 검색 트리에서의 삭제 - 삭제하고자 하는 노드 r이 리프 노드인 경우 : 삭제 - 삭제하고자 하는 노드 r의 자식 노드 하나가 있는 경우 : r을 제거하고 r 자리에 r의 자식으로 대체 - 삭제하고자 하는 노드 r의 자식 노드 두개가 있는 경우 : r의 직후원소를 찾고 r을 데체 ​ 레드블랙트리 Red-Black Tree (RB-Tree) 1. 루트 노드는 블랙이다. 2. 노드가 레드이면 자식은 블랙이다. 3. 모든 리..

Algorithm 2023.01.11

Algorithm - [Stack & Queue]

Stack & Queue Stack '접시 쌓기' (Last In First Out) - push : 스택에 자료를 한개 집어 넣는 동작 pop : 스택 안에 있는 자료를 한 개 꺼내는 동작 ​- Stack이 비어있을 때 stack.pop -> stack underflow | Stack이 가득 찼을 때 stack.push -> stack overflow 시간 복잡도 가장 위에 있는 원소에 접근하기 때문에 접근, 삽입, 삭제의 시간복잡도는 O(1) 예 - 재귀 알고리즘 - 괄호검사, 후위 연산법, 문자열 역순 - DFS(Depth First Search) Queue '줄 서기' (First In First Out) - enqueue : 큐에 자료를 한 개 집어 넣는 동작 dequeue : 큐 안에 있는 자..

Algorithm 2023.01.11