Data Story

데이터 사이언스, 쉽게 설명하기

Data Analysis 90

Computer Vision - [하르 캐스케이드 얼굴 탐지 (Haar Cascade Face Detection)]

Face Detection 이미지 내 얼굴을 감지해보자. Basic import cv2 # if you use colab, type above code. from google.colab.patches import cv2_imshow 데이터 가져오기 image = cv2.imread(".jpg") image.shape # (1280, 1920, 3) 이미지 보기 cv2_imshow(image) 사이즈가 크다. resize 메소드를 사용해서 줄여보자. # 800,600 사이즈로 조절 image = cv2.reszie(image, (800,600)) image.shape # (600,800,3) 이미지를 회색으로 변경해보자. # RGB -> BGR 순으로 입력해야한다. image_gray = cv2.cvtCo..

DL/Computer Vision 2024.01.25

예측값 불확실성 측정 - [Conformal Prediction in TS]

확실하지 않은 예측값 우리는 보통 미래값을 예측할 때, 통계 모형 또는 ML/DL 알고리즘을 사용한다. 그런데, 예측값을 믿을 수 있을까? 실세계에서는 다양한 변수가 존재하기 때문에, 예측값은 딱 맞아떨어지지 않는다. 예측값이 어느정도로 불확실한지 측정할 필요가 있다. 최근에, 제주 특산물 가격 예측 경진대회를 했다. 각 특산물의 한 달동안 가격을 예측했다. 그런데, 다양한 요인으로 인해 이게 딱 떨어지지 않을 것이라 판단했다. 예측값이 어느정도의 신뢰구간을 가지는지 궁금했다. 신뢰구간 불확실성을 측정할 때는 보통 '신뢰구간'을 활용한다. 미리 신뢰구간을 몇 %로 할 건지 정하면, 예측값이 포함된 신뢰구간이 어느정도인지 알 수 있다. 다음 단계 설명을 위해 '신뢰구간'에 대해 알아볼 필요가 있다. 신뢰구..

ML 2023.12.25

MLP기반 시계열 예측, TSMixer 논문 리뷰

Transformer 아키텍처는 NLP에서 굉장한 성능을 보여줬다. 그러나, 시계열 예측에서는 그렇지 않다. Transformer 기반의 모델로는 Autoformer, Informer 등이 있는데, 훈련하는 시간도 오래걸리고, 간단한 Linear Model이 benchmarket datasets 에서 더욱 좋은 성능을 보여줬다. 여기서 말하는benchmarket datasets란, 모델의 성능들을 비교할 수 있는 기본 데이터셋들을 의미한다. Original Paper TSMixer Google Cloud AI Research 팀에서 TSMixer을 제안했다. TSMixer은 멀티레이어 퍼셉트론(MLP) 기반 모델이며, 시간과 특성 차원을 더 좋은 예측을 위해 섞는 방식이다. TSMixer Training..

Paper 2023.12.11

다중 계절성 시계열 예측

BATS & TBATS 오늘은 BATS와 TBATS에 대해 알아본다. 여러개의 계절성을 가지는 시계열이 존재한다. 아래의 이미지를 보자. 전기 수요의 경우 9시부터 18시, 평일이 주말보다 높다. 이 경우 2가지의 계절성을 가진다. 2개 이상의 계절성을 가질 때, SARIMA(Seasonal ARIMA) 모델을 사용하면 안된다. 왜냐하면 애초에 SARIMA 모델은 단일 계절 주기를 가정하기 때문이다. 이를 처리하기 위해 BATS와 TBATS를 사용한다. BATS (Box-cox, ARMA erros, Trend, Seasonal components) BATS는 지수평활법( Exponential Smoothing)을 연장한 버전이다. 구체적으로 알아보자. Box-Cox - 평균과 분산을 안정화시켜, 정상성..

Algorithm 2023.12.03

TimesNet 논문 리뷰

TimesNet(23.04) 👁️ REVIEW 딥러닝 최신 시계열 모형으로 20년에 N-BEATS, 22년 N-HiTS, 최근에 나온 BatchTST가 있었다. N-BEATS와 N-HiTS는 MLP 기반이고 BatchTST는 Transformer 아키텍쳐를 사용한다. 우리가 볼 TimesNet은 CNN 모델을 기반으로 다양한 태스크를 수행한다. 그래서 시계열 분석 모형을 구축하기 위해선 사용하기에 좋은 선택지다. 이번에 리뷰할 TImesNet은 시계열 분석 또는 예측, 이상치 탐지, 분류, 대치법(imputation)이 가능한 다재다능 모델을 설명하고자 한다. Original Paper TimesNet 💡 TimesNet은 여러 기간에 걸친 Variation을 포착하기 위해 1차원 공간을 2차원 공간(I..

Paper 2023.11.21

TimeGPT 논문 리뷰

3년 동안 많은 시계열 관련 논문들이 있었다. 예를 들어 N-BEATS, PatchTST 그리고 TimesNet. 이 기간 동안 ChatGPT같은 LLM(Large Language Model)도 발전했는데 새로운 입력(문장 등)에 훈련 과정없이 대부분의 태스크에 적용할 수 있게 되었다. ‘그렇다면, 시계열 예측에서도 거대 데이터셋을 학습해서 별도의 훈련 과정없이 사용할 수 있을까?’ 이 질문이 ‘TimeGPT’로 이어지게 되었다. 저자, Azul Garza, Max Mergenthaler-Canseco는 LLM 속에 있는 아키텍쳐와 기술을 사용하였고, zero-shot inference가 가능한 최초의 시계열 기반 모델을 구축하였다. Original Paper TimeGPT 위의 그림을 보면 여러 도메인..

Paper 2023.11.14

Z-Score를 사용하기 전에 알아둬야할 것

Outlier을 제거하는 것은 모델의 Performance 상승에 기여한다고 알고 있다. 하지만, 이 이상치를 제거하는 것이 꼭 타당한 방법일까? Outlier Detection 방법 중 하나인 Z-score에 대해 알아보자. 그 전에, Outlier을 제거하면 어떤 장점이 있을까? 1. Improve Model Performance : Training Dataset, Valid Dataset의 Performance가 상승하는 것을 볼 수 있다. 그러나, 경험상, Test set에서는 항상 상승하는 것은 아니다. 2. Enhance Robustness : 극값으로 인해, 평균과 분산이 흔들리게 되는데 이 극값, 즉 이상치를 제거함으로써 새로운 데이터셋에 극값이 있어도 쉽게 흔들리지 않는다. (Robust..

정보보호 기초 4 - 악성코드

악성코드 악성코드는 의도적이며 악의적이고 프로그램 또는 매크로 등의 실행 가능한 모든 형태를 말함. 역사 - 최초의 바이러스 - Brain Virus(브레인 바이러스) - 최초의 웜 - Morris Worm(모리스 웜) - 매크로 바이러스 - Melissa Virus(멜리사 바이러스) 매크로란, Microsoft 엑셀이나 워드에 존재하는 자동화 해둔 일종의 프로그램이다. 악성코드 분류 동작에 의한 분류 바이러스 - 복제와 감염 - 스스로 전파하지 않음 - 프로그램 형식 (.exe 등) 웜 - 일반적인 바이러스와 달리 네트워크를 사용하여 스스로 복사본을 전파함 - 자기 복제를 이용하여 네트워크를 손상시키고, 파일 등을 악의적으로 암호화 - 일부 웜의 경우 악성 백도어 프로그램을 유포하기도 함 트로이목마 -..

카테고리 없음 2023.04.14