Data Story

데이터 사이언스, 쉽게 설명하기

전체 글 92

MLP기반 시계열 예측, TSMixer 논문 리뷰

Transformer 아키텍처는 NLP에서 굉장한 성능을 보여줬다. 그러나, 시계열 예측에서는 그렇지 않다. Transformer 기반의 모델로는 Autoformer, Informer 등이 있는데, 훈련하는 시간도 오래걸리고, 간단한 Linear Model이 benchmarket datasets 에서 더욱 좋은 성능을 보여줬다. 여기서 말하는benchmarket datasets란, 모델의 성능들을 비교할 수 있는 기본 데이터셋들을 의미한다. Original Paper TSMixer Google Cloud AI Research 팀에서 TSMixer을 제안했다. TSMixer은 멀티레이어 퍼셉트론(MLP) 기반 모델이며, 시간과 특성 차원을 더 좋은 예측을 위해 섞는 방식이다. TSMixer Training..

Paper 2023.12.11

다중 계절성 시계열 예측

BATS & TBATS 오늘은 BATS와 TBATS에 대해 알아본다. 여러개의 계절성을 가지는 시계열이 존재한다. 아래의 이미지를 보자. 전기 수요의 경우 9시부터 18시, 평일이 주말보다 높다. 이 경우 2가지의 계절성을 가진다. 2개 이상의 계절성을 가질 때, SARIMA(Seasonal ARIMA) 모델을 사용하면 안된다. 왜냐하면 애초에 SARIMA 모델은 단일 계절 주기를 가정하기 때문이다. 이를 처리하기 위해 BATS와 TBATS를 사용한다. BATS (Box-cox, ARMA erros, Trend, Seasonal components) BATS는 지수평활법( Exponential Smoothing)을 연장한 버전이다. 구체적으로 알아보자. Box-Cox - 평균과 분산을 안정화시켜, 정상성..

Algorithm 2023.12.03

TimesNet 논문 리뷰

TimesNet(23.04) 👁️ REVIEW 딥러닝 최신 시계열 모형으로 20년에 N-BEATS, 22년 N-HiTS, 최근에 나온 BatchTST가 있었다. N-BEATS와 N-HiTS는 MLP 기반이고 BatchTST는 Transformer 아키텍쳐를 사용한다. 우리가 볼 TimesNet은 CNN 모델을 기반으로 다양한 태스크를 수행한다. 그래서 시계열 분석 모형을 구축하기 위해선 사용하기에 좋은 선택지다. 이번에 리뷰할 TImesNet은 시계열 분석 또는 예측, 이상치 탐지, 분류, 대치법(imputation)이 가능한 다재다능 모델을 설명하고자 한다. Original Paper TimesNet 💡 TimesNet은 여러 기간에 걸친 Variation을 포착하기 위해 1차원 공간을 2차원 공간(I..

Paper 2023.11.21

TimeGPT 논문 리뷰

3년 동안 많은 시계열 관련 논문들이 있었다. 예를 들어 N-BEATS, PatchTST 그리고 TimesNet. 이 기간 동안 ChatGPT같은 LLM(Large Language Model)도 발전했는데 새로운 입력(문장 등)에 훈련 과정없이 대부분의 태스크에 적용할 수 있게 되었다. ‘그렇다면, 시계열 예측에서도 거대 데이터셋을 학습해서 별도의 훈련 과정없이 사용할 수 있을까?’ 이 질문이 ‘TimeGPT’로 이어지게 되었다. 저자, Azul Garza, Max Mergenthaler-Canseco는 LLM 속에 있는 아키텍쳐와 기술을 사용하였고, zero-shot inference가 가능한 최초의 시계열 기반 모델을 구축하였다. Original Paper TimeGPT 위의 그림을 보면 여러 도메인..

Paper 2023.11.14

Z-Score를 사용하기 전에 알아둬야할 것

Outlier을 제거하는 것은 모델의 Performance 상승에 기여한다고 알고 있다. 하지만, 이 이상치를 제거하는 것이 꼭 타당한 방법일까? Outlier Detection 방법 중 하나인 Z-score에 대해 알아보자. 그 전에, Outlier을 제거하면 어떤 장점이 있을까? 1. Improve Model Performance : Training Dataset, Valid Dataset의 Performance가 상승하는 것을 볼 수 있다. 그러나, 경험상, Test set에서는 항상 상승하는 것은 아니다. 2. Enhance Robustness : 극값으로 인해, 평균과 분산이 흔들리게 되는데 이 극값, 즉 이상치를 제거함으로써 새로운 데이터셋에 극값이 있어도 쉽게 흔들리지 않는다. (Robust..

정보보호 기초 4 - 악성코드

악성코드 악성코드는 의도적이며 악의적이고 프로그램 또는 매크로 등의 실행 가능한 모든 형태를 말함. 역사 - 최초의 바이러스 - Brain Virus(브레인 바이러스) - 최초의 웜 - Morris Worm(모리스 웜) - 매크로 바이러스 - Melissa Virus(멜리사 바이러스) 매크로란, Microsoft 엑셀이나 워드에 존재하는 자동화 해둔 일종의 프로그램이다. 악성코드 분류 동작에 의한 분류 바이러스 - 복제와 감염 - 스스로 전파하지 않음 - 프로그램 형식 (.exe 등) 웜 - 일반적인 바이러스와 달리 네트워크를 사용하여 스스로 복사본을 전파함 - 자기 복제를 이용하여 네트워크를 손상시키고, 파일 등을 악의적으로 암호화 - 일부 웜의 경우 악성 백도어 프로그램을 유포하기도 함 트로이목마 -..

카테고리 없음 2023.04.14