Data Story

데이터 사이언스, 쉽게 설명하기

전체 글 90

Computer Vision - [CNN (Convolutional Neural Network)]

CNN (Convolutional Neural Network) 연구실에서도 자주쓰는 이미지 처리 모델, CNN을 사용해보자. import dlib image = cv2.imread(".jpg") # 사전에 학습된 모델 가져옴 cnn_detector = dlib.cnn_face_detection_model_v1(".dat") 경계 박스를 만들어주자. # 숫자를 크게할수록 작은 얼굴을 탐지한다. detections = cnn_detector(image, 4) for face in detections: l, t, r, b, c = face.rect.left(), face.rect.top(), face.rect.right(), face.rect.bottom(), face.confidence print(c) cv..

DL/Computer Vision 2024.01.26

Computer Vision - [HOG (Histogram of Oriented Gradient)]

HOG, Histogram of Oriented Gradient HOG 알고리즘으로 사람들의 얼굴을 탐지해보자. HOG는 HaarCascade보다 더 복잡한 연산을 해 성능을 좀 더 끌어올린다. 먼저, dlib 라이브러리가 필요하다. d lib는 OpenCV와 유사하게 이미지 프로세싱 커뮤니티에서 폭넓게 도입하고 있는 강력한 라이브러리이다. import cv2 import dlib # for colab from google.colab.patches import cv2_imshow image = cv2.imread(".jpg") cv2_imshw(image) 이제 얼굴 탐지를 위해 사전에 학습된 모델을 가져오자. face_detector_hog = dlib.get_frontal_face_detector()..

DL/Computer Vision 2024.01.26

Computer Vision - [하르 캐스케이드 얼굴 탐지 (Haar Cascade Face Detection)]

Face Detection 이미지 내 얼굴을 감지해보자. Basic import cv2 # if you use colab, type above code. from google.colab.patches import cv2_imshow 데이터 가져오기 image = cv2.imread(".jpg") image.shape # (1280, 1920, 3) 이미지 보기 cv2_imshow(image) 사이즈가 크다. resize 메소드를 사용해서 줄여보자. # 800,600 사이즈로 조절 image = cv2.reszie(image, (800,600)) image.shape # (600,800,3) 이미지를 회색으로 변경해보자. # RGB -> BGR 순으로 입력해야한다. image_gray = cv2.cvtCo..

DL/Computer Vision 2024.01.25

예측값 불확실성 측정 - [Conformal Prediction in TS]

확실하지 않은 예측값 우리는 보통 미래값을 예측할 때, 통계 모형 또는 ML/DL 알고리즘을 사용한다. 그런데, 예측값을 믿을 수 있을까? 실세계에서는 다양한 변수가 존재하기 때문에, 예측값은 딱 맞아떨어지지 않는다. 예측값이 어느정도로 불확실한지 측정할 필요가 있다. 최근에, 제주 특산물 가격 예측 경진대회를 했다. 각 특산물의 한 달동안 가격을 예측했다. 그런데, 다양한 요인으로 인해 이게 딱 떨어지지 않을 것이라 판단했다. 예측값이 어느정도의 신뢰구간을 가지는지 궁금했다. 신뢰구간 불확실성을 측정할 때는 보통 '신뢰구간'을 활용한다. 미리 신뢰구간을 몇 %로 할 건지 정하면, 예측값이 포함된 신뢰구간이 어느정도인지 알 수 있다. 다음 단계 설명을 위해 '신뢰구간'에 대해 알아볼 필요가 있다. 신뢰구..

ML 2023.12.25

MLP기반 시계열 예측, TSMixer 논문 리뷰

Transformer 아키텍처는 NLP에서 굉장한 성능을 보여줬다. 그러나, 시계열 예측에서는 그렇지 않다. Transformer 기반의 모델로는 Autoformer, Informer 등이 있는데, 훈련하는 시간도 오래걸리고, 간단한 Linear Model이 benchmarket datasets 에서 더욱 좋은 성능을 보여줬다. 여기서 말하는benchmarket datasets란, 모델의 성능들을 비교할 수 있는 기본 데이터셋들을 의미한다. Original Paper TSMixer Google Cloud AI Research 팀에서 TSMixer을 제안했다. TSMixer은 멀티레이어 퍼셉트론(MLP) 기반 모델이며, 시간과 특성 차원을 더 좋은 예측을 위해 섞는 방식이다. TSMixer Training..

Paper 2023.12.11

다중 계절성 시계열 예측

BATS & TBATS 오늘은 BATS와 TBATS에 대해 알아본다. 여러개의 계절성을 가지는 시계열이 존재한다. 아래의 이미지를 보자. 전기 수요의 경우 9시부터 18시, 평일이 주말보다 높다. 이 경우 2가지의 계절성을 가진다. 2개 이상의 계절성을 가질 때, SARIMA(Seasonal ARIMA) 모델을 사용하면 안된다. 왜냐하면 애초에 SARIMA 모델은 단일 계절 주기를 가정하기 때문이다. 이를 처리하기 위해 BATS와 TBATS를 사용한다. BATS (Box-cox, ARMA erros, Trend, Seasonal components) BATS는 지수평활법( Exponential Smoothing)을 연장한 버전이다. 구체적으로 알아보자. Box-Cox - 평균과 분산을 안정화시켜, 정상성..

Algorithm 2023.12.03