Large Datasets processing 대용량 데이터에 Pandas를 사용하면 성능이 떨어진다. Pandas 라이브러리는 메모리 내에서 분석을 수행하기 때문에 데이터셋이 메모리보다 크면 Pandas를 사용하기 어렵다. 또한, 단일 CPU 코어를 사용하기 때문에 매우 큰 데이터셋에서 Hadoop과 같은 병렬 분산 처리 컴퓨팅 도구보다 느리다. 물론, Dask, Modin과 같은 도구나 라이브러리로 처리하면 된다. 대용량 데이터셋에 Pandas를 쓰기 위해서는 아래와 같은 방법이 있다. 1. usecols usecols 인자를 사용하면 전체 데이터셋을 사용하는 것보다 훨씬 빠르다. import pandas as pd cols = ["X1" , "X2" , "X3" , "X4" , "X5"] df = ..