NLP(Natual Language Processing) 자연어처리를 해보자. 우리의 목표는 메시지가 스팸인지 아닌지 구분하는 모델을 만드는 것이다. Spark 아래 [그림 1]은 우리가 다룰 데이터이다. from pyspark.sql import SparkSession spark = SparkSession.builder.appName('nlp').getOrCreate() data = spark.sql("SELECT * FROM smsspamcollection") data.show() 변수명을 바꾸어주자. data = data.withColumnRenamed("_c0","class").withColumnRenamed("_c1","text") feature engineering 자연어 처리 때 featur..