Data Story

데이터 사이언스, 쉽게 설명하기

스파크기초 4

Spark - [NLP(Natual Language Processing)]

NLP(Natual Language Processing) 자연어처리를 해보자. 우리의 목표는 메시지가 스팸인지 아닌지 구분하는 모델을 만드는 것이다. Spark 아래 [그림 1]은 우리가 다룰 데이터이다. from pyspark.sql import SparkSession spark = SparkSession.builder.appName('nlp').getOrCreate() data = spark.sql("SELECT * FROM smsspamcollection") data.show() 변수명을 바꾸어주자. data = data.withColumnRenamed("_c0","class").withColumnRenamed("_c1","text") feature engineering 자연어 처리 때 featur..

Spark 2022.12.13

Spark - [Recommend System]

Recommend System 협업 필터링 추천 시스템으로 진행한다. 1. 추천 시스템을 이해하기 위해선 선형대수학이 필요하다. 2. 추천 시스템이 잘 수행되었는지 확실하게 알기 어렵다. 주관성이 들어간 항목은 더욱 그런데, 마블 영화를 좋아하는 사람이 모든 마블 영화를 좋아하지 않는다는 예를 들 수 있다. Spark from pyspark.sql import SparkSession spark = SparkSession.builder.appName("rec").getOrCreate() #recommend system library ## ALS : 협업 필터링 from pyspark.ml.recommendation import ALS from pyspark.ml.evaluation import Regres..

Spark 2022.12.13

Spark - [Clustering]

Clustering 비지도 학습 중 하나인 클러스터링을 작성해보자. 시작하기 전에, 도메인 지식을 활용해서 몇 개의 군집을 나눌지 미리 정해두어야 한다.​ Spark from pyspark.sql import SparkSession spark = SparkSession.builder.appName("C").getOrCreate() data = spark.sql("SELECT * FROM seeds_dataset.csv") 불러온 데이터셋은 아래 [그림 1]과 같다. data.printSchema() VectorAssembler 사용할 독립변수를 묶어준다. from pyspark.ml.feature import VectorAssembler assembler = VectorAssembler(inputCols..

Spark 2022.12.12

Spark - [Tree Model]

Tree Model 먼저, spark 환경을 구축하자. 이젠 익숙할 것이다. from pyspark.sql import SparkSession spark = SparkSession.builder.appName("Tree").getOrCreate() data = spark.sql("SELECT * FROM college_csv") 이번 데이터는 아래 [그림 1]처럼 구성되어 있다. Private 변수를 이진 분류하는 Task이다. df.printSchema() VectorAssembler 독립변수들을 묶어준다. VectorAssembler로 독립변수들을 묶어주자. from pyspark.ml.feature import VectorAssembler #Inputcols, Outputcols assembler ..

Spark 2022.12.12