Data Story

데이터 사이언스, 쉽게 설명하기

전체 글 90

Spark - [Clustering]

Clustering 비지도 학습 중 하나인 클러스터링을 작성해보자. 시작하기 전에, 도메인 지식을 활용해서 몇 개의 군집을 나눌지 미리 정해두어야 한다.​ Spark from pyspark.sql import SparkSession spark = SparkSession.builder.appName("C").getOrCreate() data = spark.sql("SELECT * FROM seeds_dataset.csv") 불러온 데이터셋은 아래 [그림 1]과 같다. data.printSchema() VectorAssembler 사용할 독립변수를 묶어준다. from pyspark.ml.feature import VectorAssembler assembler = VectorAssembler(inputCols..

Spark 2022.12.12

Spark - [Tree Model]

Tree Model 먼저, spark 환경을 구축하자. 이젠 익숙할 것이다. from pyspark.sql import SparkSession spark = SparkSession.builder.appName("Tree").getOrCreate() data = spark.sql("SELECT * FROM college_csv") 이번 데이터는 아래 [그림 1]처럼 구성되어 있다. Private 변수를 이진 분류하는 Task이다. df.printSchema() VectorAssembler 독립변수들을 묶어준다. VectorAssembler로 독립변수들을 묶어주자. from pyspark.ml.feature import VectorAssembler #Inputcols, Outputcols assembler ..

Spark 2022.12.12

Spark - Basic

Spark #spark from pyspark.sql import SparkSession saprk = Saprk.Session.builder.appName("").getOrCreate() #inferSchema = True를 하면 자동으로 자료형을 유추해준다. df = spark.read.csv("apple_stock.csv", header = True, inferSchema = True) df.show() df.printSchema() 1. Select columns 변수를 지정하여 출력할 수 있다. df.select(["age","name"]) 2. New columns 새 변수를 생성할 수 있고 이름을 변경할 수 있다. 아래 [그림 3]은 'newage' 변수를 생성한 결과이다. df.withCo..

Spark 2022.12.08

Spark - [pyspark]

pyspark 문법을 간단하게 알아보자. 데이터브릭스를 통해서 pyspark를 공부한다. 회원가입하고 Workspace를 만들어서 spark를 사용하면 된다. http://databricks.com Data Lakehouse Architecture and AI Company - Databricks Databricks combines data warehouses & data lakes into a lakehouse architecture. Collaborate on all of your data, analytics & AI workloads using one platform. www.databricks.com Grammer 1. 파일 불러오기 from pyspark.sql import SparkSessio..

Spark 2022.12.08