DStory

Data Story

데이터 사이언스, 쉽게 설명하기

전체 글 90

Clustering 비지도 학습 중 하나인 클러스터링을 작성해보자. 시작하기 전에, 도메인 지식을 활용해서 몇 개의 군집을 나눌지 미리 정해두어야 한다. Spark from pyspark.sql import SparkSession spark = SparkSession.builder.appName("C").getOrCreate() data = spark.sql("SELECT * FROM seeds_dataset.csv") 불러온 데이터셋은 아래 [그림 1]과 같다. data.printSchema() VectorAssembler 사용할 독립변수를 묶어준다. from pyspark.ml.feature import VectorAssembler assembler = VectorAssembler(inputCols..

Spark 2022.12.12

Spark - [Tree Model]

Tree Model 먼저, spark 환경을 구축하자. 이젠 익숙할 것이다. from pyspark.sql import SparkSession spark = SparkSession.builder.appName("Tree").getOrCreate() data = spark.sql("SELECT * FROM college_csv") 이번 데이터는 아래 [그림 1]처럼 구성되어 있다. Private 변수를 이진 분류하는 Task이다. df.printSchema() VectorAssembler 독립변수들을 묶어준다. VectorAssembler로 독립변수들을 묶어주자. from pyspark.ml.feature import VectorAssembler #Inputcols, Outputcols assembler ..

Spark 2022.12.12

Spark - [Logistic Regression]

Logistic Regression 로지스틱 회귀를 해보자. #library from pyspark.sql import SparkSession from pyspark.ml import Pipeline from pyspark.ml.classification import LogisticRegression from pyspark.ml.feature import (VectorAssembler, VectorIndexer, OneHotEncoder, StringIndexer) spark = SparkSession.builder.appName("logstic_reg").getOrCreate() df = spark.sql("SELECT * FROM titanic_csv") #sql문으로도 데이터를 가져올 수 있음. 우..

Spark 2022.12.11

Spark - [Regression Analysis]

Regression Analysis from pyspark.sql import SparkSession spark = SparkSession.builder.appName("lr_ex").getOrCreate() from pyspark.ml.regression import LinearRegression data = spark.read.csv("../Ecommerce_Customer.csv", inferSchema=True, header=True) data.select("Avg Session Length", "Time on App").show() 직관적으로 한 행을 출력해보자. for col, item in zip(data.columns, data.head(1)[0]): print(col, ":", item)..

Spark 2022.12.11

Spark - Basic

Spark #spark from pyspark.sql import SparkSession saprk = Saprk.Session.builder.appName("").getOrCreate() #inferSchema = True를 하면 자동으로 자료형을 유추해준다. df = spark.read.csv("apple_stock.csv", header = True, inferSchema = True) df.show() df.printSchema() 1. Select columns 변수를 지정하여 출력할 수 있다. df.select(["age","name"]) 2. New columns 새 변수를 생성할 수 있고 이름을 변경할 수 있다. 아래 [그림 3]은 'newage' 변수를 생성한 결과이다. df.withCo..

Spark 2022.12.08

Spark - [pyspark]

pyspark 문법을 간단하게 알아보자. 데이터브릭스를 통해서 pyspark를 공부한다. 회원가입하고 Workspace를 만들어서 spark를 사용하면 된다. http://databricks.com Data Lakehouse Architecture and AI Company - Databricks Databricks combines data warehouses & data lakes into a lakehouse architecture. Collaborate on all of your data, analytics & AI workloads using one platform. www.databricks.com Grammer 1. 파일 불러오기 from pyspark.sql import SparkSessio..

Spark 2022.12.08

1 ··· 11 12 13 14 15

DStory

Statistics/ML/DL/CS

Algorithm, 컴퓨터상식, SQL, 프로그래머스sql, 컴퓨터구조, 컴퓨터기초, spark, 스파크기초, AWS기초, sql기초, 스파크, pyspark, 장고기초, Django기초, Django, 컴퓨터비전, AWS, 딥러닝, 컴퓨터장치, 알고리즘,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

전체 글 90

티스토리툴바