Spark

Spark

Spark - [Clustering]

_data 2022. 12. 12. 23:39

Clustering

비지도 학습 중 하나인 클러스터링을 작성해보자.

시작하기 전에, 도메인 지식을 활용해서 몇 개의 군집을 나눌지 미리 정해두어야 한다.

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("C").getOrCreate()
data = spark.sql("SELECT * FROM seeds_dataset.csv")

불러온 데이터셋은 아래 [그림 1]과 같다.

data.printSchema()

VectorAssembler

사용할 독립변수를 묶어준다.

from pyspark.ml.feature import VectorAssembler
assembler = VectorAssembler(inputCols = data.columns, outputCol="features")
final_dataset = assembler.transform(data)
final_dataset.printSchema()

StandardScaler

표준화 작업을 할 수 있다.

컬럼 별 단위가 다르기 때문에 해주는 것이 좋다.

from pyspark.ml.feature import StandardScaler

#withMean : mean 0, withStd : std 1
scaler = StandardScaler(inputCol="features", outputCol="Scaledfeatures", 
		withMean=True, withStd=True)
        
scaleddataset = scaler.fit(final_dataset)
scaleddataset.head(1)

Clustering

from pyspark.ml.clustering import KMeans

#kmeans
kmeans = Kmeans(featureCol="Scaledfeatures", k=3, seed=42)
model = kmeans.fit(scaleddataset)

#euclidean
model.getDistanceMeasure()

#cluster median
model.clusterCenters()

Prediction

model.transform(scaleddataset).select("prediction").show()

'Spark' 카테고리의 다른 글

Spark - [NLP(Natual Language Processing)] (0)	2022.12.13
Spark - [Recommend System] (0)	2022.12.13
Spark - [Tree Model] (0)	2022.12.12
Spark - [Logistic Regression] (0)	2022.12.11
Spark - [Regression Analysis] (2)	2022.12.11

현재글Spark - [Clustering]

DStory

Statistics/ML/DL/CS

딥러닝, Django, Django기초, 장고기초, 스파크기초, spark, 컴퓨터기초, pyspark, 알고리즘, Algorithm, 컴퓨터상식, SQL, AWS, AWS기초, 컴퓨터비전, 프로그래머스sql, 스파크, 컴퓨터장치, 컴퓨터구조, SQL코딩테스트,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

DStory

Spark - [Clustering]

Clustering

Spark

VectorAssembler

StandardScaler

Clustering

Prediction

'Spark' 카테고리의 다른 글

'Spark'의 다른글

티스토리툴바

Spark - [Clustering]

Clustering

Spark

VectorAssembler

StandardScaler

Clustering

Prediction

'Spark' 카테고리의 다른 글

'Spark'의 다른글

관련글

티스토리툴바