Data Story

데이터 사이언스, 쉽게 설명하기

전체 글 90

SQL - [IMPORT & EXPORT]

IMPORT & EXPORT csv 파일에서 데이터를 불러오고 이미 존재하는 표에 넣어보자. 단, 포맷이나 매크로나 데이터 유형이 다른 경우에 파일을 불러오면 적용이 되지 않을 것이다. 파일을 수정하거나 가지고 있는 데이터 파일에 잘 맞도록 기존 테이블을 변경해야한다. 파일 불러오기만으로는 표가 만들어지지지 않는다. pgAdmin의 불러오기 기능은 표가 이미 생성되었다는 가정하에 작동된다. 예를 들어 아래와 같은 CSV 파일이 있다고 가정해보자. A B C 1 4 7 2 5 8 3 6 9 이제 이 파일을 pgAdmin에 불러올 것이다. create table( column1 integer, column2 integer, column3 integer) - 표를 만들었는데도 보이지 않는다면 refresh를 ..

Coding Test 2022.12.17

SQL - [CASE, COALESCE, CAST, NULLIF]

CASE 어떤 특정 조건이 충족이 되면 SQL를 실행하기 위해 CASE를 사용한다. if/else와 유사하다. 아래 [그림 1]처럼 테이블이 있다고 가정해보자. ID 1~100은 "Premium", 100~200은 "Plus", 나머지는 "Normal"로 지정해주자. select customer_id, case when (customer_id 2 CAST 데이터 유형을 바꾸어준다. 'five' as integer은 안된다. select cast("5" as integer) NULLIF 두 개의 값을 넣어서 두 값이 같으면 NULL, 다르면 첫 번째 Argument가 도출된다. NULL 값이 에러의 원인이 되거나 원하지 않는 결과가 나올 때 사용한다. 우선, 아래 [그림 7]과 같은 표를 만들어보자 'a'..

Coding Test 2022.12.13

SQL - [Table Command]

Table Command 테이블을 만들기 위한 명령어들을 알아보자. CREATE TABLE 테이블을 만드는 명령어이다. (account는 명령어로 사용한 것이 아니라 '계좌'를 영어로 표현한 것이다.) #account table create table account( user_id serial primary key, username varchar(50) unique not null, password varchar(50) not null, email varchar(256) unique not null, create_on timestamp not null, last_login timestamp ) #job table create table job( job_id serial primary key, job_na..

Coding Test 2022.12.13

SQL - [DB, Table]

DB, Table 지금까지는 DB에서 Query를 했는데 이제는 SQL명령어로 DB와 Table을 생성해보자. 우선, 데이터 유형을 선택을 하고 저장하는 과정이 필요한데 어떤 데이터 유형을 선택할 것인지 고려해보아야 한다. 예를 들어 전화번호 저장하는데 숫자 유형을 쓸 것인가? Variable Character 형으로 하는 것이 나은 선택일 것이다. 유형 선택에 고민이 든다면 최고의 선례가 잇는 구글링을 하자. 또는 Document를 참조해서 데이터를 저장할 때 어떤 데이터 유형이 있는지 찾아보는 방법도 있다는 것을 기억해두자. Primary Key [그림 1]을 보면 customer_id가 PK(Primary Key)로 되어있다. - 고객 ID로 PK를 두어야 한다. 동명이인이 있을 수 있기 때문이다...

Coding Test 2022.12.13

Spark - [NLP(Natual Language Processing)]

NLP(Natual Language Processing) 자연어처리를 해보자. 우리의 목표는 메시지가 스팸인지 아닌지 구분하는 모델을 만드는 것이다. Spark 아래 [그림 1]은 우리가 다룰 데이터이다. from pyspark.sql import SparkSession spark = SparkSession.builder.appName('nlp').getOrCreate() data = spark.sql("SELECT * FROM smsspamcollection") data.show() 변수명을 바꾸어주자. data = data.withColumnRenamed("_c0","class").withColumnRenamed("_c1","text") feature engineering 자연어 처리 때 featur..

Spark 2022.12.13

Spark - [Recommend System]

Recommend System 협업 필터링 추천 시스템으로 진행한다. 1. 추천 시스템을 이해하기 위해선 선형대수학이 필요하다. 2. 추천 시스템이 잘 수행되었는지 확실하게 알기 어렵다. 주관성이 들어간 항목은 더욱 그런데, 마블 영화를 좋아하는 사람이 모든 마블 영화를 좋아하지 않는다는 예를 들 수 있다. Spark from pyspark.sql import SparkSession spark = SparkSession.builder.appName("rec").getOrCreate() #recommend system library ## ALS : 협업 필터링 from pyspark.ml.recommendation import ALS from pyspark.ml.evaluation import Regres..

Spark 2022.12.13