전체 글 37

PCA(주성분 분석) with iris

이번시간에는 주성분분석을 해보도록 하겠습니다. 학교다닐때 관련수업을 듣긴했지만 이해도 안되고 어떻게 쓰는건지도 모르겠고 왜 쓰는지도 모르겠었는데 지금은 아주아주아주 쪼금이라도 이해가 되서 다시 도전합니다. 하지만 아직도 어떻게, 왜 쓰는지 이해는 잘 안되긴합니다. 기본적인 주성분분석의 개념은 고차원의데이터를 저차원으로 변경시키는것으로 알고 있는데 2차원 까지는 변경시킬수 있겠는데 3차원이상은 어떻게 표현하는지 모르겠습니다.... 즉, 현재상황은 PC1, PC2, PC3, PC4 중에서 2개를 골라서 그래프를 그리는거 까지만 가능합니다. 이번에 쓸 데이터는 기본적으로 iris데이터를 사용할건데 4개의 연속형변수와 1개의 범주형 변수로 이루어져있는 데이터입니다. 먼저 연속형 변수(4개)와 범주형변수(1개)로..

R 2021.04.07

R 버전 확인 및 변경하기 (다운그레이드,업그레이드)

가끔 R을 사용하다보면 버전을 업그레이드 해야하는 경우와 다운그레이드 해야하는경우가 생기는데 이번시간에는 버전변경하는 방법에 대해 알아보겠습니다. 제가 만약 4.0.0 버전을 사용하고 있는데 예를 들어 4.0.3 이나 3.5.3으로 버전 변경이 필요할때는 R STUDIO 상단의 TOOLS -> GLOBAL OPTIONS 들어가셔서 CHANGE를 누르시고 원하시는 버전을 누르시고 OK -> APPLY> OK 를 누르시면 됩니다. 참고로 원하는 버전이 설치가 되어있어야합니다. 추가적으로 현재 나의 버전을 확인하고 싶으면 아래코드를 입력해주면 나의 현재버전과 최신버전이 어디까지 나왔는지 알려줍니다. install.packages("installr") library(installr) check.for.updat..

R 2021.04.07

Randomforest로 사이영 상 수상 예측하기

이번시간은 randomforest를 사용하여 사이영상 수상을 예측해보도록 하겠습니다. 그전에 사이영상은 간단히 말하여 사이 영 상(Cy Young Award)은 메이저 리그 베이스볼에서 매년 각 리그의 최고 투수에게 주어지는 상이다. ko.wikipedia.org/wiki/%EC%82%AC%EC%9D%B4_%EC%98%81_%EC%83%81 사이 영 상 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. 사이 영 상(Cy Young Award)은 메이저 리그 베이스볼에서 매년 각 리그의 최고 투수에게 주어지는 상이다. 이 상은 명예의 전당에 헌액된 투수인 사이 영을 기리기 ko.wikipedia.org data의 형태를 살펴보면 다음과 같습니다. 1.시즌(season): 명목형 2.이름..

R 2021.04.06

ggplot2를 이용한 시각화 ② (회귀선표시, 회귀분석, 범례표시)

오늘의 tip ctrl+p를 누르면 괄호안에 커서가 끝에서 끝으로 움직입니다!! 지난 시간에 연속형 두변수를 그래프로 그리는 방법을 다뤘었는데 더 좋은 방법을 알아내서 알려드립니다. 첫번째 방식으로하면 일일히 색 지정해줄 필요도 없고 범례도 표시되서 더 좋은 방법인거같습니다. > ggplot(data=df, + mapping=aes(x=Min.Price, + y=Max.Price))+geom_point(aes(color=Type))+ + geom_smooth() #1번 ggplot(data=df, mapping=aes(x=Min.Price, y=Max.Price))+geom_point(colour=c("red","blue","pink","green","yellow","black")[df$Type])+ g..

R 2021.04.05

ggplot2를 이용한 시각화 ① (두변수가연속형인경우, 그룹별 표시하기)

이번시간에는 MASS 패키지에 있는 Cars93데이터를 이용하여 시각화를 해보도록 하겠습니다. Cars93데이터는 column이 27개나 있으므로 1열부터8열까지 짤라서 보기로 하겠습니다. > library(ggplot2) > library(MASS) > df head(df) Manufacturer Model Type Min.Price Price Max.Price MPG.city MPG.highway 1 Acura Integra Small 12.9 15.9 18.8 25 31 2 Acura Legend Midsize 29.2 33.9 38.7 18 25 3 Audi 90 Compact 25.9 29.1 32.3 20 26 4 Audi 100 Midsize 30.8 37.7 44.6 19 26 5 BMW ..

R 2021.04.05

DPLYR를 이용한 Cars93처리 ①

MASS에 있는 Cars93 데이터를 dplyr package를 이용하여 처리해보도록 하겠습니다. Cars93의 데이터 형태는 다음과 같습니다. 기본적으로 install.packages("패키지이름")을 이용하여 설치한다음 library를 이용하여 불러온다음 데이터의 기본적인 구조를 파악합니다. > library(dplyr) > library(MASS) > df str(df) #자료의 구조파악 'data.frame':93 obs. of 27 variables: $ Manufacturer : Factor w/ 32 levels "Acura","Audi",..: 1 1 2 2 3 4 4 4 4 5 ... $ Model : Factor w/ 93 levels "100","190E","240",..: 49 56..

R 2021.04.04

[PYTHON 기초] 가변인자 *변수명이란?

def profile(name, age, hob1,hob2,hob3): print("이름 : {0}\t 나이: {1}\t".format(name, age), end="") print(hob1,hob2,hob3) profile("홍길동",20,"독서","등산","낚시") 위와 같이 취미를 포함한 인적사항을 출력하는 함수를 정의한다고 하면 저렇게 표현할 수 있을 것이다. 하지만 사람에 따라서 흥미가 1개일수도 여러개일수도 있는데 그때마다 함수를 수정하기는 불편할것이다. 이때를 위해 만든게 바로 가변인자이다. def profile(name, age, *hobby): print("이름 : {0}\t 나이: {1}\t".format(name, age), end="") for hob in hobby: print(h..

PYTHON 2021.02.27