r 13

[빅분기 실기] 작업형 2번문제 EDA(데이터 뜯어보기)

현재 별다른 전처리 과정없이 랜덤포레스트 수행후 pROC패키지로 점수를 매겼을때 0.64정도 나오는데 더 높이기 위해 데이터가 어떤 경향을 띄고 있는지 파악해보겠습니다. 원래 순서가 반대가 되야하는거 같은데 ... 현재는 자격증을 따기위해 점수높이기에 급급하기때문에 이런식으로 진행하겠습니다. 그리고 시험환경에서는 그래프를 그릴수가 없기떄문에 시각화를 통한 EDA는 못하고 자료를 통계내어서 수치형으로 살펴보는 방향으로 가겠습니다. (R에서 그래프를 빼는건 햄버거에 패티 안넣는거랑 똑같은거 같은데 ..?) x_train

R 2021.06.11

상관분석(그래프) with mtcars

상관분석은 주로 변수사이의 상관관계를 파악하기 위하여 시행하는데 이번에는 R에 내장되어있는 mtcars데이터로 상관분석 및 그래프를 그려보겠습니다. 또한 두 변수간의 상관계수 검정도 같이 실시하면 다음과 같습니다. mpg변수와 cyl변수사이의 상관계수는 -0.85이며 유의확률이 0.000000000이므로 유의수준 0.05하에서 상관계수는 통계적으로 유의하다고 할수있습니다. > mt_cor round(mt_cor, 2)## 숫자를 짧게 보기위해 mpg cyl disp hp drat wt qsec vs am gear carb mpg 1.00 -0.85 -0.85 -0.78 0.68 -0.87 0.42 0.66 0.60 0.48 -0.55 cyl -0.85 1.00 0.90 0.83 -0.70 0.78 -0...

R 2021.06.09

PCA(주성분 분석) with iris

이번시간에는 주성분분석을 해보도록 하겠습니다. 학교다닐때 관련수업을 듣긴했지만 이해도 안되고 어떻게 쓰는건지도 모르겠고 왜 쓰는지도 모르겠었는데 지금은 아주아주아주 쪼금이라도 이해가 되서 다시 도전합니다. 하지만 아직도 어떻게, 왜 쓰는지 이해는 잘 안되긴합니다. 기본적인 주성분분석의 개념은 고차원의데이터를 저차원으로 변경시키는것으로 알고 있는데 2차원 까지는 변경시킬수 있겠는데 3차원이상은 어떻게 표현하는지 모르겠습니다.... 즉, 현재상황은 PC1, PC2, PC3, PC4 중에서 2개를 골라서 그래프를 그리는거 까지만 가능합니다. 이번에 쓸 데이터는 기본적으로 iris데이터를 사용할건데 4개의 연속형변수와 1개의 범주형 변수로 이루어져있는 데이터입니다. 먼저 연속형 변수(4개)와 범주형변수(1개)로..

R 2021.04.07

R 버전 확인 및 변경하기 (다운그레이드,업그레이드)

가끔 R을 사용하다보면 버전을 업그레이드 해야하는 경우와 다운그레이드 해야하는경우가 생기는데 이번시간에는 버전변경하는 방법에 대해 알아보겠습니다. 제가 만약 4.0.0 버전을 사용하고 있는데 예를 들어 4.0.3 이나 3.5.3으로 버전 변경이 필요할때는 R STUDIO 상단의 TOOLS -> GLOBAL OPTIONS 들어가셔서 CHANGE를 누르시고 원하시는 버전을 누르시고 OK -> APPLY> OK 를 누르시면 됩니다. 참고로 원하는 버전이 설치가 되어있어야합니다. 추가적으로 현재 나의 버전을 확인하고 싶으면 아래코드를 입력해주면 나의 현재버전과 최신버전이 어디까지 나왔는지 알려줍니다. install.packages("installr") library(installr) check.for.updat..

R 2021.04.07

Randomforest로 사이영 상 수상 예측하기

이번시간은 randomforest를 사용하여 사이영상 수상을 예측해보도록 하겠습니다. 그전에 사이영상은 간단히 말하여 사이 영 상(Cy Young Award)은 메이저 리그 베이스볼에서 매년 각 리그의 최고 투수에게 주어지는 상이다. ko.wikipedia.org/wiki/%EC%82%AC%EC%9D%B4_%EC%98%81_%EC%83%81 사이 영 상 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. 사이 영 상(Cy Young Award)은 메이저 리그 베이스볼에서 매년 각 리그의 최고 투수에게 주어지는 상이다. 이 상은 명예의 전당에 헌액된 투수인 사이 영을 기리기 ko.wikipedia.org data의 형태를 살펴보면 다음과 같습니다. 1.시즌(season): 명목형 2.이름..

R 2021.04.06

ggplot2를 이용한 시각화 ② (회귀선표시, 회귀분석, 범례표시)

오늘의 tip ctrl+p를 누르면 괄호안에 커서가 끝에서 끝으로 움직입니다!! 지난 시간에 연속형 두변수를 그래프로 그리는 방법을 다뤘었는데 더 좋은 방법을 알아내서 알려드립니다. 첫번째 방식으로하면 일일히 색 지정해줄 필요도 없고 범례도 표시되서 더 좋은 방법인거같습니다. > ggplot(data=df, + mapping=aes(x=Min.Price, + y=Max.Price))+geom_point(aes(color=Type))+ + geom_smooth() #1번 ggplot(data=df, mapping=aes(x=Min.Price, y=Max.Price))+geom_point(colour=c("red","blue","pink","green","yellow","black")[df$Type])+ g..

R 2021.04.05

ggplot2를 이용한 시각화 ① (두변수가연속형인경우, 그룹별 표시하기)

이번시간에는 MASS 패키지에 있는 Cars93데이터를 이용하여 시각화를 해보도록 하겠습니다. Cars93데이터는 column이 27개나 있으므로 1열부터8열까지 짤라서 보기로 하겠습니다. > library(ggplot2) > library(MASS) > df head(df) Manufacturer Model Type Min.Price Price Max.Price MPG.city MPG.highway 1 Acura Integra Small 12.9 15.9 18.8 25 31 2 Acura Legend Midsize 29.2 33.9 38.7 18 25 3 Audi 90 Compact 25.9 29.1 32.3 20 26 4 Audi 100 Midsize 30.8 37.7 44.6 19 26 5 BMW ..

R 2021.04.05