R 22

[빅분기 실기대비] 단답형 예상 개념 ②

1. 개인정보 비식별화 절차 : 사전검토 -> 비식별조치 -> 적정성 평가 -> 사후관리 2.개인정보 비식별 조치 방법 -가명처리(휴리스틱 익명화, 교환방법, 암호화) : 개인 식별이 가능한 데이터에 대하여 직접 식별할수 없는 다른값으로 대체하는 방법 -총계처리(부분 집계, 라운딩) :개인 정보에 대하여 통곗값을 적용하여 특정 개인을 판단할 수 없도록 하는 기법 -데이터 삭제(속성값 삭제, 속성값 부분 삭제) :개인정보 식별이 가능한 특정 데이터값 삭제 처리 기법 -데이터 범주화(랜덤 올림 방법, 범위 방법) :단일 식별 정보를 해당 그룹의 대푯값으로 변환하거나 구간 값으로 변환하여 고유 정보 추적 및 식별 방지 기법 -데이터 마스킹(공백과 대체방법) :개인 식별 정보에 대하여 전체 또는 부분적으로 대체..

R 2021.06.06

[빅분기 실기대비] 단답형 예상 개념 ①

이 글은 sqld, adsp, 빅분기 필기, 정보처리기사, 사회조사분석사2급을 취득한 통계학과 졸업생의 입장에서 예상 문제를 기록하는것입니다. 참고로 작년에 들은 교육에서 데이터진흥산업원 관계자분이 빅분기 난이도를 adsp, adp 사이에 맞춘다고 하셔서 주로 adsp, adp 기출위주로 접근할것이며 참고로 지난 필기시험에서 수제비에서 출판한 빅데이터 분석기사 필기책에 해당하는 키워드가 많아서 참고하고 있습니다. https://m.blog.naver.com/shinikju/222313580144 빅데이터 분석 기사 1차 필기 시험 : 문항별 Keyword 국가공인이 아닌 국가에서 직접 운영하는 국가기술자격시험으로 '빅데이터 분석 기사' 시험이 처... blog.naver.com [출처] 한국데이터진흥산업..

R 2021.06.06

PCA(주성분 분석) with iris

이번시간에는 주성분분석을 해보도록 하겠습니다. 학교다닐때 관련수업을 듣긴했지만 이해도 안되고 어떻게 쓰는건지도 모르겠고 왜 쓰는지도 모르겠었는데 지금은 아주아주아주 쪼금이라도 이해가 되서 다시 도전합니다. 하지만 아직도 어떻게, 왜 쓰는지 이해는 잘 안되긴합니다. 기본적인 주성분분석의 개념은 고차원의데이터를 저차원으로 변경시키는것으로 알고 있는데 2차원 까지는 변경시킬수 있겠는데 3차원이상은 어떻게 표현하는지 모르겠습니다.... 즉, 현재상황은 PC1, PC2, PC3, PC4 중에서 2개를 골라서 그래프를 그리는거 까지만 가능합니다. 이번에 쓸 데이터는 기본적으로 iris데이터를 사용할건데 4개의 연속형변수와 1개의 범주형 변수로 이루어져있는 데이터입니다. 먼저 연속형 변수(4개)와 범주형변수(1개)로..

R 2021.04.07

R 버전 확인 및 변경하기 (다운그레이드,업그레이드)

가끔 R을 사용하다보면 버전을 업그레이드 해야하는 경우와 다운그레이드 해야하는경우가 생기는데 이번시간에는 버전변경하는 방법에 대해 알아보겠습니다. 제가 만약 4.0.0 버전을 사용하고 있는데 예를 들어 4.0.3 이나 3.5.3으로 버전 변경이 필요할때는 R STUDIO 상단의 TOOLS -> GLOBAL OPTIONS 들어가셔서 CHANGE를 누르시고 원하시는 버전을 누르시고 OK -> APPLY> OK 를 누르시면 됩니다. 참고로 원하는 버전이 설치가 되어있어야합니다. 추가적으로 현재 나의 버전을 확인하고 싶으면 아래코드를 입력해주면 나의 현재버전과 최신버전이 어디까지 나왔는지 알려줍니다. install.packages("installr") library(installr) check.for.updat..

R 2021.04.07

Randomforest로 사이영 상 수상 예측하기

이번시간은 randomforest를 사용하여 사이영상 수상을 예측해보도록 하겠습니다. 그전에 사이영상은 간단히 말하여 사이 영 상(Cy Young Award)은 메이저 리그 베이스볼에서 매년 각 리그의 최고 투수에게 주어지는 상이다. ko.wikipedia.org/wiki/%EC%82%AC%EC%9D%B4_%EC%98%81_%EC%83%81 사이 영 상 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. 사이 영 상(Cy Young Award)은 메이저 리그 베이스볼에서 매년 각 리그의 최고 투수에게 주어지는 상이다. 이 상은 명예의 전당에 헌액된 투수인 사이 영을 기리기 ko.wikipedia.org data의 형태를 살펴보면 다음과 같습니다. 1.시즌(season): 명목형 2.이름..

R 2021.04.06

ggplot2를 이용한 시각화 ② (회귀선표시, 회귀분석, 범례표시)

오늘의 tip ctrl+p를 누르면 괄호안에 커서가 끝에서 끝으로 움직입니다!! 지난 시간에 연속형 두변수를 그래프로 그리는 방법을 다뤘었는데 더 좋은 방법을 알아내서 알려드립니다. 첫번째 방식으로하면 일일히 색 지정해줄 필요도 없고 범례도 표시되서 더 좋은 방법인거같습니다. > ggplot(data=df, + mapping=aes(x=Min.Price, + y=Max.Price))+geom_point(aes(color=Type))+ + geom_smooth() #1번 ggplot(data=df, mapping=aes(x=Min.Price, y=Max.Price))+geom_point(colour=c("red","blue","pink","green","yellow","black")[df$Type])+ g..

R 2021.04.05

ggplot2를 이용한 시각화 ① (두변수가연속형인경우, 그룹별 표시하기)

이번시간에는 MASS 패키지에 있는 Cars93데이터를 이용하여 시각화를 해보도록 하겠습니다. Cars93데이터는 column이 27개나 있으므로 1열부터8열까지 짤라서 보기로 하겠습니다. > library(ggplot2) > library(MASS) > df head(df) Manufacturer Model Type Min.Price Price Max.Price MPG.city MPG.highway 1 Acura Integra Small 12.9 15.9 18.8 25 31 2 Acura Legend Midsize 29.2 33.9 38.7 18 25 3 Audi 90 Compact 25.9 29.1 32.3 20 26 4 Audi 100 Midsize 30.8 37.7 44.6 19 26 5 BMW ..

R 2021.04.05