전체 글 37

[빅분기 실기] 작업형2번 파생변수 추가후 랜덤포레스트

이번에는 EDA를 한다음 의미있는 결과가 있으면 파생변수를 추가한후 랜덤포레스트 분석을 시행해보겠습니다. > library(dplyr, caret, randomForest,pROC) > set.seed(1234) > x_train y_train full full$최대구매액 full$총구매액 full$환불금액 full$환불금액 full$주구매상품 full$주구매지점 full$gender full full %>% + filter(총구매액 > quantile(full$총구매액, 0.8)) %>% + group_by(gender) %>% + summarise(count=n()) # A tibble: 2 x 2 gender count 1 0 545 2 1 155 > full %>% + filter(최대구매액 > ..

R 2021.06.12

[빅분기 실기] 작업형 2번 표준화후 RF AUC 0.6719

이번에는 표준화를 시행해서 랜덤포레스트를 돌려보겠습니다. 참고로 AUC값은 표준화 하기전에는 0.6378이 나오며 표준화 한후에는 0.6719 나오네요 이것도 돌릴때마다 값이 계속 변하긴 합니다... 시험기관에서는 0.5 rf.model pred.rf auc(test$gender, pred.rf[,1]) # 남자로 예측할 확률 auc 값 확인 Setting levels: control = 0, case = 1 Setting direction: controls > cases Area under the curve: 0.6378 ### 표준화 후 > x_train y_train full full$최대구매액 full$총구매액 full$환불금액 full$환불금액 full$주구매상품 full$주구매지점 full$g..

R 2021.06.11

[빅분기 실기] 작업형 2번문제 EDA(데이터 뜯어보기)

현재 별다른 전처리 과정없이 랜덤포레스트 수행후 pROC패키지로 점수를 매겼을때 0.64정도 나오는데 더 높이기 위해 데이터가 어떤 경향을 띄고 있는지 파악해보겠습니다. 원래 순서가 반대가 되야하는거 같은데 ... 현재는 자격증을 따기위해 점수높이기에 급급하기때문에 이런식으로 진행하겠습니다. 그리고 시험환경에서는 그래프를 그릴수가 없기떄문에 시각화를 통한 EDA는 못하고 자료를 통계내어서 수치형으로 살펴보는 방향으로 가겠습니다. (R에서 그래프를 빼는건 햄버거에 패티 안넣는거랑 똑같은거 같은데 ..?) x_train

R 2021.06.11

[빅분기 실기] pROC, ROCR의 차이점

제가 랜덤포레스트를 이용하여 작업형2번을 하던중 의문이 드는게 있네요 첫번째 결과값은 할때 마다 바뀌긴하는데 0.59정도 나오고 두번째 결과값은 0.64가 나옵니다. 같은 분석결과를 type과 package만 다르게 해서 점수를 매겼는데 왜 다르게 나오는걸까요 ??... 뭐 시험때는 pROC로 평가해서 더 점수가 잘나오는 상황이지만 의문이 드네요 x_train

R 2021.06.11

[빅분기 실기대비] 단답형 예상 개념 ④

1. 역전파 알고리즘 : 인공신경망의 출력값이 원하는 출력과 다를경우, 가중치 갱신을 통해 오차를 최소화시키도록 반복 수행하여 신경망을 학습시키는 알고리즘 2. 자기조직화지도(Self-Organizing Map) : 차원축소와 군집화를 동시에 수행하며, 고차원으로 표현된 데이터를 저차원으로 변환하여 보는 비지도 학습 기반 클러스터링 기법 3.파라미터 -파라미터: 모델 내부에서 확인이 가능한 변수로 데이터를 통해서 산출이 가능한값 -하이퍼 파라미터: 모델에서 외적인 요소로 데이터 분석을 통해 얻어지는 값이 아니라 사용자가 직접 설정해주는 값 4.주성분 회귀(Principal Component Regression) : 독립변수들의 주성분들을 추출한 후 이 주성분들을 이용해서 회귀 모델을 만드는 기법 5. 가..

R 2021.06.10

[빅분기 실기대비] 단답형 예상 개념 ③

1. 차원의 저주 :데이터의 차원이 증가할수록 해당 공간의 크기가 기하급수적으로 증가하기 때문에 동일한 개수의 데이터의 밀도는 차원이 증가할수록 급속도로 희박해진다. 따라서, 차원이 증가할수록 데이터의 분포 분석 또는 모델추정에 필요한 샘플 데이터의 개수가 기하급수적으로 증가하게 되는 현상 2.그리디 알고리즘 :문제를 해결하는 과정에서 그 순간순간마다 최적이라고 생각되는 결정을 하는 방식으로 진행하여 최종 해답에 도달하는 문제 해결방식이다. 3. 차원축소 : 분석대상이 되는 여러 변수의 정보를 최대한 유지하면서 데이터 세트 변수의 개수를 줄이는 탐색적 분석기법 -주성분 분석(PCA): 변수들의 공분산 행렬이나 상관행렬을 이용 -특이값 분해(SVD): 행렬데이터에서 특이값을 추출하고 이를 통해 주어진 데이..

R 2021.06.10

상관분석(그래프) with mtcars

상관분석은 주로 변수사이의 상관관계를 파악하기 위하여 시행하는데 이번에는 R에 내장되어있는 mtcars데이터로 상관분석 및 그래프를 그려보겠습니다. 또한 두 변수간의 상관계수 검정도 같이 실시하면 다음과 같습니다. mpg변수와 cyl변수사이의 상관계수는 -0.85이며 유의확률이 0.000000000이므로 유의수준 0.05하에서 상관계수는 통계적으로 유의하다고 할수있습니다. > mt_cor round(mt_cor, 2)## 숫자를 짧게 보기위해 mpg cyl disp hp drat wt qsec vs am gear carb mpg 1.00 -0.85 -0.85 -0.78 0.68 -0.87 0.42 0.66 0.60 0.48 -0.55 cyl -0.85 1.00 0.90 0.83 -0.70 0.78 -0...

R 2021.06.09

[빅분기 실기대비] 단답형 예상 개념 ②

1. 개인정보 비식별화 절차 : 사전검토 -> 비식별조치 -> 적정성 평가 -> 사후관리 2.개인정보 비식별 조치 방법 -가명처리(휴리스틱 익명화, 교환방법, 암호화) : 개인 식별이 가능한 데이터에 대하여 직접 식별할수 없는 다른값으로 대체하는 방법 -총계처리(부분 집계, 라운딩) :개인 정보에 대하여 통곗값을 적용하여 특정 개인을 판단할 수 없도록 하는 기법 -데이터 삭제(속성값 삭제, 속성값 부분 삭제) :개인정보 식별이 가능한 특정 데이터값 삭제 처리 기법 -데이터 범주화(랜덤 올림 방법, 범위 방법) :단일 식별 정보를 해당 그룹의 대푯값으로 변환하거나 구간 값으로 변환하여 고유 정보 추적 및 식별 방지 기법 -데이터 마스킹(공백과 대체방법) :개인 식별 정보에 대하여 전체 또는 부분적으로 대체..

R 2021.06.06

[빅분기 실기대비] 단답형 예상 개념 ①

이 글은 sqld, adsp, 빅분기 필기, 정보처리기사, 사회조사분석사2급을 취득한 통계학과 졸업생의 입장에서 예상 문제를 기록하는것입니다. 참고로 작년에 들은 교육에서 데이터진흥산업원 관계자분이 빅분기 난이도를 adsp, adp 사이에 맞춘다고 하셔서 주로 adsp, adp 기출위주로 접근할것이며 참고로 지난 필기시험에서 수제비에서 출판한 빅데이터 분석기사 필기책에 해당하는 키워드가 많아서 참고하고 있습니다. https://m.blog.naver.com/shinikju/222313580144 빅데이터 분석 기사 1차 필기 시험 : 문항별 Keyword 국가공인이 아닌 국가에서 직접 운영하는 국가기술자격시험으로 '빅데이터 분석 기사' 시험이 처... blog.naver.com [출처] 한국데이터진흥산업..

R 2021.06.06