R

[빅분기 실기대비] 단답형 예상 개념 ②

한번해보즈아 2021. 6. 6. 21:10

1. 개인정보 비식별화 절차

: 사전검토 -> 비식별조치 -> 적정성 평가 -> 사후관리

 

2.개인정보 비식별 조치 방법

 

-가명처리(휴리스틱 익명화, 교환방법, 암호화)

: 개인 식별이 가능한 데이터에 대하여 직접 식별할수 없는 다른값으로 대체하는 방법

-총계처리(부분 집계, 라운딩)

:개인 정보에 대하여 통곗값을 적용하여 특정 개인을 판단할 수 없도록 하는 기법

-데이터 삭제(속성값 삭제, 속성값 부분 삭제)

:개인정보 식별이 가능한 특정 데이터값 삭제 처리 기법

-데이터 범주화(랜덤 올림 방법, 범위 방법)

:단일 식별 정보를 해당 그룹의 대푯값으로 변환하거나 구간 값으로 변환하여 고유 정보 추적 및 식별 방지 기법

-데이터 마스킹(공백과 대체방법)

:개인 식별 정보에 대하여 전체 또는 부분적으로 대체값으로 변환하는 기법

 

3. 문제 접근방식

 

-하향식 접근 방법: 분석과제가 정해져 있고 이에 대한 해법을 찾기 위해 체계적으로 분석하는 방법

-상향식 접근 방법: 문제 정의 자체가 어려운 경우 데이터를 기반으로 문제를 지속적으로 개선하는 방식, 

                        기존 하향식 접근법의 한계를 극복하기 위한 분석 방법론으로써 비지도 학습 방법, 디자인 사고 접근법을 사용

 

4.대상별 분석 기획 유형

 

-최적화(Optimization): 분석의 대상 인지 O, 분석의 방법 O인경우

-통찰(Insight): 분석의 대상 인지 X, 분석의 방법 O인경우

-솔루션(Solution): 분석의 대상 인지 O, 분석의 방법 X인경우

-발견(Discovery): 분석의 대상 인지 X, 분석의 방법 X인경우

 

5.빅데이터 분석 방법론 계층

: 단계(Phase), 태스크(Task), 스텝(Step)

 

6.빅데이터 분석 방법론 분석절차

: 분석 기획 -> 데이터 준비 -> 데이터 분석 ->시스템 구현 -> 평가 및 전개

 

7. 분석 방법론 유형

 

-KDD분석 방법론 절차: 데이터 선택 -> 데이터 전처리 -> 데이터 변환 -> 데이터 마이닝 -> 데이터마이닝 결과 평가

-CRISP-DM 분석 방법론 절차: 업무 이해 -> 데이터 이해 -> 데이터 준비 -> 모델링 -> 평가 -> 전개

-SEMMA 분석 방법론 절차: 샘플링 -> 탐색 -> 수정 ->모델링 -> 검증

 

8.Open API(Application Programming Interface)

: 누구나 사용할 수있도록 공개된 API를 말하며, 개발자에게 응용 소프트웨어나 웹 서비스에 프로그래밍적인 권한을 제공

 

9.데이터 마트와 데이터 웨어하우스

 

-데이터 웨어하우스: 사용자의 의사결정에 도움을 주기 위하여, 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터 베이스

-데이터 마트: 데이터 웨어하우스의 부분개념으로 데이터웨어하우스에서 데이터를 꺼내 사용자에게 제공하는 역할

 

10.하둡

: 대용량 데이터를 분산처리할 수 있는 자바 기반의 오픈 소스 프레임워크로서, 하둡은 분산파일 시스템인 HDFS에 데이터를 저장하고, 분산처리시스템인 맵리듀스를 이용해 데이터를 처리

 

11.ETL

:필요한 원본 데이터를 추출(Extract)하고 변환(Transform)하여 적재(Load)하는 작업 및 기술

 

12.데이터 측정 척도

: 명목척도, 순위척도, 등간척도(절대영점x), 비율척도(절대영점o)

 

13.데이터 변환기술

: 평활화, 집계, 일반화, 정규화, 속성 생성

 

14.정규화 기법

 

- 최소-최대 정규화: 모든 데이터에 대해 각각의 값을 최솟값0, 최댓값 1로, 그리고 다른 값들은 0과 1사이의 값으로 변환하는 기법, 이상값에 많은 영향을 받는다

-z-스코어 정규화(표준화):  이상값의 영향을 상대적으로 덜받으며, 데이터들의 평균과 표준편차를 구하고, 평균 대비 및 표준편차만큼 데이터가 떨어져 있는지를 점수화 하는기법

-소수 스케일링

 

15. 유전자 알고리즘(Genetic Algorithm)

: 존 홀랜드에 의해서 1975년에 개발된 전역 최적화 기법으로, 최적화 문제를 해결하기 위해 자연세계의 진화과정에 기초한 계산모델