1. 차원의 저주
:데이터의 차원이 증가할수록 해당 공간의 크기가 기하급수적으로 증가하기 때문에 동일한 개수의 데이터의 밀도는 차원이 증가할수록 급속도로 희박해진다. 따라서, 차원이 증가할수록 데이터의 분포 분석 또는 모델추정에 필요한 샘플 데이터의 개수가 기하급수적으로 증가하게 되는 현상
2.그리디 알고리즘
:문제를 해결하는 과정에서 그 순간순간마다 최적이라고 생각되는 결정을 하는 방식으로 진행하여 최종 해답에 도달하는 문제 해결방식이다.
3. 차원축소
: 분석대상이 되는 여러 변수의 정보를 최대한 유지하면서 데이터 세트 변수의 개수를 줄이는 탐색적 분석기법
-주성분 분석(PCA): 변수들의 공분산 행렬이나 상관행렬을 이용
-특이값 분해(SVD): 행렬데이터에서 특이값을 추출하고 이를 통해 주어진 데이터 세트를 효과적으로 축약할 수 있는 기법
-요인분석: 모형을 세운 뒤 관찰 가능한 데이터를 이용하여 해당 잠재 요인을 도출하고 데이터 안의 구조를 해석하는 기법
-독립성분분석(ICA): 주성분 분석과는 달리, 다변량의 신호를 통계적으로 독립적인 하부성분으로 분리하여 차원을 축소하는 기법
-다차원 척도법(MDS): 개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법
4.탐색적 데이터 분석(EDA)의 4가지 주제
-저항성(Resistance): 저항성은 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질을 의미
-잔차 해석(Residual): 잔차란 관찰 값들이 주 경향으로 부터 얼마나 벗어난 정도, 잔차를 구해봄으로써 데이터의 보통과 다른 특징을 탐색
-자료 재표현(Re-Expression): 자료의 재표현은 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 바꾸는것
-현시성(Graphic Representation): 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정
5.변동계수(Coefficient of Variation)
: 측정 단위가 서로 다른 자료의 흩어진 정도를 상대적으로 비교할 때 사용 (식 : 표준편차/평균)
6.회귀분석의 전제조건4가지
-선형성: 독립변수와 종속변수 간에는 선형관계가 존재
-등분산성: 잔차들은 같은 분산을 가짐
-독립성: 잔차와 독립변수의 값이 관련돼 있지 않음
-정규성: 잔차는 평균이 0이고 분산이 시그마제곱인 정규분포를 따름
7.표본 추출 기법
:단순 무작위 추출, 계통 추출, 층화 추출, 군집 추출
8.이산확률 분포 종류
: 포아송분포, 베르누이 분포, 이항분포
9. 표본오차와 비표본오차
-표본오차: 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출되지 못하기 때문에 발생하는 오차
-비표본오차: 표본오차를 제외한 모든 오차로써 조사 과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모든 오차를 의미하며 조사대상이 증가하면 오차가 커짐
10. 점 추정 조건
-불편성: 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 차이가 없음
-효율성: 추정량의 분산이 작을수록 좋음
-일치성: 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아짐
-충족성: 추정량은 모수에 대하여 모든 정보를 제공
'R' 카테고리의 다른 글
[빅분기 실기] pROC, ROCR의 차이점 (0) | 2021.06.11 |
---|---|
[빅분기 실기대비] 단답형 예상 개념 ④ (0) | 2021.06.10 |
상관분석(그래프) with mtcars (0) | 2021.06.09 |
R CONSOLE창 에러메시지 영어로 뜨게하는법 (0) | 2021.06.07 |
[빅분기 실기대비] 단답형 예상 개념 ② (0) | 2021.06.06 |