SooBlending

[빅데이터분석기사] 빅분기 필기 6일차 본문

Certificate/빅데이터분석기사

[빅데이터분석기사] 빅분기 필기 6일차

블랜더 2023. 3. 18. 17:45

[ 2. 빅데이터 탐색 ]

< (1) 데이터 전처리 >

( 1. 데이터 정제 )

1️⃣ 데이터에 내재된 변수의 이해

1) 데이터 관련 정의

① 데이터 (Data)

  : 이론을 세우는 기초가 되는 사실 또는 자료를 지칭, 컴퓨터와 연관되어 프로그램을 운용할 수 있는 자료

 

② 단위 (Unit)

  : 관찰되는 항목 또는 대상을 지칭

 

③ 관측값 (Observation)

  : 각 조사 단위별 기록정보 또는 특성

 

④ 변수 (Variable)

  : 각 단위에서 측정된 특성 결과

 

⑤ 원자료 (Raw Data)

  : 표본에서 조사된 최초의 자료

 

2) 데이터의 종류

① 단변량자료 (Univariate Data)

  : 자료의 특성을 대표하는 특성 변수가 하나인 자료

 

② 다변량자료 (Multivariate Data)

  : 자료의 특성을 대표하는 특성 변수가 두 가지 이상인 자료

 

③ 질적자료 (Qualitative Data)

  : 정성적 또는 범주형 자료

  - 명목자료 (Nominal Data)

  : 측정대상이 범주나 종류에 대해 구분되어지는 것을 수치 또는 기호로 분류되는 자료 (국번, 지역번호 등)

  - 질적자료 (Qualitative Data)

  : 명목자료와 비슷하나 수치나 기호가 서열을 나타내는 자료 (기록경기의 순위 등)

 

④ 수치자료 (Quantitative Data)

  : 정량적 또는 연속형 자료, 숫자의 크기에 의미를 부여할 수 있는 자료

  - 구간자료 (Interval Data)

  : 명목자료, 서열자료의 의미를 포함하면서 숫자로 표현된 변수에 대해서 변수간의 관계가 산술적 의미를 가짐 (온도)

  - 비율자료 (Ratio Data)

  : 명목자료, 서열자료, 구간자료의 의미를 다 가지는 자료로서 수치화된 변수에 비율의 개념을 도입 (무게)

 

⑤ 시계열자료 (Time Series Data)

  : 일정한 시간간격 동안에 수집된, 시간개념이 포함되어 있는 자료 (일별 주식 가격)

 

⑥ 횡적자료 (Cross Sectional Data)

  : 특정 단일 시점에서 여러 대상으로부터 수집된 자료, 즉 한 개의 시점에서 여러 대상으로부터 취합하는 자료

 

⑦ 종적자료 (Longitudinal Data)

  : 시계열자료와 횡적자료의 결합으로 여러 개체를 여러 시점에서 수집한 자료

 

3) 데이터 정재

  : 수집된 데이터를 대상으로 분석에 필요한 데이터를 추출하고 통합하는 과정

 

① 데이터 정제의 필요성

  : 데이터로부터 원하는 결과나 분석을 얻기 위해서는 수집된 데이터를 분석의 도구 또는 기법에 맞게 다듬는 과정이 필요

 

② 정제과정을 거치지 않은 데이터의 문제점

  : 데이터 구성의 일관성이 없어지므로 분석의 처리에 어려움이 발생

  : 도출된 결과의 신뢰성이 저하

 

③ 데이터 정제의 과정 (Processing)

  : 다양한 매체로부터 데이터를 수집, 원하는 형태로 변환, 원하는 장소에 저장, 저장된 데이터의 활용가능성을 타진하기 위한 품질확인, 필요한 시기와 목적에 따라 사용이 원활하도록 관리의 과정이 필요하다.

구분 수행내용 Process
데이터 수집 - 데이터의 입수 방법 및 정책 결정
- 입수경로의 구조화
- 집계 (Aggregation)
- 저장소 결정
전처리 포함
데이터 변환 - 데이터 유형의 변화 및 분석 가능 형태로 가공
- ETL
- 일반화
- 정규화
 
데이터 교정 - 결측치의 처리, 이상치 처리, 노이즈 처리
- 비정형데이터 수집 시 필수사항
 
데이터 통합 - 데이터분석이 용이하도록 기존 또는 유사 데이터와 연계 통합
- 레거시 데이터와 함게 분석이 필요한 경우 수행
 

 

④ 데이터 정제의 전처리·후처리

- 전처리

  : 데이터 저장 전의 처리과정으로 대상 데이터와 입수 방법 결정 및 저장방식 장소를 선정

- 후처리

  : 저장 후의 처리를 지칭하며 저장 데이터의 품질관리 등의 과정을 포함한다.


2️⃣ 데이터 결측값 처리

  : 데이터 분석에서 결측치는 데이터가 없음을 의미

- 결측치 임의로 제거 시

  : 분석 데이터의 직접손실로 분석에 필요한 유의수준 데이터 수집에 실패할 가능성이 발생

- 결측치 임의로 대체 시

  : 데이터의 편향이 발생하여 분석 결과의 신뢰성 저하 가능성

 

1) 결측 데이터 종류

① 완전 무작위 결측 (MCAR:Missing Completely At Random)

  : 어떤 변수상에서 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 아무런 연관이 없는 경우

 

② 무작위 결측 (MAR:Missing At Random)

  : 변수상의 결측데이터가 관측된 다른 변수와 연관되어 있지만 그 자체가 비관측값들과는 연관되지 않는 경우

 

③ 비 무작위 결측 (NMAR:Not Missing At Random)

  : 어떤 변수의 결측 데이터가 완전 무작위 결측 또는 무작위 결측이 아닌 결측데이터로 정의, 결측변수값이 결측여부와 관련이 있는 경우

 

2) 결측값 유형의 분석 및 대치

- 결측치가 존재하는 데이터를 이용한 분석은 효율성, 자료처리의 복잡성, 편향 문제가 발생

 

① 단순 대치법 (Simple Imputation)

  : 기본적으로 결측치에 대하여 MCAR, MAR로 판단하고 이에 대한 처리

  - 완전 분석 (Completes Analysis)

    : 불완전 자료는 완전하게 무시하고 분석을 수행, 효율성 상실과 통계적 추론의 타당성 문제 발생 가능

  - 평균 대치법 (Mean Imputation)

    : 관측 또는 실험으로 얻어진 데이터의 평균으로 결측치를 대치해서 사용

    : 효율성 측면에서 장점이 있으나 통계량의 표준오차가 과소 추정되는 단점

  - 회귀 대치법 (Regression Imputation)

    : 회귀 분석에 의한 예측치로 결측치를 대치하는 방법

  - 단순확률 대치법 (Single Stochastic Imputation)

    : 평균 대치법에서 추정량 표준오차의 과소 추정을 보완하는 대치법, 확률 추출에 의해서 전체 데이터 중 무작위로 대치

  - 최근접 대치법 (Nearest-Neighbor Imputation)

    : 전체표본을 몇 개의 대체군으로 분류하여 각 층에서의 응답자료를 순서대로 정리한 후 결측값 바로 이전의 응답을 결측치로 대치하는 방법

 

② 다중 대치법 (Multiple Imputation)

  : 단순 대치법을 복수로 시행하여 통계적 효율성 및 일치성 문제를 보완

  - 1단계 - 대치단계 : 복수의 대치에 의한 결측을 대치한 데이터를 생성

  - 2단계 - 분석단계 : 복수 개의 데이터 셋에 대한 분석

  - 3단계 - 결합단계 : 복수 개의 분석결과에 대한 통계적 결합을 통해 결과를 도출


3️⃣ 데이터 이상값 처리

: 데이터 이상값이란 데이터 전처리 과정에 발생 가능한 문제로 정상의 범주에서 벗어난 값을 말함

 

1) 이상치의 종류 및 발생원인

① 이상치의 종류

  - 단변수 이상치 : 하나의 데이터 분포에서 발생하는 이상치

  - 다변수 이상치 : 복수의 연결된 데이터 분포공간에서 발생하는 이상치

 

② 이상치의 발생 원인

  - 비자연적 이상치 발생

  : 입력실수, 측정오류, 실험오류, 의도적 이상치, 자료처리오류, 표본오류

 

2) 이상치의 문제점

① 기초(통계적) 분석결과의 신뢰도 저하

  : 평균, 분산 등에 영향을 준다. 단 중앙값은 영향이 적음

 

② 기초통계에 기반한 다른 고급 통계분석의 신뢰성 저하

  : 검정 · 추정 등의 분석, 회귀분석 등에 영향

 

  - 특히 이상치가 비무작위성을 가지고 나타나게 되면 데이터의 정상성 감소를 초래하며 데이터 신뢰성 저하로 연결

 

3) 이상치의 탐지

① 시각화를 통한 방법

  : 상자수염그름, 줄기-잎 그림, 산점도 그림

 

② Z-Score 통한 방법

  : 정규화를 통해 threshold를 벗어난 경우를 이상치로 판별

 

③ 밀도기반 클러스터링 방법

  : 비모수적 다변량의 경우 군집간의 밀도를 이용하여 특정 거리 내의 데이터 수가 지정 개수 이상이면 군집으로 정의하는 방법이다. 정의된 군집에서 먼거리에 있는 데이터는 이상치로 간주

 

④ 고립 의사나무 방법

  : 비모수적 다변량의 경우 의사결정나무 기반으로 정상치의 단말 노드보다 이상치의 노드에 이르는 길이가 더 짧은 성질을 이용하는 방법


( 2. 분석 변수 처리 )

1️⃣ 변수 선택

1) 회귀분석의 사례

  : 회귀모형에 의한 분석의 경우 최종 결과를 도출해 내기 위해서 사용된 독립 변수가 m개이고 이를 통해서 얻어진 설명력이 89%라고 했을 때,  m보다 작은 n개만을 사용 시 동일한 설명력이 나온다면 변수의 효율적 선택의 필요성이 증가한다.

 

2) 변수별 모형의 분류

① 전체 모형 (FM:Full Model) : 모든 독립변수를 사용한 모형

 

② 축소 모형 (RM:Reduced Model) : 전체 모형에서 사용된 변수의 개수를 줄여서 얻은 모형

 

③ 영 모형 (NM:Null Model) : 독립변수가 하나도 없는 모형

 

3) 변수의 선택 방법

① 전진 선택법 (Forward Selection)

  - 영 모형에서 시작, 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 큰 변수를 분석모형에 포함

  - 부분 F 검정을 통해 유의성 검증을 시행, 유의한 경우는 가장 큰 F 통계량을 가지는 모형을 선택하고 유의하지 않은 경우는 변수선택 없이 과정을 중단

  - 한 번 추가된 변수는 제거하지 않는 것이 원칙

 

② 후진 선택법(Backward Selection), 후진 소거법 (Backward Elimination)

  - 전체 모형에서 시작, 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 작은 변수를 분석 모형에서 제거

  - 부분 F 검정을 통해 유의성 검증을 시행, 유의하지 않은 경우는 변수를 제거하고 유의한 경우는 변수제거 없이 과정을 중단

  - 한 번 제거된 변수는 추가하지 않는다.

 

③ 단계적 선택법 (Stepwise Selection)

  - 전진 선택법과 후진 선택법의 보완방법이다.

  - 전진 선택법을 통해 가장 유의한 변수를 모형에 포함한 후 나머지 변수들에 대해 후진 선택법을 적용하여 새롭게 유의하지 않은 변수들을 제거한다.

  - 제거된 변수는 다시 모형에 포함하지 않으며 유의한 설명변수가 존재하지 않을 때까지 과정을 반복한다.


2️⃣ 차원 축소

1) 자료의 차원

  : 분석하는 데이터의 종류의 수를 의미

 

2) 차원의 축소

  : 어떤 목적에 따라서 변수의 양을 줄이는 것

 

3) 차원 축소의 필요성

① 복잡도의 축소

  : 데이터를 분석하는 데 있어서 분석시간의 증가와 저장변수 양의 증가를 고려 시 동일한 품질을 나타낼 수 있다면 효율성 측면에서 데이터 종류의 수를 줄여야 한다.

 

② 과적합(Overfit) 방지

  - 차원의 증가는 분석모델 파라미터의 증가 및 파라미터 간의 복잡한 관계의 증가로 분석결과의 과적합 발생의 가능성이 커진다. 이것은 분석모형의 정확도 저하를 발생시킬 수 있다.

  - 작은 차원만으로 안정적인 결과를 도출해 낼 수 있다면 많은 차원을 다루는 것보다 효율적이다.

 

③ 해석력(Interpretability) 확보

  - 차원이 작은 간단한 분석모델일수록 내부구조 이해가 용이하고 해석이 쉬워진다.

  - 해석이 쉬워지면 명확한 결과 도출에 많은 도움을 줄 수 있다.

 

④ 차원의 저주

  - 데이터 분석 및 알고리즘을 통한 학습을 위해 차원이 증가하면서 학습데이터의 수가 차원의 수보다 적어져 성능이 저하되는 현상이다.

  - 해결을 위해서 차원을 줄이거나 데이터의 수를 늘리는 방법을 이용해야 한다.

 

4) 차원의 축소 방법

① 요인 분석

  - 요인 분석의 개념

  : 다수의 변수들 간의 관계를 분석하여 공통차원을 축약하는 통계분석 과정

 

  - 요인 분석의 목적

  : 변수 축소 → 다수의 변수들의 정보손실을 억제하면서 소수의 요인으로 축약

  : 변수 제거 요인에 대한 중요도 파악

  : 변수특성 파악 관련된 변수들이 묶임으로써 요인 간의 상호 독립성 파악이 용이

  : 타당성 평가 묶여지지 않는 변수의 독립성 여부를 판단

  : 파생변수 요인점수를 이용한 새로운 변수 생성, 회귀분석, 판별분석 및 군지분석 등에 이용

 

  - 요인 분석의 특징

  : 독립변수, 종속변수 개념이 없다. 주로 기술 통계에 의한 방법을 이용한다.

 

  - 요인 분석의 종류

  : 주성분 분석, 공통요인 분석 특이값 분해 행렬, 음수미포함 행렬분해 등

  : 공통요인 분석은 분석대상 벼수들의 기저를 이루는 구조를 정의하기 위한 요인분석 방법으로 변수들이 가지고 있는 공통분산만을 이용하여 공통요인만 추출하는 방법

 

② 주성분 분석 (PCA:Principal Component Analysis)

  - 주성분 분석의 개념

  : 분포된 데이터들의 특성을 설명할 수 있는 하나 또는 복수 개의 특징을 찾는 것

  : 서로 연관성이 있는 고차원 공간의 데이터를 선형연관성이 없는 저차원으로 변환하는 과정을 거친다.

  : 기존의 기본변수들을 새로운 변수의 세트로 변환하여 차원을 줄이되 기존 변수들의 분포특성을 최대한 보존하여 이를 통한 분석결과의 신뢰성을 확보한다.

  : 데이터 하나하나에 대한 성분을 분석하는 것이 아니라, 여러 데이터들이 모여 하나의 분포를 이룰 때, 이 분포의 주성분을 분석해주는 방법이다.

 

 - 주성분 분석의 특징

  : 차원 축소에 폭넓게 사용된다. 어떠한 사전적 분포 가정의 요구가 없다.

  : 가장 큰 분산의 방향들이 주요 중심 관심으로 가정한다.

  : 본래의 변수들의 선형결합으로만 고려한다.

  : 차원의 축소는 본래의 변수들이 서로 상관이 있을 때만 가능하다.

  : 스케일에 대한 영향이 크다. 즉 PCA 수행을 위해선 변수들 간의 스케일링이 필수이다.

 

③ 특이값 분해 (SVD:Singular Value Decomposition)

  - 특이값 분해 차원 축소 원리

  o 수학적 원리

  : SVD 방법은 주어진 행렬 M을 여러 개의 행렬 M과 동일한 크기를 갖는 행렬로 분해할 수 있으며 각 행렬의 원소값의 크기는 Diagonal Matrix에서 대각성분의 크기에 의해 결정된다.

  o 데이터의 응용

  : 기존의 전차원의 정보 A를 SVD에 의해서 3개의 행렬로 분해하며 적당한 특이값만을 이용해 원래 행렬 A와 비슷한 정보력을 가지는 차원을 만들어 낼 수 있다.

  : 즉, 큰 몇개의 특이값을 가지고도 충분히 유용한 정보를 유지할 수 있는 차원을 생성할 수 있다.

 

④ 음수 미포함 행렬분해 (NMF:Non-negative Matrix Factorization)

  : 음수를 포함하지 않은 행렬 V를 음수를 포함하지 않은 두 행렬의 곱으로 분해하는 알고리즘

  - NMF의 차원 축소

  : 행렬 곱셈에서 곱해지는 행렬은 결과행렬보다 훨씬 적은 차원을 가지기 때문에 NMF가 차원을 축소할 수 있다.

Comments