[빅데이터분석기사] 빅분기 필기 6일차

Notice

Recent Posts

Recent Comments

Link

« 2025/01 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

SooBlending

[빅데이터분석기사] 빅분기 필기 6일차 본문

Certificate/빅데이터분석기사

[빅데이터분석기사] 빅분기 필기 6일차

블랜더 2023. 3. 18. 17:45

[ 2. 빅데이터 탐색 ]

< (1) 데이터 전처리 >

( 1. 데이터 정제 )

1️⃣ 데이터에 내재된 변수의 이해

1) 데이터 관련 정의

① 데이터 (Data)

: 이론을 세우는 기초가 되는 사실 또는 자료를 지칭, 컴퓨터와 연관되어 프로그램을 운용할 수 있는 자료

② 단위 (Unit)

: 관찰되는 항목 또는 대상을 지칭

③ 관측값 (Observation)

: 각 조사 단위별 기록정보 또는 특성

④ 변수 (Variable)

: 각 단위에서 측정된 특성 결과

⑤ 원자료 (Raw Data)

: 표본에서 조사된 최초의 자료

2) 데이터의 종류

① 단변량자료 (Univariate Data)

: 자료의 특성을 대표하는 특성 변수가 하나인 자료

② 다변량자료 (Multivariate Data)

: 자료의 특성을 대표하는 특성 변수가 두 가지 이상인 자료

③ 질적자료 (Qualitative Data)

: 정성적 또는 범주형 자료

- 명목자료 (Nominal Data)

: 측정대상이 범주나 종류에 대해 구분되어지는 것을 수치 또는 기호로 분류되는 자료 (국번, 지역번호 등)

- 질적자료 (Qualitative Data)

: 명목자료와 비슷하나 수치나 기호가 서열을 나타내는 자료 (기록경기의 순위 등)

④ 수치자료 (Quantitative Data)

: 정량적 또는 연속형 자료, 숫자의 크기에 의미를 부여할 수 있는 자료

- 구간자료 (Interval Data)

: 명목자료, 서열자료의 의미를 포함하면서 숫자로 표현된 변수에 대해서 변수간의 관계가 산술적 의미를 가짐 (온도)

- 비율자료 (Ratio Data)

: 명목자료, 서열자료, 구간자료의 의미를 다 가지는 자료로서 수치화된 변수에 비율의 개념을 도입 (무게)

⑤ 시계열자료 (Time Series Data)

: 일정한 시간간격 동안에 수집된, 시간개념이 포함되어 있는 자료 (일별 주식 가격)

⑥ 횡적자료 (Cross Sectional Data)

: 특정 단일 시점에서 여러 대상으로부터 수집된 자료, 즉 한 개의 시점에서 여러 대상으로부터 취합하는 자료

⑦ 종적자료 (Longitudinal Data)

: 시계열자료와 횡적자료의 결합으로 여러 개체를 여러 시점에서 수집한 자료

3) 데이터 정재

: 수집된 데이터를 대상으로 분석에 필요한 데이터를 추출하고 통합하는 과정

① 데이터 정제의 필요성

: 데이터로부터 원하는 결과나 분석을 얻기 위해서는 수집된 데이터를 분석의 도구 또는 기법에 맞게 다듬는 과정이 필요

② 정제과정을 거치지 않은 데이터의 문제점

: 데이터 구성의 일관성이 없어지므로 분석의 처리에 어려움이 발생

: 도출된 결과의 신뢰성이 저하

③ 데이터 정제의 과정 (Processing)

: 다양한 매체로부터 데이터를 수집, 원하는 형태로 변환, 원하는 장소에 저장, 저장된 데이터의 활용가능성을 타진하기 위한 품질확인, 필요한 시기와 목적에 따라 사용이 원활하도록 관리의 과정이 필요하다.

구분	수행내용	Process
데이터 수집	- 데이터의 입수 방법 및 정책 결정 - 입수경로의 구조화 - 집계 (Aggregation) - 저장소 결정	전처리 포함
데이터 변환	- 데이터 유형의 변화 및 분석 가능 형태로 가공 - ETL - 일반화 - 정규화
데이터 교정	- 결측치의 처리, 이상치 처리, 노이즈 처리 - 비정형데이터 수집 시 필수사항
데이터 통합	- 데이터분석이 용이하도록 기존 또는 유사 데이터와 연계 통합 - 레거시 데이터와 함게 분석이 필요한 경우 수행

④ 데이터 정제의 전처리·후처리

- 전처리

: 데이터 저장 전의 처리과정으로 대상 데이터와 입수 방법 결정 및 저장방식 장소를 선정

- 후처리

: 저장 후의 처리를 지칭하며 저장 데이터의 품질관리 등의 과정을 포함한다.

2️⃣ 데이터 결측값 처리

: 데이터 분석에서 결측치는 데이터가 없음을 의미

- 결측치 임의로 제거 시

: 분석 데이터의 직접손실로 분석에 필요한 유의수준 데이터 수집에 실패할 가능성이 발생

- 결측치 임의로 대체 시

: 데이터의 편향이 발생하여 분석 결과의 신뢰성 저하 가능성

1) 결측 데이터 종류

① 완전 무작위 결측 (MCAR:Missing Completely At Random)

: 어떤 변수상에서 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 아무런 연관이 없는 경우

② 무작위 결측 (MAR:Missing At Random)

: 변수상의 결측데이터가 관측된 다른 변수와 연관되어 있지만 그 자체가 비관측값들과는 연관되지 않는 경우

③ 비 무작위 결측 (NMAR:Not Missing At Random)

: 어떤 변수의 결측 데이터가 완전 무작위 결측 또는 무작위 결측이 아닌 결측데이터로 정의, 결측변수값이 결측여부와 관련이 있는 경우

2) 결측값 유형의 분석 및 대치

- 결측치가 존재하는 데이터를 이용한 분석은 효율성, 자료처리의 복잡성, 편향 문제가 발생

① 단순 대치법 (Simple Imputation)

: 기본적으로 결측치에 대하여 MCAR, MAR로 판단하고 이에 대한 처리

- 완전 분석 (Completes Analysis)

: 불완전 자료는 완전하게 무시하고 분석을 수행, 효율성 상실과 통계적 추론의 타당성 문제 발생 가능

- 평균 대치법 (Mean Imputation)

: 관측 또는 실험으로 얻어진 데이터의 평균으로 결측치를 대치해서 사용

: 효율성 측면에서 장점이 있으나 통계량의 표준오차가 과소 추정되는 단점

- 회귀 대치법 (Regression Imputation)

: 회귀 분석에 의한 예측치로 결측치를 대치하는 방법

- 단순확률 대치법 (Single Stochastic Imputation)

: 평균 대치법에서 추정량 표준오차의 과소 추정을 보완하는 대치법, 확률 추출에 의해서 전체 데이터 중 무작위로 대치

- 최근접 대치법 (Nearest-Neighbor Imputation)

: 전체표본을 몇 개의 대체군으로 분류하여 각 층에서의 응답자료를 순서대로 정리한 후 결측값 바로 이전의 응답을 결측치로 대치하는 방법

② 다중 대치법 (Multiple Imputation)

: 단순 대치법을 복수로 시행하여 통계적 효율성 및 일치성 문제를 보완

- 1단계 - 대치단계 : 복수의 대치에 의한 결측을 대치한 데이터를 생성

- 2단계 - 분석단계 : 복수 개의 데이터 셋에 대한 분석

- 3단계 - 결합단계 : 복수 개의 분석결과에 대한 통계적 결합을 통해 결과를 도출

3️⃣ 데이터 이상값 처리

: 데이터 이상값이란 데이터 전처리 과정에 발생 가능한 문제로 정상의 범주에서 벗어난 값을 말함

1) 이상치의 종류 및 발생원인

① 이상치의 종류

- 단변수 이상치 : 하나의 데이터 분포에서 발생하는 이상치

- 다변수 이상치 : 복수의 연결된 데이터 분포공간에서 발생하는 이상치

② 이상치의 발생 원인

- 비자연적 이상치 발생

: 입력실수, 측정오류, 실험오류, 의도적 이상치, 자료처리오류, 표본오류

2) 이상치의 문제점

① 기초(통계적) 분석결과의 신뢰도 저하

: 평균, 분산 등에 영향을 준다. 단 중앙값은 영향이 적음

② 기초통계에 기반한 다른 고급 통계분석의 신뢰성 저하

: 검정 · 추정 등의 분석, 회귀분석 등에 영향

- 특히 이상치가 비무작위성을 가지고 나타나게 되면 데이터의 정상성 감소를 초래하며 데이터 신뢰성 저하로 연결

3) 이상치의 탐지

① 시각화를 통한 방법

: 상자수염그름, 줄기-잎 그림, 산점도 그림

② Z-Score 통한 방법

: 정규화를 통해 threshold를 벗어난 경우를 이상치로 판별

③ 밀도기반 클러스터링 방법

: 비모수적 다변량의 경우 군집간의 밀도를 이용하여 특정 거리 내의 데이터 수가 지정 개수 이상이면 군집으로 정의하는 방법이다. 정의된 군집에서 먼거리에 있는 데이터는 이상치로 간주

④ 고립 의사나무 방법

: 비모수적 다변량의 경우 의사결정나무 기반으로 정상치의 단말 노드보다 이상치의 노드에 이르는 길이가 더 짧은 성질을 이용하는 방법

( 2. 분석 변수 처리 )

1️⃣ 변수 선택

1) 회귀분석의 사례

: 회귀모형에 의한 분석의 경우 최종 결과를 도출해 내기 위해서 사용된 독립 변수가 m개이고 이를 통해서 얻어진 설명력이 89%라고 했을 때, m보다 작은 n개만을 사용 시 동일한 설명력이 나온다면 변수의 효율적 선택의 필요성이 증가한다.

2) 변수별 모형의 분류

① 전체 모형 (FM:Full Model) : 모든 독립변수를 사용한 모형

② 축소 모형 (RM:Reduced Model) : 전체 모형에서 사용된 변수의 개수를 줄여서 얻은 모형

③ 영 모형 (NM:Null Model) : 독립변수가 하나도 없는 모형

3) 변수의 선택 방법

① 전진 선택법 (Forward Selection)

- 영 모형에서 시작, 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 큰 변수를 분석모형에 포함

- 부분 F 검정을 통해 유의성 검증을 시행, 유의한 경우는 가장 큰 F 통계량을 가지는 모형을 선택하고 유의하지 않은 경우는 변수선택 없이 과정을 중단

- 한 번 추가된 변수는 제거하지 않는 것이 원칙

② 후진 선택법(Backward Selection), 후진 소거법 (Backward Elimination)

- 전체 모형에서 시작, 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 작은 변수를 분석 모형에서 제거

- 부분 F 검정을 통해 유의성 검증을 시행, 유의하지 않은 경우는 변수를 제거하고 유의한 경우는 변수제거 없이 과정을 중단

- 한 번 제거된 변수는 추가하지 않는다.

③ 단계적 선택법 (Stepwise Selection)

- 전진 선택법과 후진 선택법의 보완방법이다.

- 전진 선택법을 통해 가장 유의한 변수를 모형에 포함한 후 나머지 변수들에 대해 후진 선택법을 적용하여 새롭게 유의하지 않은 변수들을 제거한다.

- 제거된 변수는 다시 모형에 포함하지 않으며 유의한 설명변수가 존재하지 않을 때까지 과정을 반복한다.

2️⃣ 차원 축소

1) 자료의 차원

: 분석하는 데이터의 종류의 수를 의미

2) 차원의 축소

: 어떤 목적에 따라서 변수의 양을 줄이는 것

3) 차원 축소의 필요성

① 복잡도의 축소

: 데이터를 분석하는 데 있어서 분석시간의 증가와 저장변수 양의 증가를 고려 시 동일한 품질을 나타낼 수 있다면 효율성 측면에서 데이터 종류의 수를 줄여야 한다.

② 과적합(Overfit) 방지

- 차원의 증가는 분석모델 파라미터의 증가 및 파라미터 간의 복잡한 관계의 증가로 분석결과의 과적합 발생의 가능성이 커진다. 이것은 분석모형의 정확도 저하를 발생시킬 수 있다.

- 작은 차원만으로 안정적인 결과를 도출해 낼 수 있다면 많은 차원을 다루는 것보다 효율적이다.

③ 해석력(Interpretability) 확보

- 차원이 작은 간단한 분석모델일수록 내부구조 이해가 용이하고 해석이 쉬워진다.

- 해석이 쉬워지면 명확한 결과 도출에 많은 도움을 줄 수 있다.

④ 차원의 저주

- 데이터 분석 및 알고리즘을 통한 학습을 위해 차원이 증가하면서 학습데이터의 수가 차원의 수보다 적어져 성능이 저하되는 현상이다.

- 해결을 위해서 차원을 줄이거나 데이터의 수를 늘리는 방법을 이용해야 한다.

4) 차원의 축소 방법

① 요인 분석

- 요인 분석의 개념

: 다수의 변수들 간의 관계를 분석하여 공통차원을 축약하는 통계분석 과정

- 요인 분석의 목적

: 변수 축소 → 다수의 변수들의 정보손실을 억제하면서 소수의 요인으로 축약

: 변수 제거 → 요인에 대한 중요도 파악

: 변수특성 파악 → 관련된 변수들이 묶임으로써 요인 간의 상호 독립성 파악이 용이

: 타당성 평가 → 묶여지지 않는 변수의 독립성 여부를 판단

: 파생변수 → 요인점수를 이용한 새로운 변수 생성, 회귀분석, 판별분석 및 군지분석 등에 이용

- 요인 분석의 특징

: 독립변수, 종속변수 개념이 없다. 주로 기술 통계에 의한 방법을 이용한다.

- 요인 분석의 종류

: 주성분 분석, 공통요인 분석 특이값 분해 행렬, 음수미포함 행렬분해 등

: 공통요인 분석은 분석대상 벼수들의 기저를 이루는 구조를 정의하기 위한 요인분석 방법으로 변수들이 가지고 있는 공통분산만을 이용하여 공통요인만 추출하는 방법

② 주성분 분석 (PCA:Principal Component Analysis)

- 주성분 분석의 개념

: 분포된 데이터들의 특성을 설명할 수 있는 하나 또는 복수 개의 특징을 찾는 것

: 서로 연관성이 있는 고차원 공간의 데이터를 선형연관성이 없는 저차원으로 변환하는 과정을 거친다.

: 기존의 기본변수들을 새로운 변수의 세트로 변환하여 차원을 줄이되 기존 변수들의 분포특성을 최대한 보존하여 이를 통한 분석결과의 신뢰성을 확보한다.

: 데이터 하나하나에 대한 성분을 분석하는 것이 아니라, 여러 데이터들이 모여 하나의 분포를 이룰 때, 이 분포의 주성분을 분석해주는 방법이다.

- 주성분 분석의 특징

: 차원 축소에 폭넓게 사용된다. 어떠한 사전적 분포 가정의 요구가 없다.

: 가장 큰 분산의 방향들이 주요 중심 관심으로 가정한다.

: 본래의 변수들의 선형결합으로만 고려한다.

: 차원의 축소는 본래의 변수들이 서로 상관이 있을 때만 가능하다.

: 스케일에 대한 영향이 크다. 즉 PCA 수행을 위해선 변수들 간의 스케일링이 필수이다.

③ 특이값 분해 (SVD:Singular Value Decomposition)

- 특이값 분해 차원 축소 원리

o 수학적 원리

: SVD 방법은 주어진 행렬 M을 여러 개의 행렬 M과 동일한 크기를 갖는 행렬로 분해할 수 있으며 각 행렬의 원소값의 크기는 Diagonal Matrix에서 대각성분의 크기에 의해 결정된다.

o 데이터의 응용

: 기존의 전차원의 정보 A를 SVD에 의해서 3개의 행렬로 분해하며 적당한 특이값만을 이용해 원래 행렬 A와 비슷한 정보력을 가지는 차원을 만들어 낼 수 있다.

: 즉, 큰 몇개의 특이값을 가지고도 충분히 유용한 정보를 유지할 수 있는 차원을 생성할 수 있다.

④ 음수 미포함 행렬분해 (NMF:Non-negative Matrix Factorization)

: 음수를 포함하지 않은 행렬 V를 음수를 포함하지 않은 두 행렬의 곱으로 분해하는 알고리즘

- NMF의 차원 축소

: 행렬 곱셈에서 곱해지는 행렬은 결과행렬보다 훨씬 적은 차원을 가지기 때문에 NMF가 차원을 축소할 수 있다.

저작자표시 비영리 변경금지

'Certificate > 빅데이터분석기사' 카테고리의 다른 글

[빅데이터분석기사] 빅분기 필기 5일차 (1)	2023.03.13
[빅데이터분석기사] 빅분기 필기 4일차 (0)	2023.03.12
[빅데이터분석기사] 빅분기 필기 3일차 (0)	2023.03.07
[빅데이터분석기사] 빅분기 필기 2일차 (0)	2023.03.05
[빅데이터분석기사] 빅분기 필기 1일차 (0)	2023.03.04

공유하기 링크

페이스북
카카오스토리
트위터

'Certificate/빅데이터분석기사' Related Articles

Comments

SooBlending

[빅데이터분석기사] 빅분기 필기 6일차 본문

[빅데이터분석기사] 빅분기 필기 6일차

[ 2. 빅데이터 탐색 ]

< (1) 데이터 전처리 >

( 1. 데이터 정제 )

1️⃣ 데이터에 내재된 변수의 이해

2️⃣ 데이터 결측값 처리

3️⃣ 데이터 이상값 처리

( 2. 분석 변수 처리 )

1️⃣ 변수 선택

2️⃣ 차원 축소

'Certificate > 빅데이터분석기사' 카테고리의 다른 글

티스토리툴바