일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 자바스크립트 undefined
- 간단한 채팅 프로그램
- 빅분기
- The OneThing
- TCP 채팅
- dom sax 차이점
- 원씽 후기
- 동기식 비동기식
- xml 파싱 방법
- dom sax 장단점
- 원씽 내용
- Notepad++ 줄바꿈
- 자바 채팅
- async
- async false
- 원씽 독후감
- 책 원씽
- 빅분기 독학
- 원씽 책
- Notepad 줄바꿈
- ajax 동기식
- 노트패드++ 줄바꿈
- 빅데이터분석기사 독학
- 빅데이터분석기사 필기
- 자바 채팅 프로그램
- 빅데이터분석기사
- ajax 비동기식
- TCP Socket
- 노트패드 줄바꿈
- 빅분기 필기
- Today
- Total
SooBlending
[빅데이터분석기사] 빅분기 필기 6일차 본문
[ 2. 빅데이터 탐색 ]
< (1) 데이터 전처리 >
( 1. 데이터 정제 )
1️⃣ 데이터에 내재된 변수의 이해
1) 데이터 관련 정의
① 데이터 (Data)
: 이론을 세우는 기초가 되는 사실 또는 자료를 지칭, 컴퓨터와 연관되어 프로그램을 운용할 수 있는 자료
② 단위 (Unit)
: 관찰되는 항목 또는 대상을 지칭
③ 관측값 (Observation)
: 각 조사 단위별 기록정보 또는 특성
④ 변수 (Variable)
: 각 단위에서 측정된 특성 결과
⑤ 원자료 (Raw Data)
: 표본에서 조사된 최초의 자료
2) 데이터의 종류
① 단변량자료 (Univariate Data)
: 자료의 특성을 대표하는 특성 변수가 하나인 자료
② 다변량자료 (Multivariate Data)
: 자료의 특성을 대표하는 특성 변수가 두 가지 이상인 자료
③ 질적자료 (Qualitative Data)
: 정성적 또는 범주형 자료
- 명목자료 (Nominal Data)
: 측정대상이 범주나 종류에 대해 구분되어지는 것을 수치 또는 기호로 분류되는 자료 (국번, 지역번호 등)
- 질적자료 (Qualitative Data)
: 명목자료와 비슷하나 수치나 기호가 서열을 나타내는 자료 (기록경기의 순위 등)
④ 수치자료 (Quantitative Data)
: 정량적 또는 연속형 자료, 숫자의 크기에 의미를 부여할 수 있는 자료
- 구간자료 (Interval Data)
: 명목자료, 서열자료의 의미를 포함하면서 숫자로 표현된 변수에 대해서 변수간의 관계가 산술적 의미를 가짐 (온도)
- 비율자료 (Ratio Data)
: 명목자료, 서열자료, 구간자료의 의미를 다 가지는 자료로서 수치화된 변수에 비율의 개념을 도입 (무게)
⑤ 시계열자료 (Time Series Data)
: 일정한 시간간격 동안에 수집된, 시간개념이 포함되어 있는 자료 (일별 주식 가격)
⑥ 횡적자료 (Cross Sectional Data)
: 특정 단일 시점에서 여러 대상으로부터 수집된 자료, 즉 한 개의 시점에서 여러 대상으로부터 취합하는 자료
⑦ 종적자료 (Longitudinal Data)
: 시계열자료와 횡적자료의 결합으로 여러 개체를 여러 시점에서 수집한 자료
3) 데이터 정재
: 수집된 데이터를 대상으로 분석에 필요한 데이터를 추출하고 통합하는 과정
① 데이터 정제의 필요성
: 데이터로부터 원하는 결과나 분석을 얻기 위해서는 수집된 데이터를 분석의 도구 또는 기법에 맞게 다듬는 과정이 필요
② 정제과정을 거치지 않은 데이터의 문제점
: 데이터 구성의 일관성이 없어지므로 분석의 처리에 어려움이 발생
: 도출된 결과의 신뢰성이 저하
③ 데이터 정제의 과정 (Processing)
: 다양한 매체로부터 데이터를 수집, 원하는 형태로 변환, 원하는 장소에 저장, 저장된 데이터의 활용가능성을 타진하기 위한 품질확인, 필요한 시기와 목적에 따라 사용이 원활하도록 관리의 과정이 필요하다.
구분 | 수행내용 | Process |
데이터 수집 | - 데이터의 입수 방법 및 정책 결정 - 입수경로의 구조화 - 집계 (Aggregation) - 저장소 결정 |
전처리 포함 |
데이터 변환 | - 데이터 유형의 변화 및 분석 가능 형태로 가공 - ETL - 일반화 - 정규화 |
|
데이터 교정 | - 결측치의 처리, 이상치 처리, 노이즈 처리 - 비정형데이터 수집 시 필수사항 |
|
데이터 통합 | - 데이터분석이 용이하도록 기존 또는 유사 데이터와 연계 통합 - 레거시 데이터와 함게 분석이 필요한 경우 수행 |
④ 데이터 정제의 전처리·후처리
- 전처리
: 데이터 저장 전의 처리과정으로 대상 데이터와 입수 방법 결정 및 저장방식 장소를 선정
- 후처리
: 저장 후의 처리를 지칭하며 저장 데이터의 품질관리 등의 과정을 포함한다.
2️⃣ 데이터 결측값 처리
: 데이터 분석에서 결측치는 데이터가 없음을 의미
- 결측치 임의로 제거 시
: 분석 데이터의 직접손실로 분석에 필요한 유의수준 데이터 수집에 실패할 가능성이 발생
- 결측치 임의로 대체 시
: 데이터의 편향이 발생하여 분석 결과의 신뢰성 저하 가능성
1) 결측 데이터 종류
① 완전 무작위 결측 (MCAR:Missing Completely At Random)
: 어떤 변수상에서 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 아무런 연관이 없는 경우
② 무작위 결측 (MAR:Missing At Random)
: 변수상의 결측데이터가 관측된 다른 변수와 연관되어 있지만 그 자체가 비관측값들과는 연관되지 않는 경우
③ 비 무작위 결측 (NMAR:Not Missing At Random)
: 어떤 변수의 결측 데이터가 완전 무작위 결측 또는 무작위 결측이 아닌 결측데이터로 정의, 결측변수값이 결측여부와 관련이 있는 경우
2) 결측값 유형의 분석 및 대치
- 결측치가 존재하는 데이터를 이용한 분석은 효율성, 자료처리의 복잡성, 편향 문제가 발생
① 단순 대치법 (Simple Imputation)
: 기본적으로 결측치에 대하여 MCAR, MAR로 판단하고 이에 대한 처리
- 완전 분석 (Completes Analysis)
: 불완전 자료는 완전하게 무시하고 분석을 수행, 효율성 상실과 통계적 추론의 타당성 문제 발생 가능
- 평균 대치법 (Mean Imputation)
: 관측 또는 실험으로 얻어진 데이터의 평균으로 결측치를 대치해서 사용
: 효율성 측면에서 장점이 있으나 통계량의 표준오차가 과소 추정되는 단점
- 회귀 대치법 (Regression Imputation)
: 회귀 분석에 의한 예측치로 결측치를 대치하는 방법
- 단순확률 대치법 (Single Stochastic Imputation)
: 평균 대치법에서 추정량 표준오차의 과소 추정을 보완하는 대치법, 확률 추출에 의해서 전체 데이터 중 무작위로 대치
- 최근접 대치법 (Nearest-Neighbor Imputation)
: 전체표본을 몇 개의 대체군으로 분류하여 각 층에서의 응답자료를 순서대로 정리한 후 결측값 바로 이전의 응답을 결측치로 대치하는 방법
② 다중 대치법 (Multiple Imputation)
: 단순 대치법을 복수로 시행하여 통계적 효율성 및 일치성 문제를 보완
- 1단계 - 대치단계 : 복수의 대치에 의한 결측을 대치한 데이터를 생성
- 2단계 - 분석단계 : 복수 개의 데이터 셋에 대한 분석
- 3단계 - 결합단계 : 복수 개의 분석결과에 대한 통계적 결합을 통해 결과를 도출
3️⃣ 데이터 이상값 처리
: 데이터 이상값이란 데이터 전처리 과정에 발생 가능한 문제로 정상의 범주에서 벗어난 값을 말함
1) 이상치의 종류 및 발생원인
① 이상치의 종류
- 단변수 이상치 : 하나의 데이터 분포에서 발생하는 이상치
- 다변수 이상치 : 복수의 연결된 데이터 분포공간에서 발생하는 이상치
② 이상치의 발생 원인
- 비자연적 이상치 발생
: 입력실수, 측정오류, 실험오류, 의도적 이상치, 자료처리오류, 표본오류
2) 이상치의 문제점
① 기초(통계적) 분석결과의 신뢰도 저하
: 평균, 분산 등에 영향을 준다. 단 중앙값은 영향이 적음
② 기초통계에 기반한 다른 고급 통계분석의 신뢰성 저하
: 검정 · 추정 등의 분석, 회귀분석 등에 영향
- 특히 이상치가 비무작위성을 가지고 나타나게 되면 데이터의 정상성 감소를 초래하며 데이터 신뢰성 저하로 연결
3) 이상치의 탐지
① 시각화를 통한 방법
: 상자수염그름, 줄기-잎 그림, 산점도 그림
② Z-Score 통한 방법
: 정규화를 통해 threshold를 벗어난 경우를 이상치로 판별
③ 밀도기반 클러스터링 방법
: 비모수적 다변량의 경우 군집간의 밀도를 이용하여 특정 거리 내의 데이터 수가 지정 개수 이상이면 군집으로 정의하는 방법이다. 정의된 군집에서 먼거리에 있는 데이터는 이상치로 간주
④ 고립 의사나무 방법
: 비모수적 다변량의 경우 의사결정나무 기반으로 정상치의 단말 노드보다 이상치의 노드에 이르는 길이가 더 짧은 성질을 이용하는 방법
( 2. 분석 변수 처리 )
1️⃣ 변수 선택
1) 회귀분석의 사례
: 회귀모형에 의한 분석의 경우 최종 결과를 도출해 내기 위해서 사용된 독립 변수가 m개이고 이를 통해서 얻어진 설명력이 89%라고 했을 때, m보다 작은 n개만을 사용 시 동일한 설명력이 나온다면 변수의 효율적 선택의 필요성이 증가한다.
2) 변수별 모형의 분류
① 전체 모형 (FM:Full Model) : 모든 독립변수를 사용한 모형
② 축소 모형 (RM:Reduced Model) : 전체 모형에서 사용된 변수의 개수를 줄여서 얻은 모형
③ 영 모형 (NM:Null Model) : 독립변수가 하나도 없는 모형
3) 변수의 선택 방법
① 전진 선택법 (Forward Selection)
- 영 모형에서 시작, 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 큰 변수를 분석모형에 포함
- 부분 F 검정을 통해 유의성 검증을 시행, 유의한 경우는 가장 큰 F 통계량을 가지는 모형을 선택하고 유의하지 않은 경우는 변수선택 없이 과정을 중단
- 한 번 추가된 변수는 제거하지 않는 것이 원칙
② 후진 선택법(Backward Selection), 후진 소거법 (Backward Elimination)
- 전체 모형에서 시작, 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 작은 변수를 분석 모형에서 제거
- 부분 F 검정을 통해 유의성 검증을 시행, 유의하지 않은 경우는 변수를 제거하고 유의한 경우는 변수제거 없이 과정을 중단
- 한 번 제거된 변수는 추가하지 않는다.
③ 단계적 선택법 (Stepwise Selection)
- 전진 선택법과 후진 선택법의 보완방법이다.
- 전진 선택법을 통해 가장 유의한 변수를 모형에 포함한 후 나머지 변수들에 대해 후진 선택법을 적용하여 새롭게 유의하지 않은 변수들을 제거한다.
- 제거된 변수는 다시 모형에 포함하지 않으며 유의한 설명변수가 존재하지 않을 때까지 과정을 반복한다.
2️⃣ 차원 축소
1) 자료의 차원
: 분석하는 데이터의 종류의 수를 의미
2) 차원의 축소
: 어떤 목적에 따라서 변수의 양을 줄이는 것
3) 차원 축소의 필요성
① 복잡도의 축소
: 데이터를 분석하는 데 있어서 분석시간의 증가와 저장변수 양의 증가를 고려 시 동일한 품질을 나타낼 수 있다면 효율성 측면에서 데이터 종류의 수를 줄여야 한다.
② 과적합(Overfit) 방지
- 차원의 증가는 분석모델 파라미터의 증가 및 파라미터 간의 복잡한 관계의 증가로 분석결과의 과적합 발생의 가능성이 커진다. 이것은 분석모형의 정확도 저하를 발생시킬 수 있다.
- 작은 차원만으로 안정적인 결과를 도출해 낼 수 있다면 많은 차원을 다루는 것보다 효율적이다.
③ 해석력(Interpretability) 확보
- 차원이 작은 간단한 분석모델일수록 내부구조 이해가 용이하고 해석이 쉬워진다.
- 해석이 쉬워지면 명확한 결과 도출에 많은 도움을 줄 수 있다.
④ 차원의 저주
- 데이터 분석 및 알고리즘을 통한 학습을 위해 차원이 증가하면서 학습데이터의 수가 차원의 수보다 적어져 성능이 저하되는 현상이다.
- 해결을 위해서 차원을 줄이거나 데이터의 수를 늘리는 방법을 이용해야 한다.
4) 차원의 축소 방법
① 요인 분석
- 요인 분석의 개념
: 다수의 변수들 간의 관계를 분석하여 공통차원을 축약하는 통계분석 과정
- 요인 분석의 목적
: 변수 축소 → 다수의 변수들의 정보손실을 억제하면서 소수의 요인으로 축약
: 변수 제거 → 요인에 대한 중요도 파악
: 변수특성 파악 → 관련된 변수들이 묶임으로써 요인 간의 상호 독립성 파악이 용이
: 타당성 평가 → 묶여지지 않는 변수의 독립성 여부를 판단
: 파생변수 → 요인점수를 이용한 새로운 변수 생성, 회귀분석, 판별분석 및 군지분석 등에 이용
- 요인 분석의 특징
: 독립변수, 종속변수 개념이 없다. 주로 기술 통계에 의한 방법을 이용한다.
- 요인 분석의 종류
: 주성분 분석, 공통요인 분석 특이값 분해 행렬, 음수미포함 행렬분해 등
: 공통요인 분석은 분석대상 벼수들의 기저를 이루는 구조를 정의하기 위한 요인분석 방법으로 변수들이 가지고 있는 공통분산만을 이용하여 공통요인만 추출하는 방법
② 주성분 분석 (PCA:Principal Component Analysis)
- 주성분 분석의 개념
: 분포된 데이터들의 특성을 설명할 수 있는 하나 또는 복수 개의 특징을 찾는 것
: 서로 연관성이 있는 고차원 공간의 데이터를 선형연관성이 없는 저차원으로 변환하는 과정을 거친다.
: 기존의 기본변수들을 새로운 변수의 세트로 변환하여 차원을 줄이되 기존 변수들의 분포특성을 최대한 보존하여 이를 통한 분석결과의 신뢰성을 확보한다.
: 데이터 하나하나에 대한 성분을 분석하는 것이 아니라, 여러 데이터들이 모여 하나의 분포를 이룰 때, 이 분포의 주성분을 분석해주는 방법이다.
- 주성분 분석의 특징
: 차원 축소에 폭넓게 사용된다. 어떠한 사전적 분포 가정의 요구가 없다.
: 가장 큰 분산의 방향들이 주요 중심 관심으로 가정한다.
: 본래의 변수들의 선형결합으로만 고려한다.
: 차원의 축소는 본래의 변수들이 서로 상관이 있을 때만 가능하다.
: 스케일에 대한 영향이 크다. 즉 PCA 수행을 위해선 변수들 간의 스케일링이 필수이다.
③ 특이값 분해 (SVD:Singular Value Decomposition)
- 특이값 분해 차원 축소 원리
o 수학적 원리
: SVD 방법은 주어진 행렬 M을 여러 개의 행렬 M과 동일한 크기를 갖는 행렬로 분해할 수 있으며 각 행렬의 원소값의 크기는 Diagonal Matrix에서 대각성분의 크기에 의해 결정된다.
o 데이터의 응용
: 기존의 전차원의 정보 A를 SVD에 의해서 3개의 행렬로 분해하며 적당한 특이값만을 이용해 원래 행렬 A와 비슷한 정보력을 가지는 차원을 만들어 낼 수 있다.
: 즉, 큰 몇개의 특이값을 가지고도 충분히 유용한 정보를 유지할 수 있는 차원을 생성할 수 있다.
④ 음수 미포함 행렬분해 (NMF:Non-negative Matrix Factorization)
: 음수를 포함하지 않은 행렬 V를 음수를 포함하지 않은 두 행렬의 곱으로 분해하는 알고리즘
- NMF의 차원 축소
: 행렬 곱셈에서 곱해지는 행렬은 결과행렬보다 훨씬 적은 차원을 가지기 때문에 NMF가 차원을 축소할 수 있다.
'Certificate > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사] 빅분기 필기 5일차 (1) | 2023.03.13 |
---|---|
[빅데이터분석기사] 빅분기 필기 4일차 (0) | 2023.03.12 |
[빅데이터분석기사] 빅분기 필기 3일차 (0) | 2023.03.07 |
[빅데이터분석기사] 빅분기 필기 2일차 (0) | 2023.03.05 |
[빅데이터분석기사] 빅분기 필기 1일차 (0) | 2023.03.04 |