일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 원씽 후기
- 동기식 비동기식
- 빅데이터분석기사 독학
- 빅분기
- 빅분기 독학
- 원씽 독후감
- 책 원씽
- ajax 비동기식
- Notepad 줄바꿈
- xml 파싱 방법
- async false
- TCP 채팅
- 자바 채팅 프로그램
- 빅분기 필기
- 원씽 책
- 원씽 내용
- 노트패드 줄바꿈
- 빅데이터분석기사 필기
- The OneThing
- 자바 채팅
- dom sax 장단점
- 노트패드++ 줄바꿈
- Notepad++ 줄바꿈
- ajax 동기식
- 빅데이터분석기사
- TCP Socket
- async
- 자바스크립트 undefined
- 간단한 채팅 프로그램
- dom sax 차이점
- Today
- Total
SooBlending
[빅데이터분석기사] 빅분기 필기 2일차 본문
③ 빅데이터와 인공지능
1) 인공지능(AI)
- 인공지능의 정의
: 기계를 지능화하는 노력, 객체가 환경에서 예지력을 갖고 작동하는 것
- 딥러닝의 특징
: 깊은 구조에 의해 엄청난 양의 데이터를 학습할 수 있는 특징
- 기계학습의 종류
o 지도학습(Supervised Learning)
: 학습 데이터로부터 하나의 함수를 유추해내기 위한 방법
: 지도 학습기가 훈련 데이터로부터 주어진 데이터에 대해 예측하고자 하는 값을 올바로 추측해내는 것
o 비지도학습(Unsupervised Learning)
: 데이터가 어떻게 구성되었는지를 알아내는 문제의 범주
: 지도학습 또는 강화학습과 달리 입력값에 대한 목표치가 주어지지 않는다.
: 통계의 밀도 추정과 깊은 연관이 있으며, 데이터의 주요 특징을 요약하고 설명할 수 있다.
o 준지도학습(Semi-supervised Learning)
: 목표값이 표시된 데이터와 표시되지 않은 데이터를 모두 학습에 사용
: 많은 기계학습 연구자들이 목표값이 없는 데이터에 적은 양의 목표값을 포함한 데이터를 사용할 경우 좋아짐을 확인
o 강화학습(Reinforcement Learning)
: 행동심리학에서 영감을 받았으며, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 순서를 선택하는 방법
: 초점은 학습 과정에서의 성능이며, 이는 탐색과 이용의 균형을 맞춤으로써 제고된다.
- 기계학습 방법에 따른 인공지능 응용분야
o 지도학습
: 분류모형(이미지 인식, 음성 인식, 신용평가 및 사기검출, 불량예측 및 원인발굴)
: 회귀모형(시세/가격/주가 예측, 강우량 예측)
o 비지도 학습
: 군집분석(텍스트 토픽 분석, 고객 세그멘테이션)
: 오토인코더(이상징후 탐지, 노이즈 제거, 텍스트 벡터화)
: 생성적 적대 신경망(시뮬레이션 데이터 생성, 누락 데이터 생성, 패션 데이터 생성)
o 강화학습
: 강화학습(게임 플레이어 생성, 로봇 학습 알고리즘, 공급망 최적화)
2) 인공지능 데이터 학습의 진화
- 전이학습(Transfer Learning)
: 인간의 응용력과 같이 유사 분야에 학습된 딥러닝 모형을 다른 문제를 해결하기 위해 사용하고자 할 때 적은 양의 데이터로도 좋은 결과를 얻을 수 있다.
: 주로 이미지, 언어, 텍스트 인식과 같이 지도학습 중 분류모형인 인식 문제에 활용 가능
: 인식 문제의 경우 데이터 표준화가 가능하여 사전학습모형 입력형식에 맞출 수 있다.
- 전이학습 기반 사전학습모형(Pre-trained Model)
: 학습 데이터에 의한 인지능력을 갖춘 딥러닝 모형에 추가적인 데이터를 학습시키는 방식
: 데이터 학습량에 따라 점차 발전하는 것도 중요하지만, 응용력을 갖추는 것 또한 필수적
: 상대적으로 적은 양의 데이터로도 제한된 문제에 인공지능 적용이 가능
: 이미 학습된 사전학습모형도 데이터를 함축한 초보적인 인공지능으로서 충분한 가치를 지닌 새로운 의미의 데이터
- BERT(Bidirectional Encoder Representations from Transformers)
: 확보된 언어 데이터의 추가 학습을 통한 신속한 학습이 가능
: 다층의 임베딩 구조를 통해 1억 2천개가 넘는 파라미터로 구성된 획기적인 모형
: 256개까지의 문자가 입력되어 768차원 숫자 벡터가 생성되는 방식
: 언어 인식뿐 아니라 번역, 챗봇의 Q&A 엔진으로 활용이 가능
3) 빅데이터와 인공지능의 관계
- 인공지능을 위한 학습 데이터 확보
: 학습 데이터 측면을 고려한 양질의 데이터 확보는 결국 성공적인 인공지능 구현과 직결
: 딥러닝은 깊은 구조를 통해 무한한 모수 추정이 필요한 만큼 많은 양의 데이터가 필요
: 인공지능 학습에 활용될 수 있는 데이터로 가공이 필요하며, 학습의 가이드를 제공해주는 어노테이션 작입이 필수
- 학습 데이터의 어노테이션 작업
: 작업의 특성상 많은 수작업이 동반되며, 이로 인해 인공지능 사업은 노동집약적이라는 인식을 만들어 냄
- 어노테이션 작업을 위한 도구로써의 인공지능
: 경쟁으로 인해 학습용 데이터에 대한 보안 및 어노테이션 결과에 대한 품질 요구 수준이 높아짐
: 데이터 업로드 및 어노테이션 도구, 작업 모니터링을 위한 플랫폼을 제공하기 시작
: 현재 자동으로 어노테이션을 수행해 주는 인공지능 기반의 어노테이션 도구를 제공하는 서비스로 진화 중
4) 인공지능의 기술동향
- 기계학습 프레임워크 보급 확대
: 텐서플로우(Tensorflow)는 파이썬 기반 딥러닝 라이브러리로 여러 CPU, GPU와 플랫폼에서 사용 가능
: 케라스(Keras)는 딥러닝 신경망 구축을 위한 단순화된 인터페이스를 가진 라이브러리로 코드 몇 줄로 모형 개발 가능
- 생성적 적대 신경망(GAN:Generative Adversarial Networks)
: 두 개의 인공신경망으로 구성된 딥러닝 이미지 생성 알고리즘
: 생성자가 가짜 사례를 생성하면 감별자가 진위를 판별하도록 구성한 후 이들이 적대적 관계 속에서 공방전을 반복
: 가짜 사례의 정밀도를 점점 더 진짜 사례와 구별하기 어려운 수준으로 높이는 방식
: 주로 새로운 합성 이미지를 생성하는 분석에 많이 적용되어 왔으나, 점차 다른 분야에 사용이 늠
- 오토인코더(Auto-encoder)
: 라벨이 설정되어 있지 않은 학습 데이터로부터 더욱 효율적인 코드로 표현하도록 학습하는 신경망
: 입력 데이터의 차원을 줄여 모형을 단순화시키기 위해 활용
- 설명 가능한 인공지능(XAI:eXplainable AI)
: 결론 도출 과정에 대한 근거를 차트나 수치 또는 자연어 형태의 설명으로 제공
- 기계학습 자공화(AutoML)
: 세부적으로는 데이터 전처리, 변수 생성, 변수 선택, 알고리즘 선택, 하이퍼파라미터 최적화 등의 기능 수행
5) 인공지능의 한계점과 발전방향
- 국내시장의 한계
: 머신러닝 및 인공지능과 관련한 수학, 통계학적 이해도는 낮은 수준
: 인공지능 개발을 위한 데이터 확보 및 그 중요성에 대한 인식이 부족
- 인공지능의 미래
: 딥러닝의 재학습 및 전이학습 특성을 활용한 사전학습모형이 새로운 데이터 경제의 모습
: 마스킹이나 라벨링 등의 어노테이션 작업을 통해 학습용 데이터를 가공하는 산업이 확산
: 복잡한 BERT의 학습을 위한 구글의 클라우드 서비스와 같은 확장된 개념의 데이터로 경제로 파생
④ 개인정보 개요
1) 개인정보의 정의와 판단기준
- 개인정보의 정의
: 살아 있는 개인에 관한 정보로서 개인을 알아볼 수 있는 정보
: 또는 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보를 포함
- 개인정보의 판단기준
: 생존하는 개인에 관한 정보
: 정보의 내용, 형태 등은 제한이 없음
: 개인을 알아볼 수 있는 정보 (다른 정보와 쉽게 결합하여 알아볼 수 있는 정보도 포함)
2) 개인정보의 처리와 활용
- 개인정보의 이전
- 개인정보의 처리 위탁 (제공하는 자)
- 개인정보의 제3자 제공 (제공받는 자)
3) 개인정보의 보호
- 개인정보의 보호조치
: 가이드라인 준수
: 주기적인 패스워드 변경, 의심스러운 메일 열람 금지, 정기적인 보안교육
: 백신 최신버전 유지
- 빅데이터 개인정보보호 가이드라인(방송통신위원회)
: 비식별화
: 투명성 확보
: 재식별 시 조치
: 민감정보 및 비밀정보 처리
: 기술적, 관리적 보호조치
⑤ 개인정보 법, 제도
1) 개인정보보호법
- 개인정보보호법의 개요
: 당사자의 동의 없는 개인정보 수집 및 활용하거나 제3자에게 제공하는 것을 금지하는 등 개인정보보호를 강화한 법률
2) 정보통신망 이용촉진 및 정보보호 등에 관한 법률(정보통신망법)
- 정보통신망법의 개요
: 정보통신망의 개발과 보급 등 이용 촉진과 함께 통신망을 통해 활용되고 있는 정보보호에 관해 규정한 법률
3) 신용정보의 이용 및 보호에 관한 법률(신용정보보호법)
- 신용정보보호법의 개요
: 개인신용정보를 신용정보회사 등에게 제공하고자 하는 경우에 해당 개인으로부터 동의를 얻어야함
4) 2020년 데이터 3법의 주요 개정 내용
- 데이터 이용 활성화를 위한 '가명정보' 개념 도입 및 데이터간 결합 근거 마련
- 개인정보보호 관련 법률의 유사, 중복 규정을 정비 및 거버넌스 체계 효율화
- 데이터 활용에 따른 개인정보처리자 책임 강화
- 다소 모호했던 개인정보의 판단기준 명확화
데이터 3법
- 개인정보 보호법
- 정보통신망 이용촉진 및 정보보호 등에 관한 법률
- 신용정보의 이용 및 보호에 관한 법률
5) 유럽 연합과 미국의 개인정보보호 체계
- 유럽 연합(EU)
: 유럽 연합의 시민 데이터를 활용하는 경우 GDPR(General Data Protection Regulation)을 준수해야 한다.
: GDPR은 정보주체의 권리와 기업의 책임성 강화 등을 주요 내용으로하며 위반 시 과징금 부과를 규정
- 미국
: 시장 자율 규율 방식으로 EU나 한국과 같이 공공 부문과 민간 부문을 포괄하는 개인정보보호에 관한 일반법이 연방 법률로서 존재하지 않는다.
⑥ 개인정보 비식별화
1) 개인정보 비식별화의 개요
- 비식별 조치
: 개인을 알아볼 수 없도록 하는 조치
- 비식별 정보의 활용
: 개인정보가 아닌 정보로 추정되므로 정보주체로부터의 별도 동의없이 해당 정보를 이용하거나 제3자에게 제공 가능
- 비식별 정보의 보호
: 재식별될 경우 즉시 처리중지하고 파기하여야 함
2) 개인정보 비식별화 조치 가이드라인
- 개인 정보 비식별화 조치 가이드라인의 단계별 조치사항
: 사전 검토(개인정보, 식별정보)
: 비식별 조치(가명, 총계, 삭제, 범주화, 마스킹)
: 적정성 평가(k-익명성, l-다양성, t-근접성)
: 사후 관리(관리적/기술적 보호조치)
⑦ 개인정보 활용
1) 데이터 수집의 위기 요인과 통제 방안
- 사생활 침해로 위기 발생
- 동의에서 책임으로 강화하여 통제
2) 데이터 활용의 위기 요인과 통제 방안
- 책임원칙 훼손으로 위기 발생
- 결과 기반 책임 원칙을 고수하여 통제
3) 데이터 처리의 위기 요인과 통제 방안
- 데이터 오용으로 위기 발생
: 빅데이터는 과거에 일어났던 일로 인해 기록된 데이터에 의존
- 알고리즘 접근을 허용하여 통제
<데이터 분석 계획>
(분석 방안 수립)
① 데이터 분석
대용량 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 정형, 비정형 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행하는 업무
1) 데이터 분석의 현황
- 대다수의 기업들은 빅데이터가 갖고 있는 무한한 비즈니스 잠재력을 규명하는 초기 프로젝트에 머무르고 있다.
- 빅데이터를 활용하기 위한 장애물은 비용보다 데이터 분석을 수행하기 위한 분석적 방법과 성과에 대한 이해 부족이다.
2) 데이터 분석의 지향점
- 전략적 통찰이 없는 데이터 분석 배제
: 단순하게 데이터 분석을 자주, 많이 수행하는 것이 경쟁우위를 가져다주는 것은 아니다.
: 경쟁의 본질을 제대로 바라보지 못한 분석은 불필요한 결과를 만들어 낸다.
- 일차원적인 데이터 분석 지양
: 대부분의 기업들은 업계 내부의 문제에만 중점을 두고 있으며, 주로 부서 단위로 관리되기에 전체 비즈니스 관점의 핵심적인 역할을 기대하기 어렵다.
- 전략 도출을 위한 가치 기반 데이터 분석 지향
: 사업 성과를 견인하는 요소들과 차별화 기회에 대해 전략적 인사이트를 주는 가치 기반 분석 단계로 나아가야 한다.
: 사업과 관련 트렌드에 대한 청사진을 그리고, 여러 변화 등을 고려하여 분석을 수행
3) 데이터 분석에 대한 회의론
- 솔루션을 도입한 후 어떻게 활용하여 가치를 창출할 수 있을지 과제를 수행하는 상황이 반복되며 고가 솔루션을 방치
- 현재 소개되고 있는 빅데이터 분석 성공사례들의 대다수가 기존 데이터 분석 프로젝트를 재포장한 경우
4) 데이터 분석 시 고려사항
- 데이터 분석은 규모가 아니라 어떤 시각과 통찰을 얻을 수 있는가의 문제이다.
- 전략과 비즈니스 핵심 가치에 집중하고 분석 평가지표를 개발하여 시장과 고객 변화에 효과적으로 대응하는 것이 중요
② 데이터 분석 기획
실제 분석을 수행하기에 앞서 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 작업
- 어떠한 목표(What)를 달성하기 위해(Why) 어떠한 데이터를 가지고 어떤 방식으로(How) 수행할 것인가에 대한 계획
비즈니스 이해 및 범위 설정 → 프로젝트 정의 → 프로젝트 수행 계획 수립 → 프로젝트 위험 계획 수립
1) 분석 기획의 특징
- 분석 대상과 방법에 따른 분류
: Optimization, Insight, Solution, Discovery 4가지 유형을 넘나들며 분석하고 결과를 도출
- 목표 시점에 따른 분류
o 단기적 접근 방식(과제 중심적 접근)
: 당면한 과제를 빠르게 해결하기 위한 목적
: 명확한 해결을 위해 Quick-Win 방식으로 분석
o 중장기적 접근 방식(마스터 플랜 접근)
: 지속적인 분석 문화를 내재화하기 위한 목적
: 전사적으로 장기적 관점에서 과제를 도출하여 수행
o 혼합 방식(분석 기획 시 적합)
: 마스터 플랜을 수립하고 장기적 관점에서 접근하는 것이 바람직
: 분석의 가치를 증명하고 이해관계자들의 동의를 얻기 위해 과제를 빠르게 해결하여 그 가치를 조기에 체험
2) 분석 기획 시 필요역량
- 분석 기획을 위한 기본적인 소양
: 도메인 지식, 정보기술, 수학 및 통계학적 지식이라는 3가지 역략에 대한 균형 잡힌 시각을 갖고서 분석의 방향성과 계획을 수립하는 것
- 프로젝트 관리 역량과 리더십
: 기본적인 3가지 소양과 함께 프로젝트 관리 역량과 분석 프로젝트를 이끌어 갈 리더십이 필요
3) 분석 기획 시 고려사항
- 사용 가능한 데이터 확인
: 데이터 확보 가능 여부, 데이터의 유형 등을 미리 확인
- 적합한 사례 탐색
: 기존에 잘 구현되어 활용되고 있는 유사 분석 시나리오나 솔루션이 있다면 이를 최대한 활용
- 분석 수행 시 발생 가능한 요소 고려
: 기간과 투입 자원 증가가 불가피하며, 이로 인한 비용 상승을 충분히 고려
③ 분석 마스터 플랜과 로드맵 설정
1) 분석 마스터 플랜
분석 과제를 수행함에 있어 그 과제의 목적이나 목표에 따라 전체적인 방향성을 제시하는 기본계획
- 분석마스터 플랜 수립 절차
: 일반적인 정보전략계획 방법론을 활용할 수 있다. 다만 데이터 분석 기획의 특성을 고려하여 수행
: 과제 도출 방법을 활용하여 데이터 분석 과제들을 빠짐없이 정의
: 분석 과제의 중요도와 난이도 등을 고려하여 우선순위를 결정
: 단기와 중장기로 나우어 분석 로드맵을 수립
- 정보전략계획(ISP:Information Strategy Planning)
: 정보기술 및 시스템을 전략적으로 활용하기 위한 중장기 마스터 플랜을 수립하는 절차
: 조직 내, 외부의 환경을 충분히 분석하여 새로운 기회나 문제점을 도출
: 사용자의 요구사항을 확인하여 시스템 구축 우선순위를 결정
2) 분석 과제 우선순위 평가기준
- IT 프로젝트의 과제 우선순위 평가기준
: 전략 중요도 (전략적 필요성, 시급성)
: 실행 용이성 (투자 용이성, 기술 용이성)
- 데이터 분석 프로젝트의 우선순위 평가기준
: 투자비용 요소 (3V : Volume(크기), Variety(형태), Velocity(속도))
: 비즈니스 효과(4V : 위에 3V + Value(가치))
- 분석 ROI 요소를 고려한 과제 우선순위 평가기준
: 시급성(중요) (전략적 중요도, 목표가치(KPI)) - 비즈니스 효과
: 난이도 (데이터 획득, 가공, 저장 비용, 분석 적용 비용, 분석 수준) - 투자비용 요소
3) 분석 과제 우선순위 선정 및 조정
- 포트폴리오 사분면 분석 기법 활용
: 난이도와 시급성을 기준으로 분석 과제 유형을 분류하여 4분면에 배치
- 매트릭스 내 분석 과제 우선 순위 선정
: 가장 우선적으로 분석 과제 적용이 필요한 영역은 3사분면
: 우선순위가 가장 낮은 영역은 2사분면
: 적용 우선순위 기준을 시급성에 둘 경우 (3 → 4 → 1 → 2)
: 적용 우선순위 기준을 난이도에 둘 경우 (3 → 1 → 4 → 2)
- 매트릭스 내 분석 과제 우선순위 조정
: 시급성이 높고 난이도가 높은 1사분면은 의사결정을 통해 적용 우선순위를 조정할 수 있다.
: 데이터 양과 특성, 분석 범위 등에 따라 난이도를 조율하여 적용 우선순위를 조정할 수 있다.
- 분석 과제 우선순위 조정 시 고려사항
: 기술적 요소에 따른 적용 우선순위 조정
: 분석 범위에 따른 우선순위 조정
4) 분석 로드맵 설정
마스터 플랜에서 정의한 목표를 기반으로 분석 과제를 수행하기 위해 필요한 기준 등을 담아 만든 종합 계획
- 분석 로드맵 수립 절차
: 최종적인 실행 우선순위를 결정하여 단계적 구현 로드맵을 수립
: 단계별로 추진하고자 하는 목표를 명확하게 정의
: 추진 과제별 선행 관계를 고려하여 단계별 추진 내용을 정렬
데이터 분석체계 도입 → 데이터 분석 유효성 검증 → → 데이터 분석 확산 및 고도화
- 세부적인 일정계획 수립
: 반복적인 정련과정을 통해 프로젝트의 완성도를 높여 나간다.
: 데이터 수집 및 확보와 분석 데이터 준비 단계는 순차적으로 진행하고 모델링 단계는 반복적으로 수행
: 주로 순차형과 반복형을 혼합하여 사용
④ 분석 문제 정의
1) 분석 문제 정의 개요
- 분석 과제 도출
: 해결해야 할 다양한 문제들을 데이터 분석 문제로 변환하여 분석 프로젝트로 수행할 수 있는 과제정의서 형태로 도출
- 대표적인 분석 과제 도출 방법
: 문제가 먼저 주어지고 이에 대한 해법을 찾아가는 하향식 접근 방식
: 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하는 상향식 접근 방식
- 최적의 의사결정을 위한 혼합방식
: 동적인 환경에서 발산과 수렴 단계를 반복적으로 수행하며 상호 보완을 통해 분석의 가치를 극대화
: 상향식 접근 방식의 발산(Diverge) 단계 - 가능한 옵션을 도출
: 하향식 접근 방식의 수렴(Converge) 단계 - 도출된 옵션을 분석하고 검증
- 분석 과제 정의
: 분석 과제 정의서는 이해관계자가 프로젝트의 방향을 설정하고 성공 여부를 판단할 수 있는 자료
2) 하향식 접근 방식(Top Down Approach)
- 문제 탐색 단계
: 개별적으로 인지하고 있는 문제를 단순하게 나열하는 것보다 전체적인 관점의 기준 모델을 활용하여 누락 없이 문제를 도출하고 식별해야 한다.
: 현재 데이터 소유 여부와 데이터가 없는 경우 해결방안 등에 대한 세부적인 내용보다 문제를 해결하여 발생하는 가치에 중점을 두어야 한다.
o 비즈니스 모델 기반 문제 탐색
o 외부 참조 모델 기반 문제 탐색
o 분석 유즈케이스 정의
- 문제 정의 단계
: 식별된 비즈니스 문제를 데이터적인 문제로 변환하여 정의
: 필요한 데이터와 기법을 정의하기 위한 데이터 분석 문제로 변환
: 분석 수행자 외 문제 해결 시 효용을 얻을 최종 사용자 관점에서 정의
- 해결방안 탐색 단계
: 정의된 데이터 분석 문제를 해결하기 위한 다양한 방안들을 모색
: 시스템 개선 활용, 시스템 고도화, 교육 및 채용을 통한 역량 확보, 전문 업체 소싱
- 타당성 평가 단계
: 경제적 타당성 (비용 대비 편익 분석 관점의 접근이 필요)
: 데이터 및 기술적 타당성
3) 하향식 접근 방식의 문제 탐색 방법
- 비즈니스 모델 캔버스를 활용한 과제 발굴
: 해당 기업의 사업 모델을 도식화한 비즈니스 모델 캔버스의 9가지 블록을 단순화하여 문제 발굴을 3개의 단위로, 이를 관리하는 2개의 영역으로 도출
: 업무 단위, 제품 단위, 고객 단위, 규제와 감사 영역, 자원 인프라 영역
- 분석 기회 발굴의 범위 확장
: 거시적 관점 (사회, 기술, 경제, 환경, 정치)
: 경쟁자 확대 관점 (대체재, 경쟁자, 신규 진입자)
: 시장의 니즈 탐색 관점 (고객, 채널, 영형자들)
: 역량의 재해석 관점 (내부 역량, 파트너와 네트워크)
4) 상향식 접근 방식(Bottom Up Approach)
- 상향식 접근 방식의 특징
: 다량의 데이터 분석을 통해 왜(Why) 그러한 일이 발생하는지 역으로 추적하면서 문제를 도출하거나 재정의
: 생각지도 못했던 인사이트 도출 및 시행착오를 통한 개선이 가능
- 상향식 접근 방식의 등장배경
: 기존 하향식 접근 방식의 한계를 극복하기 위해 등장 (새로운 문제 탐색, 다양한 환경의 문제)
- 상향식 접근기반 전통적 분석 사고 극복방안
o 디자인 사고 접근법
: 현장 관찰과 감정이입, 대상 관점으로의 전환을 수행
: 통상적으로는 분석적으로 사물을 인식하려는 Why를 강조하나, 답을 미리 내는 것이 아니라 사물을 있는 그대로 인식하는 What 관점으로 접근
: 객관적으로 존재하는 데이터 자체를 관찰하고 실제 행동으로 옮김으로써 대상을 좀 더 잘 이해하는 방식으로 접근
o 비지도학습 방법에 의한 수행
: 목표값을 사전에 학습하거나 정의하지 않고 데이터 자체만을 가지고 결과를 도출
: 새로운 유형의 인사이트를 도출하기에 유용
o 빅데이터 환경에서의 분석
: 통계적 분석환경에서는 인과관계 분석을 위해 가설을 설정하고 이를 검증하기 위해 모집단으로부터 표본을 추출하여 가설검증을 함
: 빅데이터 분석환경에서는 인과관계, 상관관계, 연관분석을 통하여 다양한 문제를 해결할 수 있음
- 상향식 접근 방식의 문제 해결 방법
o 프로토타이핑 접근법
: 일단 먼저 분석을 시도해 보고 그 결과를 확인하면서 반복적으로 개선해 나가는 방식
: 사용자가 요구사항이나 데이터를 정확히 정의하기 어렵고 원천 데이터도 명확하지 않을 때 주로 사용
: 완전하지는 않지만 신속하게 해결책이나 모형을 제시하여 이를 바탕으로 문제를 더 명확하게 인식하고 필요한 데이터를 식별하여 구체화할 수 있다.
⑤ 데이터 분석 방안
1) 분석 방법론
데이터 분석 시 품질확보를 위하여 단계별로 수행해야 하는 활동, 작업, 산출물을 정의한다.
- 분석 방법론의 구성요건
: 상세한 절차
: 방법
: 도구와 기법
: 템플릿과 산출물
: 어느 정도의 지식만 있으면 활용 가능한 수준의 난이도
- 분석 방법론의 생성과정 (선순환 과정)
o 형식화
: 개인의 암묵지가 조직의 형식지로 발전, 분석가의 경험을 바탕으로 정리하여 문서화
o 체계화
: 문서화한 최적화된 형식지로 전개됨으로써 방법론이 생성, 문서에는 절차, 활동, 산출물 도구 등을 정의
o 내재화
: 개인에게 전파되고 활용되어 암묵지로 발전, 전파된 방법론을 학습하고 활용하여 내재화 한다.
2) 계층적 프로세스 모델 구성
- 최상위 계층 (단계 Phase)
: 프로세스 그룹을 통하여 완성된 단계별 산출물을 생성한다.
: 각 단계는 기준선으로 설정되어 관리되어야 하며 버전관리 등을 통하여 통제한다.
- 중간 계층 (태스트 Task)
: 각 태스크는 단계를 구성하는 단위 활동이다.
: 물리적 또는 논리적 단위로 품질검토가 가능하다.
- 최하위 계층 (스템 Step)
: WBS(Work Breakdown Structure)의 워크패키지이다.
: 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스
3) 소프트웨어개발생명주기 활용
소프트웨어개발생명주기는 소프트웨어에 대해 요구분석과 설계, 구현과정을 거쳐 설치, 운영과 유지보수, 그리고 폐기할 때까지의 전 과정을 가시적으로 표현한 것이다.
계획 - 요구분석 - 설계 - 구현 - 시험 - 유지보수
- 폭포수 모형(Waterfall Model)
: 고전적으로 분석, 설계, 개발, 구현, 시험 및 유지보수 과정을 순차적으로 접근
- 프로토타입 모형(Prototype Model)
: 사용자의 요구사항을 충분히 분석할 목적으로 시스템의 일부분을 일시적으로 간략히 구현한 다음 다시 요구사항을 반영하는 과정을 반복
- 나선형 모델(Spiral Model)
: 시스템을 개발하면서 생기는 위험을 최소화하기 위해 나선을 돌면서 점진적으로 완벽한 시스템으로 개발하는 모형
- 반복적 모형(Iterative Development Model)
: 사용자의 요구사항 일부분 혹은 제품의 일부분을 반복적으로 개발하여 최종 시스템으로 완성
- 소프트웨어개발생명주기 모형 선정 기준
: 프로젝트의 규모와 성격
: 개발에 사용되는 방법과 도구
: 개발에 소요되는 시간과 비용
: 개발과정에서의 통제수단과 소프트웨어 산출물 인도 방식
4) KDD 분석 방법론
통계적인 패턴이나 지식을 탐색하는 데 활용할 수 있도록 체계적으로 정리한 프로파일링 기술 기반의 데이터 마이닝
- KDD 분석 방법론의 9가지 프로세스
1. 분석 대상 비즈니스 도메인의 이해
2. 분석 대상 데이터셋 선택과 과정
3. 데이터에 포함되어 있는 잡음과 이상값 등을 제거하는 정제작업이나 선처리
4. 분석 목적에 맞는 변수를 찾고 필요시 데이터의 차원을 축소하는 데이터 변경
5. 분석 목적에 맞는 데이터 마이닝 기법 선택
6. 분석 목적에 맞는 데이터 마이닝 알고리즘 선택
7. 데이터 마이닝 시행
8. 데이터 마이닝 결과에 대한 해석
9. 데이터 마이닝에서 발견된 지식 활용
- KDD 분석 방법론의 분석절차
1. 데이터셋 선택
2. 데이터 전처리
3. 데이터 변환
4. 데이터 마이닝
5. 데이터 마이닝 결과 평가
5) CRISP-DM 분석 방법론
- CRISP-DM 분석 방법론의 4계층
1. 최상위 레벨 : 여러 개의 단계(Phase)로 구성
2. 일반화 태스크(Generic Tasks) : 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위
3. 세분화 태스크(Specialized Tasks) : 일반화 태스크를 구체적으로 수행
4. 프로세스 실행(Process Instances) : 데이터 마이닝을 구체적으로 수행
- CRISP-DM 분석 방법론의 분석절차
1. 업무 이해
2. 데이터 이해
3. 데이터 준비
4. 모델링
5. 평가
6. 전개
6) SEMMA 분석 방법론
기술과 통계 중심의 데이터 마이닝 프로세스
- SEMMA 분석 방법론의 특징
: 주로 데이터 마이닝 프로젝트의 모델링 작업에 중점
- SEMMA 분석 방법론의 분석절차
1. 추출
2. 탐색
3. 수정
4. 모델링
5. 평가
⑥ 빅데이터 분석 방법론
1) 빅데이터 분석 방법론 개요
3계층으로 구성
o 단계 (Phase)
: 데이터 분석을 수행하기 위한 절차
: 기준선을 설정하고 버전관리를 통해 통제
o 태스트 (Task)
: 각 단계별로 수행되어야 하는 세부 업무
: 각 태스크가 완료되면 그에 대한 성과를 얻을 수 있음
o 스텝 (Step)
: 단기간 내에 수행 가능한 워크패키지
: 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스
2) 빅데이터 분석 방법론의 개발절차
1. 분석 기획
2. 데이터 준비
3. 데이터 분석
4. 시스템 구현
5. 평가 및 전개
- 분석 기획 (Planning)
: 비즈니스 이해 및 범위 설정
: 프로젝트 정의 및 계획 수립
: 프로젝트 위험계획 수립
- 데이터 준비 (Preparing)
: 필요 데이터 정의 (개인정보보호 및 정보보안과 관련된 문제점 사전 파악)
: 데이터 스토어 설계
: 데이터 수집 및 정합성 점검
- 데이터 분석 (Analyzing)
: 분석용 데이터 준비 (데이터 범위를 확인하여 DB나 구조화된 형태로 구성)
: 텍스트 분석
: 탐색적 분석 (평균, 순반 등 기초 통계량을 산출하여 데이터의 분포와 변수간의 관계 등 특성과 통계적 특성 파악)
: 모델링 (상세한 알고리즘 설명서 작성과 모니터링 방안 필요)
: 모델 평가 및 검증 (품질관리 차원에서 모형 평가 프로세스 진행)
- 시스템 구현 (Developing)
: 설계 및 구현
: 시스템 테스트 및 운영 (적용된 시스템의 객관성과 완전성을 확보)
- 평가 및 전개 (Deploying)
: 모델 발전계획 수립 (발전계획을 상세하게 수립하여 모형의 계속성을 확보)
: 프로젝트 평가 및 보고
⑦ 데이터 분석 거버넌스
1) 데이터 분석 거버넌스 개요
- 데이터 분석 거버넌스의 필요성
: 데이터 분석 업무를 하나의 기업 문화로 정착하고 이를 지속적으로 고도화 해 나가기 위해 필요하다.
- 데이터 분석 거버넌스의 구성요소
o 데이터 분석 기획과 관리를 수행하는 조직
o 데이터 분석 과제 기획과 운영 프로세스
o 데이터 분석 지원 인프라
o 데이터 커버넌스
o 데이터 분석 교육 및 마인드 육성 체계
2) 데이터 분석 기획과 관리를 수행하는 조직
- 집중형, 기능형, 분산형
3) 데이터 분석 과제 기획과 운영 프로세스
- 데이터 분석 과제 관리 프로세스의 구성
: 과제 발굴 단계
: 과제 수행 및 모니터링 단계
- 데이터 분석 과제 관리 프로세스의 특징
: 조직 내에 데이터 분석 문화를 내재화하여 경쟁력을 확보
: 결과물을 잘 축척하여 관리함으로써 향후 유사 데이터 분석 과제 수행 시 시행착오를 최소화
: 데이터 분석 프로젝트를 효율적으로 진행
- 데이터 분석 과제 관리 프로세스
1. 분석 Idea 발굴
2. 분석과제 후보 제안
3. 분석과제 확정
4. 팀 구성
5. 분석과제 실행
6. 분석과제 진행 관리
7. 결과 공유/개선
4) 데이터 분석 지원 인프라
- 데이터 분석 플랫폼 구축
: 데이터 분석 마스터 플랜을 기획하는 단계에서부터 장기적, 지속적, 안정적으로 활용할 수 있도록 고려
- 데이터 분석 플랫폼 정의
: 데이터 분석 서비스를 위한 응용프로그램이 실행될 수 있는 환경과 기초를 이루는 컴퓨터 시스템
- 데이터 분석 플랫폼의 특징
: 데이터 분석에 필요한 프로그래밍 및 실행, 이를 서비스할 수 있는 환경을 제공
: 새로운 분석 니즈가 생겨도 시스템 추가 없이 추가적인 서비스 제공이 가능 (확정성 증대)
5) 데이터 거버넌스
- 데이터 거버넌스의 필요성
: 개별 시스템 단위로 데이터를 관리할 경우 데이터 중복, 비표준화에 따른 정합성 오류 등으로 데이터 활용도가 저하
: 빅데이터 프로젝트의 효과적 추진 및 효과의 지속성을 얻기 위해서는 데이터 거버넌스 체계 수립 필요
- 데이터 거버넌스의 정의
: 전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직과 책임 등의 표준화된 관리 체계를 수립하고 운영하기 위한 프레임워크와 저장소를 구축하는 것이다.
- 데이터 거버넌스의 주요 관리 대상
o 마스터 데이터 (Master Data)
: 데이터를 처리 및 조작하기 위하여 사용되는 기본 데이터
o 메타 데이터 (Meta Data)
: 데이터에 대한 구조화된 데이터, 다른 데이터를 설명하기 위해 사용되는 데이터
o 데이터 사전 (Data Dictionary)
: 효과적인 데이터 자원관리를 위해 자료의 이름, 표현 방식, 자료의 의미와 사용 방식, 다른 자료와의 관계등을 저장
- 데이터 거버넌스의 특징
: 데이터의 가용성, 유용성, 통합성, 보안성, 안정성을 확보
: 빅데이터 프로젝트를 성공으로 이끄는 기반을 마련
: 독자적인 구축도 가능하지만 전사 차원의 IT 거버넌스나 EA의 구성요소가 될 수도 있다.
- 빅데이터 거버넌스의 특징
: 빅데이터의 효율적 관리, 다양한 데이터의 관리체계, 데이터 최적화, 정보보호, 데이터 생명주기 관리, 데이터 카테고리별 관리 책임자 지정 등 다양한 요소들을 포함할 수 있다.
- 데이터 거버넌스의 구성요소
o 원칙
: 데이터를 유지하고 관리하기 위한 지침 및 가이드
: 보안, 품질기준, 변경관리 등
o 조직
: 데이터를 관리할 조직의 역할과 책임
: 데이터 관리자, 데이터베이스 관리자, 데이터 아키텍트
o 프로세스
: 데이터 관리를 위한 활동과 체계
: 작업 절차, 모니터링 활동, 측정 활동
- 데이터 거버넌스의 체계
o 데이터 표준화
: 데이터 표준 용어 설정
: 명명 규칙 수립
: 데이터 관리 체계 (표준 데이터를 포함한 메타 데이터와 데이터 사전의 관리 원칙 수립 및 항목별 상세 프로세스)
: 데이터 저장소 관리 (메타 데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소 구성)
: 표준화 활동
6) 데이터 분석 교육 및 마인드 육성 체계
- 데이터 분석 교육 및 마인드 육성을 위한 변화 관리 필요성
- 데이터 분석 문화 도입방안 (준비기 - 도입기 - 안정 추진기)
: 적극적 도입방안
: 데이터 분석 교육방향
⑧ 데이터 분석 수준진단
1) 데이터 분석 수준진단 개요
- 분석 수준진단 필요성
- 분석 수준진단 목표
- 분석 수준진단 프레임워크
2) 분석 준비도 (Readiness)
- 분석 준비도 정의
: 조직 내 데이터 분석 업무 도입을 목적으로 현재 수준을 파악하기 위한 진단방법
- 분석준비도의 원리
: 총 6가지 영역을 대상으로 현재 수준을 파악
: 각 진단 결과 전체 요건 중 일정 수준 이상 충족하면 데이터 분석 업무를 도입
- 데이터 분석 준비도 프레임워크
o 분석 업무 파악
o 인력 및 조직
o 분석 기법
o 분석 데이터
o 분석 문화
o IT 인프라
3) 분석 성숙도 모델
- 분석 성숙도 모델의 정의
: 데이터 분석 능력 및 데이터 분석 결과 활용에 대한 조직의 성숙도 수준을 평가하여 현재 상태를 점검하는 방법
- 분석 성숙도 모델의 특징
: 비즈니스, 조직 및 역량, IT 3개 부문을 대상으로 실시
: 성숙도 수준에 따라 도입, 활용, 확산, 최적화 단계로 구분
4) 분석 수준진단 결과
- 사분면 분석
o 정착형
: 준비도는 낮으나 조직, 인력, 분석업무, 분석기법 등을 내부에서 사용하고 있어서 1차적으로 정착이 필요한 기업
o 확산형
: 기업에 필요한 6가지 분석 구성요소를 갖추고 있고, 현재 부분적으로 도입되어 지속적인 확산이 필요한 기업
o 준비형
: 기업에 필요한 데이터, 인력, 조직, 분석업무, 분석기법 등이 적용되어 있지 않아 사전준비가 필요한 기업
o 도입형
: 기업에서 활용하는 분석업무, 기법 등은 부족하지만 적용조직 등 준비도가 높아 바로 도입할 수 있는 기업
'Certificate > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사] 빅분기 필기 6일차 (0) | 2023.03.18 |
---|---|
[빅데이터분석기사] 빅분기 필기 5일차 (1) | 2023.03.13 |
[빅데이터분석기사] 빅분기 필기 4일차 (0) | 2023.03.12 |
[빅데이터분석기사] 빅분기 필기 3일차 (0) | 2023.03.07 |
[빅데이터분석기사] 빅분기 필기 1일차 (0) | 2023.03.04 |