일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 원씽 독후감
- 빅분기 필기
- ajax 비동기식
- 노트패드++ 줄바꿈
- 동기식 비동기식
- 자바 채팅
- 빅데이터분석기사 필기
- TCP 채팅
- async
- 자바스크립트 undefined
- 노트패드 줄바꿈
- xml 파싱 방법
- 자바 채팅 프로그램
- 빅분기
- ajax 동기식
- 빅분기 독학
- The OneThing
- TCP Socket
- dom sax 장단점
- dom sax 차이점
- 책 원씽
- 원씽 후기
- 빅데이터분석기사 독학
- Notepad 줄바꿈
- 빅데이터분석기사
- 간단한 채팅 프로그램
- 원씽 내용
- Notepad++ 줄바꿈
- async false
- 원씽 책
- Today
- Total
SooBlending
[빅데이터분석기사] 빅분기 필기 1일차 본문
[ 빅데이터 분석 기획 ]
<빅데이터 개요 및 활용>
① 데이터와 정보
1) 데이터의 정의
- 데이터는 추론과 추정의 근거를 이루는 사실이다.
- 현실 세계에서 관찰하거나 측정하여 수집한 사실이다.
2) 데이터의 특징
- 단순한 객체로도 가치가 있으며 다른 객체와의 상호관계 속에서 더 큰 가치를 갖는다.
- 객관적 사실이라는 존재적 특성을 갖는다.
- 추론, 추정, 예측, 전망을 위한 근거로써 당위적 특성을 갖는다.
3) 데이터의 구분
- 정량적 데이터(Quantitative Data) : 주로 숫자로 이루어진 데이터
- 정성적 데이터(Qualitative Data) : 문자와 텍스트로 구성되며 함축적 의미를 지니고 있는 데이터
정량적 데이터 | 정성적 데이터 | |
유형 | 정형, 반정형 | 비정형 |
특징 | 여러 요소의 결합으로 의미 부여 | 객체 하나가 함축된 의미 내포 |
관점 | 객관적 | 주관적 |
구성 | 수치나 기호 | 문자나 언어 |
형태 | DB, 스프레드시트 | 웹 로그, 텍스트 |
위치 | DBMS, 로컬 시스템 | 웹사이트, 모바일 플랫폼 |
분석 | 통계 분석 용이 | 통계 분석 어려움 |
4) 데이터의 유형
- 정형 데이터(Structured Data) : 정해진 형식과 구조에 맞게 저장되도록 구성된 데이터, 연산 가능
ex) RDB에 저장되는 데이터
- 반정형 데이터(Semi-structured Data) : 데이터의 형식과 구조가 비교적 유연, 스키마 정보 함께 제공, 연산 불가
ex) JSON, XML, RDF, HTML
- 비정형 데이터(Unstructured Data) : 구조가 정해지지 않은 데이터, 연산 불가
ex) 동영상, 이미지, 음성, 문서, 메일
5) 데이터 근원에 따른 분류
- 가역 데이터 : 생산된 데이터의 원본으로 일정 수준 환원이 가능한 데이터, 원본과 1:1, 이력추적 가능
- 불가역 데이터 : 생산된 데이터의 원본으로 환원이 불간으한 데이터
가역 데이터 | 불가역 데이터 | |
환원성(추적성) | 가능(비가공 데이터) | 불가능(가공 데이터) |
의존성 | 원본 데이터 그 자체 | 원본 데이터와 독립된 객체 |
원본과의 관계 | 1:1 | 1:N, M:N |
처리과정 | 탐색 | 결합 |
활용분야 | 데이터 마트, 데이터 웨어하우스 | 데이터 전처리, 프로파일 구성 |
6) 데이터의 기능
- 암묵지 : 어떠한 시행착오나 다양하고 오랜 경험을 통해 개인에게 체계화
외부에 표출되지 않은 무형의 지식으로 그 전달과 공유가 어려움
- 형식지 : 형상화된 유형의 지식, 전달과 공유가 쉬움
7) 지식창조 메커니즘
- 공통화(Socialization) : 서로의 경험이나 인식을 공유하며 한 차원 높은 암묵지로 발전
- 표출화(Externalization) : 암묵지가 구체화되어 외부(형식지)로 표현
- 연결화(Combination) : 형식지를 재분류하여 체계화
- 내면화(Internalization) : 전달받은 형식지를 다시 개인 것으로 만듦
8) 데이터, 정보, 지식, 지혜
데이터 - 정보 - 지식 - 지혜 순서
② 데이터베이스
1) 데이터베이스의 정의
- 체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물
- 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응
2) 데이터베이스 관리 시스템(DBMS)
- 관계형 DBMS : 데이터를 열과 행을 이루는 테이블로 표현하는 모델
- 객체지향 DBMS : 정보를 객체 형태로 표현하는 모델
- 네트워크 DBMS : 그래프 구조를 기반으로 하는 모델
- 계층형 DBMS : 트리 구조를 기반으로 하는 모델
- SQL : DB에 접근할 때 사용하는 언어, 질의뿐만 아니라 데이터 정의 및 조작 가능
3) 데이터베이스의 특징
- 통합된 데이터(Integrated Data) : 동일한 데이터가 중복되어 저장되지 않음
- 저장된 데이터(Stored Data) : 컴퓨터가 접근할 수 있는 저장매체에 데이터를 저장
- 공용 데이터(Shared Data) : 여러 사용자가 서로 다른 목적으로 데이터를 함께 이용
- 변화되는 데이터(Changed Data) : 데이터는 현시점의 상태를 나타내며 지속적으로 갱신
4) 데이터베이스의 활용
- OLTP(OnLine Transaction Processing)
: 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간 처리 형태의 하나로 DB의 데이터를 수시로 갱신하는 프로세싱
현 시점의 데이터만을 DB가 관리한다는 개념
- OLAP(OnLine Analytical Processing)
: 정보 위주의 분석 처리를 하는 것, OLTP에서 처리된 트랜잭션 데이터를 분석해 여러 분석을 프로세싱
다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여 의사결정에 활용 가능한 정보 제공
구분 | OLTP | OLAP |
데이터 구조 | 복잡 | 단순 |
데이터 갱신 | 동적으로 순간적 | 정적으로 주기적 |
데이터 성격 | 정규적인 핵심 데이터 | 비정규적 읽기 전용 데이터 |
데이터 크기 | 수 기가바이트 | 수 테라바이트 |
데이터 내용 | 현재 데이터 | 요약된 데이터 |
데이터 특성 | 트랜잭션 중심 | 주제 중심 |
데이터 액세스 빈도 | 높음 | 보통 |
질의 예측 결과 | 주기적이며 예측 가능 | 예측하기 어려움 |
5) 데이터 웨어하우스(DW: Data Warehouse)
사용자의 의사결정에 도움을 주기 위하여 기관시스템의 DB에 축적된 데이터를 공통의 형식으로 변환해서 관리
- 주제지향성(Subject-orientation) : 중요한 주제를 중심으로 그 주제와 관련된 데이터들로 구성
- 통합성(Integration) : 데이터가 DW에 입력될 땐 일관된 형태로 변환되며, 전시적 관점에서 통합도미
- 시계열성(Time-variant) : DW의 데이터는 일정 기간 동안 시점별로 이어진다.
- 비휘발성(Non-volatilization) : DW에 데이터가 일단 적재되면 일괄 처리 작업에 의한 갱신 이외에는 변경되지 않음
5-1) 데이터 웨어하우스 구성
- 데이터 모델(Data Model) : 주제 중심적으로 구성된 다차원의 개체-관계형 모델
- ETL(Extract,Transform,Load) : 기업의 내부 또는 외부로부터 데이터를 추출, 정재, 가공하여 DW에 적재
- ODS(Operational Data Store) : 다양한 DBMS 시스템에서 추출한 데이터를 통합적으로 관리
- DW 메타데이터 : 데이터 모델에 대한 스키마 정보와 비즈니스 측면에서 활용되는 정보를 제공
- OLAP(OnLine Analytical Processing) : 사용자가 직접 다차원 데이터를 확인할 수 있는 솔루션
- 데이터마이닝(Data Mining) : 대용량 데이터로부터 인사이트를 도출할 수 있는 방법론
- 분석 도구 : 데이터마이닝을 활용하여 DW에 적재된 데이터를 분석할 수 있는 도구
- 경영기반 솔루션 : KMS, DSS, BI 같은 경영의사결정을 지원하기 위한 솔루션
③ 빅데이터 개요
1) 빅데이터의 등장과 변화
- 사전 처리(pre-processing) → 사후 처리(post-processing)
- 표본조사 → 전수조사
- 질(quality) → 양(quantity)
- 이론적 인과관계 → 단순한 상관관계
2) 빅데이터 특징 (5V)
- 규모(Volume)
- 유형(Variety)
- 속도(Velocity)
- 품질(Veracity)
- 가치(Value)
3) 빅데이터의 활용
- 자원(Resource) : 정형, 반정형, 비정형 데이터 실시간 수집, 전처리 과정을 통해 품질 향상
- 기술(Technology) : 데이터 분산 처리, 데이터 마이닝을 통해 분석 및 시각화, AI 기술 활용
- 인력(People) : 전문지식, 도메인 지식을 습득하여 데이터 분석 및 결과 해석
3-1) 빅데이터의 활용을 위한 기본 테크닉
- 연관규칙학습 : 변인들 간 주목할 만한 상관관계가 있는지 찾아내는 방법
ex) 도시락을 구매하는 사람이 음료수를 더 많이 구매하는가
- 유형분석 : 문서를 분류하거나 조직을 그룹화할 때 사용
ex) 이것은 어떤 특성을 가진 집단에 속하는가?
- 유전 알고리즘 : 최적화가 필요한 문제를 생물 진화의 과정을 모방하여 점진적 해결책을 찾는 방법
ex) 시청률 최고치로 하기 위해 어떤 프로그램을 어떤 시간에 방송해야 하는가?
- 기계학습 : 데이터로부터 학습한 알려진 특성을 활용하여 예측
ex) 시청 기록을 바탕으로 어떤 영화를 가장 보고 싶어 하는가?
- 회귀분석 : 독립변수가 종속변수게 미치는 영향을 분석할 때 사용
ex) 경력과 학력이 연봉에 미치는 영향은?
- 감정분석 : 특정 주제에 대해 말을 하거나 글을 쓴 사람의 감정을 분석
ex) 새로운 할인 정책에 대한 고객의 평은 어떤가?
- 소셜네트워크분석 : 특정인과 다른 사람의 관계를 파악하고 영향력 있는 사람을 분석할 때 사용
ex) 고객들 간 관계망은 어떻게 구성되는가?
④ 빅데이터의 가치
1) 빅데이터의 기능과 효과
- 기존 사업자에게 경쟁 우위를 제공
- 고객 세분화 맞춤형 개인화 서비스 제공
- 알고리즘 기반으로 의사결정을 지원
- 투명성을 높혀 R&D 및 관리 효율성을 제고
2) 빅데이터의 가치 측정의 어려움
- 데이터 활용 방식 : 데이터를 누가, 언제, 어디서 활용할지 알 수 없기에 그 가치를 측정하기 어렵다.
- 가치 창출 방식 : 기존에 없던 가치를 창출할 수도 있어 사전에 그 가치를 측정하기 어렵다.
- 분석 기술 발전 : 새로운 분석 기법이 등장할 경우 큰 가치를 찾아낼 수 있으므로 당장 그 가치를 측정하기 어렵다.
- 데이터 수집 원가 : 비용이 상황에 따라 달라질 수 있어 그 가치를 측정하기 어렵다.
3) 빅데이터의 영향
- 기업에게 혁신과 경쟁력 강화, 생산성 향상의 근간이 된다.
- 정부에게 환경 탐색과 상황 분석, 미래 대응 수단을 제공한다.
- 개인에게 활용 목적에 따라 스마트화를 통해 영향을 준다.
⑤ 데이터 산업의 이해
1) 데이터 산업의 진화
처리 - 통합 - 분석 - 연결 - 권리 시대로 진화
- 데이터 처리시대
: 컴퓨터 프로그래밍 언어를 이용하여 대규모 데이터를 빠르고 정확하게 처리할 수 있게 되었으며 결과는 파일 형태
: 기업들은 EDPS(Electronic Data Processing System)를 도입하여 급여, 계산, 회계 전표 처리 등 업무에 적용
: 데이터는 업무 처리의 대상으로 새로운 가치를 제공하지는 않았다.
- 데이터 통합시대
: 데이터가 쌓이기 시작했고 전사적으로 데이터 일관성을 확보하기가 어려워졌다.
: 데이터 모델링과 데이터베이스 관리 시스템이 등장
: 데이터 조회와 보고서 산출, 원인 분석 등을 위해 DW가 도입되었다.
- 데이터 분석시대
: 데이터가 폭팔적으로 증가함
: 대규모 데이터를 보관, 관리할 수 있는 하둡, 스파크 등 빅데이터 기술이 등장
: 데이터를 학습하여 전문가보다도 정확한 의사결정을 내릴 수 있는 인공지능 기술도 상용화
: 데이터 분석을 통해 사실들의 인과관계를 밝힐 수 있고, 이를 업무에 적용
: 데이터 소비자의 역할과 활용 역량을 높이기 위한 데이터 리터러시 프로그램의 중요성도 커지고 있다.
- 데이터 연결시대
: 모든 것이 항상 그리고 동시에 둘 이상의 방식으로 연결되어 데이터를 주고 받는다.
: 디지털 경제 주축 세력인 디지털 원주민은 융합된 서비스를 원한다.
: 오픈 API 등장
- 데이터 권리시대
: 개인이 자신의 데이터를 자신을 위해서 사용한다.
: 개인이 자신의 데이터에 대한 권리를 보유하고 있으며 스스로 행사할 수 있어야 한다는 마이데이터 등장
: 데이터의 공정한 사용이 보장되어아 하며, 데이터 독점이 유발할 수 있는 경제 독점이 방지되어야 한다.
2) 데이터 산업의 구조
- 인프라 영역
: 데이터 수집, 저장, 분석 관리 등의 기능 담당
: 컴퓨터, 네트워크, 스토리지 같은 하드웨어 영역
: 데이터를 관리하고 분석하기 위한 소프트웨어 영역
- 서비스 영역
: 데이터를 활용하기 위한 교육이나 컨설팅 또는 솔루션 제공
: 데이터 그 자체를 제공하거나 이를 가공한 정보를 제공
: 데이터를 처리하는 역할을 담당하기도 함
⑥ 빅데이터 조직 및 인력
1) 조직의 구성
- 집중형
: 전사 분석 업무를 별도의 전담조직에서 수행
: 내부에서 전사 분석과제의 전략적 중요도에 따라 우선순위를 정함
: 현업 부서와 분석 업무가 중복/이원화 가능성 있음
- 기능형
: 분석 수행의 일반적 구조
: 각 현업 부서에서 분석 업무를 직접 수행
: 전사적 관적에서 전략적 핵심 분석이 어려우며, 특정 현업 부서에 국한된 협소한 분석을 수행할 가능성 높음
- 분산형
: 분석 전문 인력을 현업 부서에 배치하여 분석 업무 수행
: 전사 차원에서 분석과제의 우선순위를 선정하고 수행
: 분석 결과를 현업에 빠르게 적용 가능
2) 데이터 사이언스 역량
- 데이터 사이언스 실현을 위한 인문학적 요소 : 스토리텔링, 커뮤니케이션, 창의력, 진단력, 비판적 시각과 열정
3) 데이터 사이언티스트
- Hard Skill : 빅데이터에 대한 이론적 지식, 분석 기술에 대한 숙련
- Soft Skill : 통찰력 있는 분석, 설득력 있는 전달, 다분야 간 협력
<빅데이터 기술 및 제도>
① 빅데이터 플랫폼
빅데이터 플랫폼은 빅데이터 수집부터 저장, 처리, 분석 등 전 과정을 통합적으로 제공
1) 빅데이터 플랫폼의 등장배경
- 비즈니스 요구사항 변화
: 빠른 의사결정 속도보다 장기적이고 전략적인 접근이 필요
: 초저가의 대규모 프로세싱과 클라우드 컴퓨팅 기반의 분석 환경이 등장
- 데이터 규모와 처리 복잡도 증가
: 다양한 데이터 수집과 복잡한 로직을 이용한 대용량 처리 필요
: 분산 처리가 불가피하며 이를 제어할 수 있는 고도의 기술 필요
- 데이터 구조의 변화와 신속성 요구
: SNS 데이터, 로그, 스트림 데이터 등 비정형 데이터의 비중과 실시간 처리에 대한 요구가 증가
: 약한 관계형 스키마나 반정형 데이터와 같은 정형적이지 않은 데이터가 증가
- 데이터 분석 유연성 증대
: 유연한 분석이 가능하게 됨
: 인공지능 발전으로 다양한 방법론을 통해 텍스트, 음성, 이미지, 동영상 등 다양한 요소들 분석이 가능
2) 빅데이터 플랫폼의 기능
- 컴퓨팅 부하 제어
: CPU 성능 향상 및 클러스터에서 효과적인 자원 할당을 통해 부하를 제어
- 저장 부하 제어
: 파일 시스템 개선, 메모리와 파일 시스템의 효과적인 사용 및 DB 성능 향상으로 제어
- 네트워크 부하 제어
: 대역폭의 효과적 분배 및 네트워크 상에서 최단 거리에 위치한 노드를 탐색하여 제어
3) 빅데이터 플랫폼의 구조
- 소프트웨어 계층 : 빅데이터 어플리케이션을 구성하며 데이터 처리 및 분석, 데이터 수집, 정제
o 데이터 처리 및 분석 엔진
→ 데이터 처리 및 분석, 처리 및 분석 워크플로우 구성, 데이터 표현
o 데이터 수집 및 정제 모듈
→ 데이터 추출, 데이터 변환, 데이터 적재
o 서비스 관리 모듈
o 사용자 관리 모듈
→ 인증 및 접속 관리, 사용자 서비스 관리, SLA 관리
o 모니터링 모듈
o 보안 모듈
- 플랫폼 계층 : 어플리케이션을 실행하기 위한 플랫폼을 제공하며, 작업 스케줄링, 자원 할당 및 관리, 프로파일링 수행
o 사용자 요청 파싱
o 작업 스케줄링 모듈
o 데이터 및 자원 할당 모듈
→ 초기 데이터, 자원 할당, 데이터, 자원 재할당 및 복제
o 프로파일링 모듈
→ 자원, 애플리케이션 프로파일링, 애플리케이션 시뮬레이션
o 데이터 관리 모듈
o 자원 관리 모듈
o 서비스 관리 모듈
o 사용자 관리 모듈
→ 인증 및 접속 관리, 사용자 서비스 관리, SLA 관리
o 모니터링 모듈
o 보안 모듈
- 인프라스트럭처 계층 : 자원 배치와 스토리지 관리, 노드 및 네트워크 관리 등을 통해 처리 및 분석에 필요한 자원 제공
o 사용자 요청 파싱
o 자원 배치 모듈
→ 초기 자원 배치, 자원 재배치 및 스케일링
o 노드 관리 모듈
o 데이터 관리 모듈
o 네트워크 관리 모듈
o 서비스 관리 모듈
o 사용자 관리 모듈
→ 인증 및 접속 관리, 사용자 서비스 관리, SLA 관리
o 모니터링 모듈
o 보안 모듈
② 빅데이터 처리 기술
1) 빅데이터 처리과정과 요소기술
데이터(생성) - 수집 - 저장(공유) - 처리 - 분석 - 시각화
- 생성
: DB나 파일 관리 시스템과 같은 내부 데이터가 있다.
: 인터넷으로 연결된 외부로부터 생성된 파일이나 데이터가 있다.
- 수집
: 크롤링을 통해 데이터 원천으로부터 데이터를 검색하여 수집한다.
: ETL을 통해 소스 데이터로부터 추출하고, 변환하여, 적재한다.
: 단순한 수집이 아니라 검색 및 수집, 변환 과정을 모두 포함한다.
: 로그 수집기나, 센서 네트워크 및 오픈 API 등을 활용할 수 있다.
- 저장(공유)
: 저렴한 비용으로 데이터를 쉽고 빠르게 많이 저장한다.
: 정형 데이터뿐만 아니라 반정형, 비정형 데이터도 포함한다.
: 병렬 DBMS나 하둡, NoSQL 등 다양한 기술을 사용할 수 있다.
: 시스템 간의 데이터를 서로 공유할 수 있다.
- 처리
: 데이터를 효과적으로 처리하는 기술이 필요한 단계이다.
: 분산 병렬 및 인메모리 방식으로 실시간 처리한다.
: 대표적으로 하둡, 맵리듀스를 활용할 수 있다.
- 분석
: 데이터를 신속하고 정확하게 분석하여 비즈니스에 기여한다.
: 특정 분야 및 목적의 특성에 맞는 분석 기법 선택이 중요하다.
: 통계분석, 데이터 마이닝, 텍스트 마이닝, 기계학습 방법 등이 있다.
- 시각화
: 처리 및 분석 결과를 표, 그래프 등을 이용해 쉽게 표현하고 탐색이나 해석에 활용한다.
: 정보 시각화 기술, 시각화 도구, 편집 기술, 실시간 자료 시각화 기술로 구성되어 있다.
2) 빅데이터 수집
- 크롤링(Crawling)
: 무수히 많은 컴퓨터에 분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술
- 로그 수집기
: 조집 내부에 있는 웹 서버나 시스템의 로그를 수집하는 소프트웨어
- 센서 네트워크(Sensor Network)
: 유비쿼터스 컴퓨팅 구현을 위한 초경량 저전력의 많은 센서들로 구성된 유무선 네트워크
- RSS Reader/Open API
: 데이터의 생산, 공유, 참여할 수 있는 환경인 웹 2.0을 구현하는 기술
- ETL 프로세스
: 다양한 원천 데이터를 취합해 추출하고 공통된 형식으로 변화하여 적재하는 과정
3) 빅데이터 저장
- NoSQL(Not-only SQL)
: 기존의 RDBMS 트랜잭션 속성인 원자성, 일관성, 독립성, 지속성을 포기
: 데이터 업데이트가 즉각적으로 가능한 데이터 저장소
: Cloudata, Hbase, Cassandra, MongoDB 등
- 공유 데이터 시스템(Shared-data System)
: 일관성, 가용성, 분할 내성 중에서 최대 두 개의 속성만 보유할 수 있다. (CAP 이론)
: 분할 내성을 취하고 일관성과 가용성 중 하나를 포기하여 RDBMS보다 높은 성능과 확장성 제공
- 병렬 데이터베이스 관리 시스템(Parallel DBMS)
: 다수의 마이크로프로세서를 사용하여 여러 디스크에 질의, 갱신, 입출령 등 DB 처리를 동시에 수행
: 확장성을 제공하기 위해 작은 단위의 동작으로도 트랜잭션 적용이 필요
: VoltDB, SAP HANA, Vertica, Greenplum, Netezza 등
- 분산 파일 시스템
: 네트워크로 공유하는 여러 호스트 파일에 접근할 수 있는 파일 시스템
: 데이터를 분산하여 저장하면 데이터 추출 및 가공 시 빠르게 처리할 수 있다.
: GFS(Google File System), HDFS(Hadoop Distributed File System), 아마존 S3 파일 시스템 등
- 네트워크 저장 시스템
: 이기종 데이터 저장 장치를 하나의 데이터 서버에 연결하여 총괄적으로 데이터를 저장 및 관리하는 시스템
: SAN(Storage Area Network), NAS(Network Attached Storage) 등
4) 빅데이터 처리
- 분산 시스템
: 네트워크 상에 분산되어 있는 컴퓨터를 단일 시스템인 것처럼 구동하는 기술
: 분산 시스템에 속한 각 노드는 독립된 시스템
: 독립 컴퓨터의 집합으로 만들었으나 마치 단일 시스템인 것처럼 수행되어야 한다.
- 병렬 시스템
: 문제 해결을 위해 CPU 등의 자원을 데이터 버스나 지역 통신 시스템 등으로 연결하여 구동하는 기술
: 분할된 작업을 동시에 처리하여 계산 속도를 빠르게 함
- 분산 병렬 컴퓨팅
: 다수의 독립된 컴퓨팅 자원을 네트워크상에 연결하여 이를 제어하는 미들웨어를 이용해 하나의 시스템으로 동작
- 하둡(Hadoop)
: 분산 처리 환경에서 대용량 데이터 처리 및 분석을 지원하는 오픈 소스 소프트웨어 프레임워크
: HDFS, Hbase, 맵리듀스로 구성
: 분산파일시스템을 통해 수 천대의 장비에 대용량 파일을 나누어 저장할 수 있는 기능을 제공
: 분산파일시스템에 저장된 대용량 데이터들을 맵리듀스를 이용하여 실시간으로 처리 및 분석 가능
- 아파치 스파크(Apache Spark)
: 실시간 분산형 컴퓨팅 플랫폼으로 인메모리 방식으로 처리하며 하둡보다 처리속도가 빠름
: 스칼라, Java, R, 파이썬 지원
- 맵리듀스(MapRedue)
: 구글에서 개발한 방대한 양의 데이터를 신속하게 처리하는 프로그래밍 모듈로 효과적인 병렬 및 분산처리 지원
: 런타임에서의 데이터 분할, 작업 스케줄링, 노드 고장, 노드 간의 데이터 전송 작업이 처리 성능에 많은 영향 미침
: 맵리듀스의 처리단계
(1단계) 입력 데이터를 읽고 분할한다.
(2단계) 분할된 데이터를 할당해 맵 작업을 수행한 후, 그 결과인 중간 데이터를 통합 및 재분할
(3단계) 통합 및 재분할된 중간 데이터를 셔플
(4단계) 셔플된 중간 데이터를 이용해 리듀스 작업을 수행
(5단계) 출력 데이터를 생성하고, 맵리듀스 처리를 종료
5) 빅데이터 분석
- 데이터 분석 방법의 분류
o 탐구 요인 분석(EFA:Exploratory Factor Analysis)
→ 데이터 간 상호 관계를 파악하여 데이터를 분석하는 방법
o 확인 요인 분석(CFA:Confirmatory Factor Analysis)
→ 관찰된 변수들의 집합 요소 구조를 파악하기 위한 통계적 기법을 통해 데이터를 분석하는 방법
- 데이터 분석 방법
o 분류(Classification)
: 미리 알려진 클래스들로 구분되는 학습 데이터셋을 학습시켜 새로 추가되는 데이터가 속할 만한 데이터셋을 찾는 지도학습 방법
o 군집화(Clustering)
: 특성이 비슷한 데이터를 하나의 그룹으로 분류하는 방법으로, 분류와 달리 학습 데이터셋을 이용하지 않는 비지도 학습 방법
o 기계학습(Machine Learning)
: 의사결정트리 등 기호적 학습과 신경망이나 유전 알고리즘 등 비기호적 학습, 베이지 안이나 은닉 마코프 등 확률적 학습 등 아양한 기법
o 텍스트 마이닝(Text Mining)
: 자연어 처리 기술을 이용해 인간의 언어로 쓰인 비정형 텍스트에서 유용한 정보를 추출하거나 다른 데이터와의 연관성을 파악하기 위한 방법
: 분류나 군집화 등 빅데이터에 숨겨진 의미 있는 정보를 발견하는데 사용하기도 함
o 웹 마이닝(Web Mining)
: 인터넷을 통해 수집한 정보를 데이터 마이닝 방법으로 분석 응용
o 오피니언 마이닝(Opinion Mining)
: 온라인의 다양한 뉴스와 소셜 미디어 코멘트 또는 사용자가 만든 콘텐츠에서 표현된 의견을 추출, 분류, 이해 응용
o 리얼리티 마이닝(Reality Mining)
: 휴대폰 등 기기를 사용하여 인간관계와 행동 양태 등을 추론하는 응용분야
o 소셜 네트워크 분석(Social Network Analysis)
: 수학의 그래프 이론을 바탕으로 소셜 네트워크 서비스에서 네트워크 연결 구조와 강도를 분석하여 사용자의 명성 및 영향력을 측정하는 방법
o 감성 분석(Sentiment Analysis)
: 문장의 의미를 파악하여 글의 내용에 긍정 또는 부정 등을 분류하거나 지수화하는 방법
: 도출된 지수를 이용하여 고객의 감성 트렌드를 시계열로 분석하고, 고객의 감성변화에 기업들이 신속하게 대응 및 부정적인 의견의 확산을 방지하는게 활용
'Certificate > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사] 빅분기 필기 6일차 (0) | 2023.03.18 |
---|---|
[빅데이터분석기사] 빅분기 필기 5일차 (1) | 2023.03.13 |
[빅데이터분석기사] 빅분기 필기 4일차 (0) | 2023.03.12 |
[빅데이터분석기사] 빅분기 필기 3일차 (0) | 2023.03.07 |
[빅데이터분석기사] 빅분기 필기 2일차 (0) | 2023.03.05 |