SooBlending

[빅데이터분석기사] 빅분기 필기 1일차 본문

Certificate/빅데이터분석기사

[빅데이터분석기사] 빅분기 필기 1일차

블랜더 2023. 3. 4. 18:16

[ 빅데이터 분석 기획 ]

<빅데이터 개요 및 활용>

① 데이터와 정보

1) 데이터의 정의

- 데이터는 추론과 추정의 근거를 이루는 사실이다.

- 현실 세계에서 관찰하거나 측정하여 수집한 사실이다.

 

2) 데이터의 특징

- 단순한 객체로도 가치가 있으며 다른 객체와의 상호관계 속에서 더 큰 가치를 갖는다.

- 객관적 사실이라는 존재적 특성을 갖는다.

- 추론, 추정, 예측, 전망을 위한 근거로써 당위적 특성을 갖는다.

 

3) 데이터의 구분

- 정량적 데이터(Quantitative Data) : 주로 숫자로 이루어진 데이터

- 정성적 데이터(Qualitative Data) : 문자와 텍스트로 구성되며 함축적 의미를 지니고 있는 데이터

  정량적 데이터 정성적 데이터
유형 정형, 반정형 비정형
특징 여러 요소의 결합으로 의미 부여 객체 하나가 함축된 의미 내포
관점 객관적 주관적
구성 수치나 기호 문자나 언어
형태 DB, 스프레드시트 웹 로그, 텍스트
위치 DBMS, 로컬 시스템 웹사이트, 모바일 플랫폼
분석 통계 분석 용이 통계 분석 어려움

 

4) 데이터의 유형

- 정형 데이터(Structured Data) : 정해진 형식과 구조에 맞게 저장되도록 구성된 데이터, 연산 가능

  ex) RDB에 저장되는 데이터

- 반정형 데이터(Semi-structured Data) : 데이터의 형식과 구조가 비교적 유연, 스키마 정보 함께 제공, 연산 불가

  ex) JSON, XML, RDF, HTML

- 비정형 데이터(Unstructured Data) : 구조가 정해지지 않은 데이터, 연산 불가

  ex) 동영상, 이미지, 음성, 문서, 메일

 

5) 데이터 근원에 따른 분류

- 가역 데이터 : 생산된 데이터의 원본으로 일정 수준 환원이 가능한 데이터, 원본과 1:1, 이력추적 가능

- 불가역 데이터 : 생산된 데이터의 원본으로 환원이 불간으한 데이터

  가역 데이터 불가역 데이터
환원성(추적성) 가능(비가공 데이터) 불가능(가공 데이터)
의존성 원본 데이터 그 자체 원본 데이터와 독립된 객체
원본과의 관계 1:1 1:N, M:N
처리과정 탐색 결합
활용분야 데이터 마트, 데이터 웨어하우스 데이터 전처리, 프로파일 구성

 

6) 데이터의 기능

- 암묵지 : 어떠한 시행착오나 다양하고 오랜 경험을 통해 개인에게 체계화

                외부에 표출되지 않은 무형의 지식으로 그 전달과 공유가 어려움

- 형식지 : 형상화된 유형의 지식, 전달과 공유가 쉬움

 

7) 지식창조 메커니즘

- 공통화(Socialization) : 서로의 경험이나 인식을 공유하며 한 차원 높은 암묵지로 발전

- 표출화(Externalization) : 암묵지가 구체화되어 외부(형식지)로 표현

- 연결화(Combination) : 형식지를 재분류하여 체계화

- 내면화(Internalization) : 전달받은 형식지를 다시 개인 것으로 만듦

 

8) 데이터, 정보, 지식, 지혜

데이터 - 정보 - 지식 - 지혜 순서


② 데이터베이스

1) 데이터베이스의 정의

- 체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물

- 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응

 

2) 데이터베이스 관리 시스템(DBMS)

- 관계형 DBMS : 데이터를 열과 행을 이루는 테이블로 표현하는 모델

- 객체지향 DBMS : 정보를 객체 형태로 표현하는 모델

- 네트워크 DBMS : 그래프 구조를 기반으로 하는 모델

- 계층형 DBMS : 트리 구조를 기반으로 하는 모델

- SQL : DB에 접근할 때 사용하는 언어, 질의뿐만 아니라 데이터 정의 및 조작 가능

 

3) 데이터베이스의 특징

- 통합된 데이터(Integrated Data) : 동일한 데이터가 중복되어 저장되지 않음

- 저장된 데이터(Stored Data) : 컴퓨터가 접근할 수 있는 저장매체에 데이터를 저장

- 공용 데이터(Shared Data) : 여러 사용자가 서로 다른 목적으로 데이터를 함께 이용

- 변화되는 데이터(Changed Data) : 데이터는 현시점의 상태를 나타내며 지속적으로 갱신

 

4) 데이터베이스의 활용

- OLTP(OnLine Transaction Processing)

  : 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간 처리 형태의 하나로 DB의 데이터를 수시로 갱신하는 프로세싱

   현 시점의 데이터만을 DB가 관리한다는 개념

- OLAP(OnLine Analytical Processing)

  : 정보 위주의 분석 처리를 하는 것, OLTP에서 처리된 트랜잭션 데이터를 분석해 여러 분석을 프로세싱

    다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여 의사결정에 활용 가능한 정보 제공

구분 OLTP OLAP
데이터 구조 복잡 단순
데이터 갱신 동적으로 순간적 정적으로 주기적
데이터 성격 정규적인 핵심 데이터 비정규적 읽기 전용 데이터
데이터 크기 수 기가바이트 수 테라바이트
데이터 내용 현재 데이터 요약된 데이터
데이터 특성 트랜잭션 중심 주제 중심
데이터 액세스 빈도 높음 보통
질의 예측 결과 주기적이며 예측 가능 예측하기 어려움

 

5) 데이터 웨어하우스(DW: Data Warehouse)

사용자의 의사결정에 도움을 주기 위하여 기관시스템의 DB에 축적된 데이터를 공통의 형식으로 변환해서 관리

- 주제지향성(Subject-orientation) : 중요한 주제를 중심으로 그 주제와 관련된 데이터들로 구성

- 통합성(Integration) : 데이터가 DW에 입력될 땐 일관된 형태로 변환되며, 전시적 관점에서 통합도미

- 시계열성(Time-variant) : DW의 데이터는 일정 기간 동안 시점별로 이어진다.

- 비휘발성(Non-volatilization) : DW에 데이터가 일단 적재되면 일괄 처리 작업에 의한 갱신 이외에는 변경되지 않음

 

5-1) 데이터 웨어하우스 구성

- 데이터 모델(Data Model) : 주제 중심적으로 구성된 다차원의 개체-관계형 모델

- ETL(Extract,Transform,Load) : 기업의 내부 또는 외부로부터 데이터를 추출, 정재, 가공하여 DW에 적재

- ODS(Operational Data Store) : 다양한 DBMS 시스템에서 추출한 데이터를 통합적으로 관리

- DW 메타데이터 : 데이터 모델에 대한 스키마 정보와 비즈니스 측면에서 활용되는 정보를 제공

- OLAP(OnLine Analytical Processing) : 사용자가 직접 다차원 데이터를 확인할 수 있는 솔루션

- 데이터마이닝(Data Mining) : 대용량 데이터로부터 인사이트를 도출할 수 있는 방법론

- 분석 도구 : 데이터마이닝을 활용하여 DW에 적재된 데이터를 분석할 수 있는 도구

- 경영기반 솔루션 : KMS, DSS, BI 같은 경영의사결정을 지원하기 위한 솔루션


③ 빅데이터 개요

1) 빅데이터의 등장과 변화

- 사전 처리(pre-processing) → 사후 처리(post-processing)

- 표본조사 → 전수조사

- 질(quality) → 양(quantity)

- 이론적 인과관계 → 단순한 상관관계

 

2) 빅데이터 특징 (5V)

- 규모(Volume)

- 유형(Variety)

- 속도(Velocity)

- 품질(Veracity)

- 가치(Value)

 

3) 빅데이터의 활용

- 자원(Resource) : 정형, 반정형, 비정형 데이터 실시간 수집, 전처리 과정을 통해 품질 향상

- 기술(Technology) : 데이터 분산 처리, 데이터 마이닝을 통해 분석 및 시각화, AI 기술 활용

- 인력(People) : 전문지식, 도메인 지식을 습득하여 데이터 분석 및 결과 해석

 

3-1) 빅데이터의 활용을 위한 기본 테크닉

- 연관규칙학습 : 변인들 간 주목할 만한 상관관계가 있는지 찾아내는 방법

ex) 도시락을 구매하는 사람이 음료수를 더 많이 구매하는가

- 유형분석 : 문서를 분류하거나 조직을 그룹화할 때 사용

ex) 이것은 어떤 특성을 가진 집단에 속하는가?

- 유전 알고리즘 : 최적화가 필요한 문제를 생물 진화의 과정을 모방하여 점진적 해결책을 찾는 방법

ex) 시청률 최고치로 하기 위해 어떤 프로그램을 어떤 시간에 방송해야 하는가?

- 기계학습 : 데이터로부터 학습한 알려진 특성을 활용하여 예측

ex) 시청 기록을 바탕으로 어떤 영화를 가장 보고 싶어 하는가?

- 회귀분석 : 독립변수가 종속변수게 미치는 영향을 분석할 때 사용

ex) 경력과 학력이 연봉에 미치는 영향은?

- 감정분석 : 특정 주제에 대해 말을 하거나 글을 쓴 사람의 감정을 분석

ex) 새로운 할인 정책에 대한 고객의 평은 어떤가?

- 소셜네트워크분석 : 특정인과 다른 사람의 관계를 파악하고 영향력 있는 사람을 분석할 때 사용

ex) 고객들 간 관계망은 어떻게 구성되는가?


④ 빅데이터의 가치

1) 빅데이터의 기능과 효과

- 기존 사업자에게 경쟁 우위를 제공

- 고객 세분화 맞춤형 개인화 서비스 제공

- 알고리즘 기반으로 의사결정을 지원

- 투명성을 높혀 R&D 및 관리 효율성을 제고

 

2) 빅데이터의 가치 측정의 어려움

- 데이터 활용 방식 : 데이터를 누가, 언제, 어디서 활용할지 알 수 없기에 그 가치를 측정하기 어렵다.

- 가치 창출 방식 : 기존에 없던 가치를 창출할 수도 있어 사전에 그 가치를 측정하기 어렵다.

- 분석 기술 발전 : 새로운 분석 기법이 등장할 경우 큰 가치를 찾아낼 수 있으므로 당장 그 가치를 측정하기 어렵다.

- 데이터 수집 원가 : 비용이 상황에 따라 달라질 수 있어 그 가치를 측정하기 어렵다.

 

3) 빅데이터의 영향

- 기업에게 혁신과 경쟁력 강화, 생산성 향상의 근간이 된다.

- 정부에게 환경 탐색과 상황 분석, 미래 대응 수단을 제공한다.

- 개인에게 활용 목적에 따라 스마트화를 통해 영향을 준다.


⑤ 데이터 산업의 이해

1) 데이터 산업의 진화

처리 - 통합 - 분석 - 연결 - 권리 시대로 진화

- 데이터 처리시대

  : 컴퓨터 프로그래밍 언어를 이용하여 대규모 데이터를 빠르고 정확하게 처리할 수 있게 되었으며 결과는 파일 형태

  : 기업들은 EDPS(Electronic Data Processing System)를 도입하여 급여, 계산, 회계 전표 처리 등 업무에 적용

  : 데이터는 업무 처리의 대상으로 새로운 가치를 제공하지는 않았다.

- 데이터 통합시대

  : 데이터가 쌓이기 시작했고 전사적으로 데이터 일관성을 확보하기가 어려워졌다.

  : 데이터 모델링과 데이터베이스 관리 시스템이 등장

  : 데이터 조회와 보고서 산출, 원인 분석 등을 위해 DW가 도입되었다.

- 데이터 분석시대

  : 데이터가 폭팔적으로 증가함

  : 대규모 데이터를 보관, 관리할 수 있는 하둡, 스파크 등 빅데이터 기술이 등장

  : 데이터를 학습하여 전문가보다도 정확한 의사결정을 내릴 수 있는 인공지능 기술도 상용화

  : 데이터 분석을 통해 사실들의 인과관계를 밝힐 수 있고, 이를 업무에 적용

  : 데이터 소비자의 역할과 활용 역량을 높이기 위한 데이터 리터러시 프로그램의 중요성도 커지고 있다.

- 데이터 연결시대

  : 모든 것이 항상 그리고 동시에 둘 이상의 방식으로 연결되어 데이터를 주고 받는다.

  : 디지털 경제 주축 세력인 디지털 원주민은 융합된 서비스를 원한다.

  : 오픈 API 등장

- 데이터 권리시대

  : 개인이 자신의 데이터를 자신을 위해서 사용한다.

  : 개인이 자신의 데이터에 대한 권리를 보유하고 있으며 스스로 행사할 수 있어야 한다는 마이데이터 등장

  : 데이터의 공정한 사용이 보장되어아 하며, 데이터 독점이 유발할 수 있는 경제 독점이 방지되어야 한다.

 

2) 데이터 산업의 구조

- 인프라 영역

  : 데이터 수집, 저장, 분석 관리 등의 기능 담당

  : 컴퓨터, 네트워크, 스토리지 같은 하드웨어 영역

  : 데이터를 관리하고 분석하기 위한 소프트웨어 영역

- 서비스 영역

  : 데이터를 활용하기 위한 교육이나 컨설팅 또는 솔루션 제공

  : 데이터 그 자체를 제공하거나 이를 가공한 정보를 제공

  : 데이터를 처리하는 역할을 담당하기도 함


⑥ 빅데이터 조직 및 인력

1)  조직의 구성

- 집중형

  : 전사 분석 업무를 별도의 전담조직에서 수행

  : 내부에서 전사 분석과제의 전략적 중요도에 따라 우선순위를 정함

  : 현업 부서와 분석 업무가 중복/이원화 가능성 있음

- 기능형

  : 분석 수행의 일반적 구조

  : 각 현업 부서에서 분석 업무를 직접 수행

  : 전사적 관적에서 전략적 핵심 분석이 어려우며, 특정 현업 부서에 국한된 협소한 분석을 수행할 가능성 높음

- 분산형

  : 분석 전문 인력을 현업 부서에 배치하여 분석 업무 수행

  : 전사 차원에서 분석과제의 우선순위를 선정하고 수행

  : 분석 결과를 현업에 빠르게 적용 가능

 

2) 데이터 사이언스 역량

- 데이터 사이언스 실현을 위한 인문학적 요소 : 스토리텔링, 커뮤니케이션, 창의력, 진단력, 비판적 시각과 열정

 

3) 데이터 사이언티스트

- Hard Skill : 빅데이터에 대한 이론적 지식, 분석 기술에 대한 숙련

- Soft Skill : 통찰력 있는 분석, 설득력 있는 전달, 다분야 간 협력


<빅데이터 기술 및 제도>

① 빅데이터 플랫폼

빅데이터 플랫폼은 빅데이터 수집부터 저장, 처리, 분석 등 전 과정을 통합적으로 제공

 

1) 빅데이터 플랫폼의 등장배경

- 비즈니스 요구사항 변화

  : 빠른 의사결정 속도보다 장기적이고 전략적인 접근이 필요

  : 초저가의 대규모 프로세싱과 클라우드 컴퓨팅 기반의 분석 환경이 등장

- 데이터 규모와 처리 복잡도 증가

  : 다양한 데이터 수집과 복잡한 로직을 이용한 대용량 처리 필요

  : 분산 처리가 불가피하며 이를 제어할 수 있는 고도의 기술 필요

- 데이터 구조의 변화와 신속성 요구

  : SNS 데이터, 로그, 스트림 데이터 등 비정형 데이터의 비중과 실시간 처리에 대한 요구가 증가

  : 약한 관계형 스키마나 반정형 데이터와 같은 정형적이지 않은 데이터가 증가

- 데이터 분석 유연성 증대

  : 유연한 분석이 가능하게 됨

  : 인공지능 발전으로 다양한 방법론을 통해 텍스트, 음성, 이미지, 동영상 등 다양한 요소들 분석이 가능

 

2) 빅데이터 플랫폼의 기능

- 컴퓨팅 부하 제어

  : CPU 성능 향상 및 클러스터에서 효과적인 자원 할당을 통해 부하를 제어

- 저장 부하 제어

  : 파일 시스템 개선, 메모리와 파일 시스템의 효과적인 사용 및 DB 성능 향상으로 제어

- 네트워크 부하 제어

  : 대역폭의 효과적 분배 및 네트워크 상에서 최단 거리에 위치한 노드를 탐색하여 제어

 

3) 빅데이터 플랫폼의 구조

- 소프트웨어 계층 : 빅데이터 어플리케이션을 구성하며 데이터 처리 및 분석, 데이터 수집, 정제

  o 데이터 처리 및 분석 엔진

  → 데이터 처리 및 분석, 처리 및 분석 워크플로우 구성, 데이터 표현

  o 데이터 수집 및 정제 모듈

   데이터 추출, 데이터 변환, 데이터 적재

  o 서비스 관리 모듈

  o 사용자 관리 모듈

  → 인증 및 접속 관리, 사용자 서비스 관리, SLA 관리

  o 모니터링 모듈

  o 보안 모듈

 

- 플랫폼 계층 : 어플리케이션을 실행하기 위한 플랫폼을 제공하며, 작업 스케줄링, 자원 할당 및 관리, 프로파일링 수행

  o 사용자 요청 파싱

  o 작업 스케줄링 모듈

  o 데이터 및 자원 할당 모듈

   초기 데이터, 자원 할당, 데이터, 자원 재할당 및 복제

  o 프로파일링 모듈

   자원, 애플리케이션 프로파일링, 애플리케이션 시뮬레이션

  o 데이터 관리 모듈

  o 자원 관리 모듈

  o 서비스 관리 모듈

  o 사용자 관리 모듈

 → 인증 및 접속 관리, 사용자 서비스 관리, SLA 관리

  o 모니터링 모듈

  o 보안 모듈

 

- 인프라스트럭처 계층 : 자원 배치와 스토리지 관리, 노드 및 네트워크 관리 등을 통해 처리 및 분석에 필요한 자원 제공

  o 사용자 요청 파싱

  o 자원 배치 모듈

  초기 자원 배치, 자원 재배치 및 스케일링

  o 노드 관리 모듈

  o 데이터 관리 모듈

  o 네트워크 관리 모듈

  o 서비스 관리 모듈

  o 사용자 관리 모듈

 → 인증 및 접속 관리, 사용자 서비스 관리, SLA 관리

  o 모니터링 모듈

  o 보안 모듈


② 빅데이터 처리 기술

1) 빅데이터 처리과정과 요소기술

데이터(생성) - 수집 - 저장(공유) - 처리 - 분석 - 시각화

 

- 생성

  : DB나 파일 관리 시스템과 같은 내부 데이터가 있다.

  : 인터넷으로 연결된 외부로부터 생성된 파일이나 데이터가 있다.

- 수집

  : 크롤링을 통해 데이터 원천으로부터 데이터를 검색하여 수집한다.

  : ETL을 통해 소스 데이터로부터 추출하고, 변환하여, 적재한다.

  : 단순한 수집이 아니라 검색 및 수집, 변환 과정을 모두 포함한다.

  : 로그 수집기나, 센서 네트워크 및 오픈 API 등을 활용할 수 있다.

- 저장(공유)

  : 저렴한 비용으로 데이터를 쉽고 빠르게 많이 저장한다.

  : 정형 데이터뿐만 아니라 반정형, 비정형 데이터도 포함한다.

  : 병렬 DBMS나 하둡, NoSQL 등 다양한 기술을 사용할 수 있다.

  : 시스템 간의 데이터를 서로 공유할 수 있다.

- 처리

  : 데이터를 효과적으로 처리하는 기술이 필요한 단계이다.

  : 분산 병렬 및 인메모리 방식으로 실시간 처리한다.

  : 대표적으로 하둡, 맵리듀스를 활용할 수 있다.

- 분석

  : 데이터를 신속하고 정확하게 분석하여 비즈니스에 기여한다.

  : 특정 분야 및 목적의 특성에 맞는 분석 기법 선택이 중요하다.

  : 통계분석, 데이터 마이닝, 텍스트 마이닝, 기계학습 방법 등이 있다.

- 시각화

  : 처리 및 분석 결과를 표, 그래프 등을 이용해 쉽게 표현하고 탐색이나 해석에 활용한다.

  : 정보 시각화 기술, 시각화 도구, 편집 기술, 실시간 자료 시각화 기술로 구성되어 있다.

 

 

2) 빅데이터 수집

- 크롤링(Crawling)

  : 무수히 많은 컴퓨터에 분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술

- 로그 수집기

  : 조집 내부에 있는 웹 서버나 시스템의 로그를 수집하는 소프트웨어

- 센서 네트워크(Sensor Network)

  : 유비쿼터스 컴퓨팅 구현을 위한 초경량 저전력의 많은 센서들로 구성된 유무선 네트워크

- RSS Reader/Open API

  : 데이터의 생산, 공유, 참여할 수 있는 환경인 웹 2.0을 구현하는 기술

- ETL 프로세스

  : 다양한 원천 데이터를 취합해 추출하고 공통된 형식으로 변화하여 적재하는 과정

 

3) 빅데이터 저장

- NoSQL(Not-only SQL)

  : 기존의 RDBMS 트랜잭션 속성인 원자성, 일관성, 독립성, 지속성을 포기

  : 데이터 업데이트가 즉각적으로 가능한 데이터 저장소

  : Cloudata, Hbase, Cassandra, MongoDB 등

- 공유 데이터 시스템(Shared-data System)

  : 일관성, 가용성, 분할 내성 중에서 최대 두 개의 속성만 보유할 수 있다. (CAP 이론)

  : 분할 내성을 취하고 일관성과 가용성 중 하나를 포기하여 RDBMS보다 높은 성능과 확장성 제공

- 병렬 데이터베이스 관리 시스템(Parallel DBMS)

  : 다수의 마이크로프로세서를 사용하여 여러 디스크에 질의, 갱신, 입출령 등 DB 처리를 동시에 수행

  : 확장성을 제공하기 위해 작은 단위의 동작으로도 트랜잭션 적용이 필요

  : VoltDB, SAP HANA, Vertica, Greenplum, Netezza 등

- 분산 파일 시스템

  : 네트워크로 공유하는 여러 호스트 파일에 접근할 수 있는 파일 시스템

  : 데이터를 분산하여 저장하면 데이터 추출 및 가공 시 빠르게 처리할 수 있다.

  : GFS(Google File System), HDFS(Hadoop Distributed File System), 아마존 S3 파일 시스템 등

- 네트워크 저장 시스템

  : 이기종 데이터 저장 장치를 하나의 데이터 서버에 연결하여 총괄적으로 데이터를 저장 및 관리하는 시스템

  : SAN(Storage Area Network), NAS(Network Attached Storage) 등

 

4) 빅데이터 처리

- 분산 시스템

  : 네트워크 상에 분산되어 있는 컴퓨터를 단일 시스템인 것처럼 구동하는 기술

  : 분산 시스템에 속한 각 노드는 독립된 시스템

  : 독립 컴퓨터의 집합으로 만들었으나 마치 단일 시스템인 것처럼 수행되어야 한다.

- 병렬 시스템

  : 문제 해결을 위해 CPU 등의 자원을 데이터 버스나 지역 통신 시스템 등으로 연결하여 구동하는 기술

  : 분할된 작업을 동시에 처리하여 계산 속도를 빠르게 함

- 분산 병렬 컴퓨팅

  : 다수의 독립된 컴퓨팅 자원을 네트워크상에 연결하여 이를 제어하는 미들웨어를 이용해 하나의 시스템으로 동작

- 하둡(Hadoop)

  : 분산 처리 환경에서 대용량 데이터 처리 및 분석을 지원하는 오픈 소스 소프트웨어 프레임워크

  : HDFS, Hbase, 맵리듀스로 구성

  : 분산파일시스템을 통해 수 천대의 장비에 대용량 파일을 나누어 저장할 수 있는 기능을 제공

  : 분산파일시스템에 저장된 대용량 데이터들을 맵리듀스를 이용하여 실시간으로 처리 및 분석 가능

- 아파치 스파크(Apache Spark)

  : 실시간 분산형 컴퓨팅 플랫폼으로 인메모리 방식으로 처리하며 하둡보다 처리속도가 빠름

  : 스칼라, Java, R, 파이썬 지원

- 맵리듀스(MapRedue)

  : 구글에서 개발한 방대한 양의 데이터를 신속하게 처리하는 프로그래밍 모듈로 효과적인 병렬 및 분산처리 지원

  : 런타임에서의 데이터 분할, 작업 스케줄링, 노드 고장, 노드 간의 데이터 전송 작업이 처리 성능에 많은 영향 미침

  : 맵리듀스의 처리단계

   (1단계) 입력 데이터를 읽고 분할한다.

   (2단계) 분할된 데이터를 할당해 맵 작업을 수행한 후, 그 결과인 중간 데이터를 통합 및 재분할

   (3단계) 통합 및 재분할된 중간 데이터를 셔플

   (4단계) 셔플된 중간 데이터를 이용해 리듀스 작업을 수행

   (5단계) 출력 데이터를 생성하고, 맵리듀스 처리를 종료

 

5) 빅데이터 분석

- 데이터 분석 방법의 분류

  o 탐구 요인 분석(EFA:Exploratory Factor Analysis) 

  데이터 간 상호 관계를 파악하여 데이터를 분석하는 방법

  o 확인 요인 분석(CFA:Confirmatory Factor Analysis)

  관찰된 변수들의 집합 요소 구조를 파악하기 위한 통계적 기법을 통해 데이터를 분석하는 방법

- 데이터 분석 방법

  o 분류(Classification)

  : 미리 알려진 클래스들로 구분되는 학습 데이터셋을 학습시켜 새로 추가되는 데이터가 속할 만한 데이터셋을 찾는 지도학습 방법

  o 군집화(Clustering)

  : 특성이 비슷한 데이터를 하나의 그룹으로 분류하는 방법으로, 분류와 달리 학습 데이터셋을 이용하지 않는 비지도 학습 방법

  o 기계학습(Machine Learning)

  : 의사결정트리 등 기호적 학습과 신경망이나 유전 알고리즘 등 비기호적 학습, 베이지 안이나 은닉 마코프 등 확률적 학습 등 아양한 기법

  o 텍스트 마이닝(Text Mining)

  : 자연어 처리 기술을 이용해 인간의 언어로 쓰인 비정형 텍스트에서 유용한 정보를 추출하거나 다른 데이터와의 연관성을 파악하기 위한 방법

  : 분류나 군집화 등 빅데이터에 숨겨진 의미 있는 정보를 발견하는데 사용하기도 함

  o 웹 마이닝(Web Mining)

  : 인터넷을 통해 수집한 정보를 데이터 마이닝 방법으로 분석 응용

  o 오피니언 마이닝(Opinion Mining)

  : 온라인의 다양한 뉴스와 소셜 미디어 코멘트 또는 사용자가 만든 콘텐츠에서 표현된 의견을 추출, 분류, 이해 응용

  o 리얼리티 마이닝(Reality Mining)

  : 휴대폰 등 기기를 사용하여 인간관계와 행동 양태 등을 추론하는 응용분야

  o 소셜 네트워크 분석(Social Network Analysis)

  : 수학의 그래프 이론을 바탕으로 소셜 네트워크 서비스에서 네트워크 연결 구조와 강도를 분석하여 사용자의 명성 및 영향력을 측정하는 방법

  o 감성 분석(Sentiment Analysis)

  :  문장의 의미를 파악하여 글의 내용에 긍정 또는 부정 등을 분류하거나 지수화하는 방법

  : 도출된 지수를 이용하여 고객의 감성 트렌드를 시계열로 분석하고, 고객의 감성변화에 기업들이 신속하게 대응 및 부정적인 의견의 확산을 방지하는게 활용

Comments