[빅데이터의 이해]

[빅데이터의 이해]

2023. 10. 31. 14:03ㆍ[빅분기]

728x90

빅데이터의 이해

데이터의 구분
- 정량적: 주로 숫자
- 정성적: 비정형, ex) 텍스트, 문자
데이터 유형
- 정형: RDB, CSV, 스프레드시트
- 반정형: 스키마제공(웹로그, 알람, XML, HTML, JSON, RSS)
- 비정형: 이미지, 오디오, 문자 NoSQl
SQL: 데이터베이스 접근시 쓰는 언어/데이터 정의,조작,제어기능
데이터 기반 지식 구분
- 암묵지: 숨은지식, 타인에게 공유 어려움 (내면화, 공통화)
- 형식지: 형상화된 지식, 구체적 형태가 있음 (표출화, 연결화)
  - 데이터 기반 지식 구분: 내면화-> 공통화 -> 표출화 -> 연결화
DIKW: data(객관적 사실)-infomation- knowledge-wisdom(창의적 아이디어)
DB: 정형데이터관리(정리된 수집물, 체계적 편집물+검색도구) -> 비정형데이터까지(DBMS, 정보의 집합체, 데이터의 집합)
- OLTP(oline-transaction-processing): 여러기기에서 보낸 요청을 바탕으로 호스트가 DB접속, 처리결과 회신 ex) 재고관리시스템, 주문입력 시스템
- OLAP(oline-Analytics-processing): 정보위주 분석처리 OLTp로 처리된 데이터를 분석해서 판매경향, 구매패턴 살펴봄
  - OLTP가 복잡하고 OLAP(대화식)는 오히려 단순!!
기업내부 데이터베이스
- 1980년대
  - OLTP(데이터 처리중심): 현재데이터
  - OLAP(데이터분석중심): 다차원적인 오랜기간 저장된 데이터
- 2000년대
  - CRM: 고객관계 관리(신규고객 유치와 지속적인 관계 유지 및 증진이 목적)
  - SCM(supply-chain-management): 공급망 관리
- 경영부문-> 제조부문
  - ERP(enterprise-resource-planning): 전사적 자원관리/통합시스템구축
  - BI: 데이터를 정리해 기업의 의사결정에 활용/데이터 활용 프로세스
  - RTE(real-time-enterprise): 실시간 경영정보 통합관리 시스템
- 금융부문
  - EAI(enterprise-architecture-integration): 기업연관 앱 통합/유기적 연동
  - EDW(enterprise-data-warehouse): DW를 전사적으로 확장
- 유통부문
  - KMS: 지식관리 시스템
  - RFID: 전자태그
- 사회기반구조
  - EDI(electronic-data-interchange): 표준 양식으로 서류를 전자 신호로 바꿔 상대방에 전송하는 시스템/ 서류를 전자신호를 통해 거래처에 전송
  - VAN(value-added-network): 부가가치통신망, 통신회선을 빌려서 독자적인 네트워크 서비스 형성 ex) KT의 통신회선을 빌려서 SKT~? U+?
  - CALS(commerce-at-light-speed): 전자상거래 구축을 위한 경영통합정보시스템/ 미국 국방성?
분야별 DB
- 물류: CVO(화물),PROT-MIS(항만)
- 지리: GIS(지리정보), RS(원격탐사), SIM(공간정보관리)
- 의료: PACS(의료영상)
- 교육: NEIS(교육행정)
DBMS(데이터베이스 관리시스템)의 종류
- 관계형: 데이터를 테이블로 표현
- 객체지향: // 객체형태
- 네트워크: // 그래프구조
- 계층형: // 트리구조
데이터베이스 특징
- 통합/저장/공용/변화되는 데이터
데이터의 크기: K M G T P E Z Y (킬메기테페엑제요)
- 킬로=2^10 | 요타=2^80
빅데이터의 특징
- 3V: volume, variety, velocity
- 5V: + Veracity(정확성), Value
빅데이터의 가치
- 경제적 자산, 불확실성 제거, 리스크 감소, 타분야 융합, 스마트 경쟁력
- 가치산정 어려움: 이유) 데이터 활용방식/ 새로운 가치창출/ 분석기술 발전
빅데이터의 본질적 변화: 최대한 많은 데이터를 통해 변수간의 상관관계를 찾자
- 사후처리
- 전수조사
- 양
- 상관관계
빅데이터 활용 3요소: 인력/자원(data)/기술(AI,플랫폼)
데이터 산업발전
- 현재 DNA강조 (Data-Network-AI)
- 7080: 데이터 처리
- 9000: 데이터통합 (DBMS,ERP,CRM)
- 10~: 데이터분석 (하둡,스파크)
- 18~: 데이터연결 (open-API, 오픈이노베이션),
- 관리: 마이데이터(권리)시대
빅데이터 위기요인&통제방안
- 사생활침해: 제공자의 '동의-> 사용자의 '책임'
- 책임원칙훼손: 예측알고리즘의 희생양-> 결과기반 책임원칙 고수
- 데이터오용: 잘못된 지표사용-> 알고리즘 접근허용(알고리즈미스트 생김)
요구역량
- hardskill: 이론적지식, 분석기술 숙련
- softskill: 통찰력, 전달력, 협업능력
분석조직의 구조
- 집중구조: 별도의 전담조직 구성
- 기능구조: 별도의 조직X, 해당부서에서 수행
- 분산구조: 전담조직에서 현업부서로 배치

중복/ 이원화가능성

부서에 국한된 분석 가능성

전사차원의 우선순위 수행/ 분석결과에 따른 신속한 대응가능

분석조직 구성
- 빅데이터 시스템 개발팀/분석팀/활용팀
애드호크러시: 다양한 분야의 전문가들이 혁신적 기능을 활용해 집중적으로 과제를 수행하는 유기적 조직구조 유형
빅데이터 플랫폼: 데이터수집-저장-분석-시각화
데이터 웨어하우스(DW)특징
- 주제지향성
- 통합성: 일관된 형태/전사적관점
- 시계열성: 시점별로 이어짐
- 비휘발성: 일괄처리작업에 의한 갱신 이외의 변경X
DW구성요소
- 데이터모델: 주제중심의 개체-관계형 모델
- ETL
- ODS: 다양한 DBMS에서 추출한 데이터 통합적으로 관리
- DW메타데이터: 데이터스키마정보+비즈니스측면에서 활용되는 정보제공
- OLAP: 사용자가 데이터를 확인할 수 있는 솔루션
- 데이터마이닝: 인사이트도출
- 분석도구
- 경영기반솔루션: 의사결정을 지원하는 솔루션 KMS,BI,DSS
데이터 산업구조
- 인프라: 데이터 수집,저장,분석,관리기능(하드웨어,소프트웨어)
- 서비스: 데이터 제공, 활용 교육 및 컨설팅, 대신 처리하는 역할도 포함
BSC관점: 재무-고객-내부프로세스-학습,성장 ??
정보의 특징: 정확/적당/적시/관련
인공지능 경쟁력 3요소: 알고리즘/GPU(컴퓨팅파워)/빅데이터

데이터 분석계획

분석유형
- 최적화: 대상과 방법 모두 이해
- 솔루션: 대상은 알지만 방법 모름 --> 해결을 찾자(ex. 금쪽이 사고치면 솔루션 주듯)
- 통찰: 대상은 모르지만 방법을 암
- 탐색: 둘다 모름
목표 시점별 분석기획 방안
- 과제중심적: 당면과제 빨리해결/문제해결/Quick-Win
- 마스터플랜: 장기적관점/문제정의/지소적분석 내재화
분석기획시 고려사항
- 가용데이터확보-> 적절한 유즈케이스-> 낮은 실행장벽(교육 및 변화관리)
  - 유즈케이스: 사용자중심 시나리오 분석

하향식/상향식 접근법

접근법
- 하향식: problem solving
  - 문제탐색: 비즈니스모델+외부사례(벤치마킹)
    - - | 비즈니스모델: 업무/제품/고객/규제/감사/지원인프라
  - 문제정의: 비즈니스문데를 데이터문제로 변환
  - 해결방안탐색

HOW(분석기법시스템)`분석역량(who)	확보	미확보
기존시스템	기존시스템개선활용	교육/채용역량확보
신규도입	시스템고도화	전문업체sourcincg

- - 타당성 검토: 경제적+데이터 및 기술적 타당성
상향식접근법: problem creation
혼합방식: 상향식의 (Diverse)+하향식의(converge)
디자인사고-프로토타이핑의 필요성

전략적 중요도/ROI/난이도를 고려해 우선순위 결정

투자비용요소: 난이도 | 비즈니스효과: 시급성
우선순위
- 시급성: 3-4-1-2 (시급성 기준일때, 쉬운 것부터 함; 난이도 조절을 안 할경우)
- 난이도: 3-1-4-2 (난이도 기준일때, 시급한것부터 함; 1 난이도 조절해서)
로드맵 수립: 업무내재화/분석데이터적용/기술적용을 고려해 로드맵수립
- 데이터분석체계도입-> 유효성 검증-> 분석 확산 및 고도화
- 세부이행계획 -- 혼합형이 더 많음
  - 순차적단계(폭포수방식): 설계-구현-테스트
  - 반복적 모델링단계(혼합형)
데이터 분석방법론
- 방법론: 상세한 절차/방법/도구와기법/템플릿과 산출물
- 장애요소: 고정관념/편향된 생각/프레이밍효과
- 방법론 생성과정
  - 방법론----내재화--->암묵지----형식화--->형식지----체계화--->방법론

	암묵지

방법론		형식지

빅데이터 분석방법론의 계층적 프로세스
- 단계: 최상위계층/단계별 완료보고서
- 태스크: 단계를 구성하는 단위활동/보고서
- 스텝: Input, Process&tool, Output으로 구성된 단위 프로세스/보고서 구성요소
일반적 분석방법론절차

데이터분석 거버넌스 구성요소
- 조직/운영프로세스/분석인프라/데이터거버넌스/분석교육
  - 데이터거버넌스: 전사차원의 모든 데이터에 대해 정책 및 지침, 표준화, 운영조직과 책임 등 표준화된 관리체계수립
  - 데이터거버넌스 주요관리대상
    - - 마스터데이터: 마스터파일을 형성하는 데이터
      - 메타데이터: 다른 데이터를 설명하기 위해 사용되는 데이터
      - 데이터사전: 자료의 이름/표현방식/의미/사용방식등을 저장
  - 데이터거버넌스특징: 데이터의 가용성/유용성/통합성/보안성 확보
빅데이터 거버넌스 구성요소: 원칙/조직/프로세스
데이터 거버넌스 체계: 데이터 표준화/표준화 활동/데이터관리체계/데이터저장소관리
데이터분석과제관리프로세스
- 과제발굴: 분석아이디어발굴/분석과제후보제안/분석과제확정
- 과제수행: 팀구성/분석과제실행/분석과제진행관리/결과공유
업무특성에 따른 방법론 모델
- - 폭포수모델: 단계별 문서화 가능
  - 프로토타입모델
  - 나선형모델: 프로토타입모델의 개량, 폭포수+프로토타입모델
    - - 위험분석단계를 추가해서 관리체계가 부실할 경우 복잡해짐..!
      - 1) 목표설정 2) 위험분석 3) 개발과 검증 4) 고객평가/다음단계수립
KDD분석방법론: 통계적패턴이나 지식을 찾기 위해 정리한 데이터(단방향)
- 1) 데이터선택 -> 타겟데이터
- 2) 데이터준비 -> 정제된데이터
- 3) 데이터변환[학습용/검증용분리포함] -> 변환된데이터
- 4) 데이터마이닝 -> 패턴/인사이트
- 5) 결과평가 -> knowledge
CRISP-DM분석방법론: 유럽연합의 시작
- - 4개의 레벨/6개 단계
  - [phases] [generic tasks] [specialized tasks] [process instances]
  - 최상위레벨/ 일반화태스크/ 세분화태스크/ 프로세스실행(데이터마이닝구체화)
- 1) 업무이해
- 2) 데이터이해
- 3) 데이터준비
- 4) 모델링
- 5) 평가
- 6) 전개
SEMMA분석방법론: SAS 기술중심,통계중심의 방법론
- - 샘플링-> 탐색-> 수정-> 모델링-> 검증
- 1) 비즈니스도 메인 이해
- 2) 데이터셋선택
- 3) 데이터 전처리
- 4) 데이터 변환
- 5) 데이터 마이닝
- 6) 결과해석
- 7) 발견지식 이용
데이터분석 수준진단 목표
- 현재 수행하고 있는 데이터 분석 수준을 명확히 이해하고 결과를 바탕으로 미래 목표수준 정의
분석준비도 -6개영역
- 분석업무파악
- 인력 및 조직
- 분석기법
- 분석데이터
- 분석문화
- IT인프라
분석 성숙도 -3개영역
- 비즈니스/조직 및 역량/IT
분석 성숙도 -진단결과
- 도입/활용/확산/최적화
사분면 분석
- 성숙도/준비도 기준

성숙도	준비도
낮음	낮음	준비형
낮음	높음	도입형
높음	낮음	정착형
높음	높음	확산형

데이터처리 프로세스
- 데이터소스: 내/외/미디어
- .. 수집: 입력/로그수집기(반정형)/크롤링/센싱
- .. 저장: 정형/비정형/저장장치
- .. 처리: 배치처리/실시간처리/분산처리
- .. 분석: 전처리/분석방법/머신러닝/딥러닝
- .. 표현: 시간시각화/관계시각화/공간시각화/분포시각화
정확도와 정밀도의 관점
- 정확도: 모형과 실제값의 차이
- 정밀도: 모형을 계속 반복했을 때의 일관성

정확도	정밀도
낮음	낮음	=> 편향과 분산 모두 높다
낮음	높음	=> 편향은 높고 분산은 낮다
높음	낮음	=> 편향은 낮고 분산은 높다
높음	높음	=> 편향과 분산 모두 낮다

데이터 수집 및 저장계획

내/외부 데이터
- 내부데이터: 서비스시스템/네트워크 및 서버장비/마케팅데이터 | ETL하자
- 외부데이터: 소셜데이터/특정기관 데이터/M2M데이터/공공데이터 |크롤링하자
정형데이터수집기법
- ETL: 데이터 웨어하우스/마트로 보내기위해 추출,변환,적재하는 프로세스기술
- FTP(File transform load): TCP/IP프로토콜-> 클라이언트<=> 서버
  - 클라이언트---activeFTP--->서버 | 서버---passiveFTP--->클라이언트
- API: 실시간 데이터수신
- Sqoop: 대용량데이터 변환하는 어플리케이션
  - RDB --데이터--> HDFS --변환--> MapReduce -- 다시 RDB~
반정형데이터수집기법
- Scribe: 실시간 스트리밍 로그데이터 수집 어플리케이션 분산서버-> 중앙집중서버
  - 확장성/신뢰성/설치용이성
- Flume: 대량의 로그데이터 효율적 전송서비스
  - 신뢰성/확장성/운영가능성/가용성
- Chukwa: 로그데이터 HDFS저장 및 분석 수집로그
  - 모니터링/하둡/응용프로그램---> 실시간 모니터링
비정형데이터수집기법
- Scrapy: 파이썬으로 작성된 오픈소스 웹 크롤링 프레임워크
- Apach Kafka: 실시간데이터 피드를 관리하기 위해 높은 처리량, 낮은 지연시간의 플랫폼 제공(발행/구독)
- 크롤링: 웹로봇/웹크롤러
빅데이터 수집 시스템의 요건
- 확장성/안정성/유연성/실시간성
데이터변환: 컴퓨터가 바로 처리할 수 없는 반,비정형 데이터를 정형 데이터 구조로 바꿈
- 평활화: 잡음제거를 위해 추세에 벗어나는 값을 변환
- 집계: 데이터 요약 및 축소
- 일반화: 특정 구간에 분포하는 값으로 스케일 변환
- 정규화: 정해진 구간내에 포함되도록 변환(min-max, Z-score)
- 속성생성: 데이터통합을 위해 새로운 속성 및 특징 생성
데이터 유형
- 수집데이터
  - 구조: 정형/반정형/비정형
  - 시간: 실시간/비실시간
  - 저장형태: 파일/데이터베이스/콘텐츠/스트림
데이터 특징: 정성(언어/외부시스템) vs 정량(숫자/내부시스템)
스키마: 구조와 제약조건에 관한 전반적 명세 기술한 메타데이터 집합
- 사용자의 관점에 따라 외부스키마, 개념스키마, 내부스키마로 나뉨

사용자1	사용자2, 사용자3, 사용자4	사용자5, 사용자6
외부스키마1	외부스키마2	외부스키마3
개념스키마			응용인터페이스
내부스키마			저장인터페이스
저장데이터베이스			장치인터페이스

데이터 보안적용기술
- 사용자인증/접근제어/암호화/개인정보비식별화/개인정보암호화
비식별화기술 | 1. 식별방지
- 가명처리: 다른값 대체(휴리스틱익명화/암호화/교환방법)
- 총계처리: 통계값적용(총계처리/부분총계/라운딩재배열)
- 데이터삭제: 특정값삭제(식별자-부분삭제/레코드삭제/전부삭제)
- 범주화: 대표값 및 구간값 변환(감추기/랜덤라운딩/범위방법/제어라운딩)
- 마스킹: 공백 및 노이즈 등 대체(임의잡음추가/공백과 대체)
비식별화기술 | 2. 추론방지
- K-익명성: 일정확률 수준 이상 비식별 조치 | 취약점: 동질성,배경지식 공격
- L-다양성: 민감한 정보의 다양성 높임 | 취약점: 쏠림, 유사성 공격
- t-근접성: 민감한 정보의 분포를 낮춤 | 췩약점: 근사적인 값을 추론
개인정보활용
- 가명처리: 개인정보 일부를 삭제,대체해서 추가정보 없이 특정 개인을 분별할 수 없도록 하는 것
- 사전준비-가명처리(위험도측정)-검토(추가처리)-사후관리
- 신용정보법: 가명정보는 신용정보 주체의 동의없이 활용가능
데이터 품질관리의 중요성
- 결과의 신뢰성 확보/ 일원화된 프로세스/ 데이터활용도 향상/ 양질의 데이터 확보

* 데이터의 품질을 정의할 때는 주관적기준이 사용된다/ 특히 비정형인 경우 사람이 직접 오류를 확인한다.

데이터 품질기준
- 정형: 완전성/유일성/유효성/일관성/정확성
- 비정형: 신뢰성/기능성/효율성/사용성/이식성
빅데이터 저장기술
- 분산파일 시스템: 데이터를 수집,저장,분석하기 위해 두 대 이상의 컴퓨터로 작업하고 발생한 문제에 대응하는 방식
  - 하둡: 대용량 비정형 데이터 저장 및 분석, 장비를 증가시킬수록 성능향상
    - 자바오픈소스프레임워크 분산컴퓨팅환경지원(네임노드/데이터노드)
  - HDFS: 하둡분산파일시스템(클라우드용): 사용자의 직접접근권한 없음
    - 클라우드컴퓨팅환경구축, 리눅스서버에서이용, 뛰어난 확장성
  - GFS: 구글의 대규모 클러스터 서비스 플랫폼
- NoSQL: 비정형데이터의 저장과 관리를 위해 만들어진 기술
  - Casandra: 대용량 처리시스템
  - HBase: 자바기반 비관계형 DB
- 병렬 DBMS
  - VoltDB/SQP HANA/Vertica/Greenplum
- 클라우드파일저장시스템
  - 아마존s3/OpenStackSwift
- 네트워크구성저장시스템
  - SAN/NAS

===> 저장기술을 구글&애플 good/ 솔루션: 아파치,카산드라

맵리듀스: 단위처리 맵작업&작업물 집계하는 리듀스단계
- Input
- splitting
- Mapping
- Shuffling
- Reducing
- Finalresult
구글파일시스템: 마스터/청크서버/클라이언트
CAP이론
- 분산컴퓨팅환경: 일관성/가용성/지속성
NoSQl 데이터모델
- 키-값: 간단한 모델/확장성/범위질의어려움/응용프로그램모델링이복잡
- 열기반: 칼럼기반으로 데이터저장/ 연관된데이터위주/ 압축효율이 좋음/범위질이 굿
- 문서기반: 문서형식의 정보저장/레코드 간의 관계설명/문서마다 다른 스키마

728x90

저작자표시 비영리 변경금지 (새창열림)

'[빅분기]' 카테고리의 다른 글

[PART3 요약추가] (0)	2023.10.31
[빅데이터 모델링] (0)	2023.10.31
[PART1/PART2 오답노트] (0)	2023.10.31
[빅데이터 탐색] (0)	2023.10.31
[범주형 자료분석/다차원 척도법/다변량분석/시계열분석] (0)	2023.10.31

통계일기

통계일기

태그

최근글

댓글

공지사항

아카이브

'[빅분기]' 카테고리의 다른 글

관련글

티스토리툴바