[빅데이터의 이해]

2023. 10. 31. 14:03[빅분기]

728x90
반응형

빅데이터의 이해

  • 데이터의 구분
    • 정량적: 주로 숫자
    • 정성적: 비정형, ex) 텍스트, 문자
  • 데이터 유형
    • 정형: RDB, CSV, 스프레드시트
    • 반정형: 스키마제공(웹로그, 알람, XML, HTML, JSON, RSS)
    • 비정형: 이미지, 오디오, 문자 NoSQl
  • SQL: 데이터베이스 접근시 쓰는 언어/데이터 정의,조작,제어기능
  • 데이터 기반 지식 구분
    • 암묵지: 숨은지식, 타인에게 공유 어려움 (내면화, 공통화)
    • 형식지: 형상화된 지식, 구체적 형태가 있음 (표출화, 연결화)
      • 데이터 기반 지식 구분: 내면화-> 공통화 -> 표출화 -> 연결화
  • DIKW: data(객관적 사실)-infomation- knowledge-wisdom(창의적 아이디어)
  • DB: 정형데이터관리(정리된 수집물, 체계적 편집물+검색도구) -> 비정형데이터까지(DBMS, 정보의 집합체, 데이터의 집합)
    • OLTP(oline-transaction-processing): 여러기기에서 보낸 요청을 바탕으로 호스트가 DB접속, 처리결과 회신 ex) 재고관리시스템, 주문입력 시스템
    • OLAP(oline-Analytics-processing): 정보위주 분석처리 OLTp로 처리된 데이터를 분석해서 판매경향, 구매패턴 살펴봄
      • OLTP가 복잡하고 OLAP(대화식)는 오히려 단순!!
  • 기업내부 데이터베이스
    • 1980년대
      • OLTP(데이터 처리중심): 현재데이터
      • OLAP(데이터분석중심): 다차원적인 오랜기간 저장된 데이터
    • 2000년대
      • CRM: 고객관계 관리(신규고객 유치와 지속적인 관계 유지 및 증진이 목적)
      • SCM(supply-chain-management): 공급망 관리
    • 경영부문-> 제조부문
      • ERP(enterprise-resource-planning): 전사적 자원관리/통합시스템구축
      • BI: 데이터를 정리해 기업의 의사결정에 활용/데이터 활용 프로세스
      • RTE(real-time-enterprise): 실시간 경영정보 통합관리 시스템
    • 금융부문
      • EAI(enterprise-architecture-integration): 기업연관 앱 통합/유기적 연동
      • EDW(enterprise-data-warehouse): DW를 전사적으로 확장
    • 유통부문
      • KMS: 지식관리 시스템
      • RFID: 전자태그
    • 사회기반구조
      • EDI(electronic-data-interchange): 표준 양식으로 서류를 전자 신호로 바꿔 상대방에 전송하는 시스템/ 서류를 전자신호를 통해 거래처에 전송
      • VAN(value-added-network): 부가가치통신망, 통신회선을 빌려서 독자적인 네트워크 서비스 형성 ex) KT의 통신회선을 빌려서 SKT~? U+?
      • CALS(commerce-at-light-speed): 전자상거래 구축을 위한 경영통합정보시스템/ 미국 국방성?
  • 분야별 DB
    • 물류: CVO(화물),PROT-MIS(항만)
    • 지리: GIS(지리정보), RS(원격탐사), SIM(공간정보관리)
    • 의료: PACS(의료영상)
    • 교육: NEIS(교육행정)
  • DBMS(데이터베이스 관리시스템)의 종류
    • 관계형: 데이터를 테이블로 표현
    • 객체지향: // 객체형태
    • 네트워크: // 그래프구조
    • 계층형: // 트리구조
  • 데이터베이스 특징
    • 통합/저장/공용/변화되는 데이터
  • 데이터의 크기: K M G T P E Z Y (킬메기테페엑제요)
    • 킬로=2^10 | 요타=2^80
  • 빅데이터의 특징
    • 3V: volume, variety, velocity
    • 5V: + Veracity(정확성), Value
  • 빅데이터의 가치
    • 경제적 자산, 불확실성 제거, 리스크 감소, 타분야 융합, 스마트 경쟁력
    • 가치산정 어려움: 이유) 데이터 활용방식/ 새로운 가치창출/ 분석기술 발전
  • 빅데이터의 본질적 변화: 최대한 많은 데이터를 통해 변수간의 상관관계를 찾자
    • 사후처리
    • 전수조사
    • 상관관계
  • 빅데이터 활용 3요소: 인력/자원(data)/기술(AI,플랫폼)
  • 데이터 산업발전
    • 현재 DNA강조 (Data-Network-AI)
    • 7080: 데이터 처리
    • 9000: 데이터통합 (DBMS,ERP,CRM)
    • 10~: 데이터분석 (하둡,스파크)
    • 18~: 데이터연결 (open-API, 오픈이노베이션),
    • 관리: 마이데이터(권리)시대
  • 빅데이터 위기요인&통제방안
    • 사생활침해: 제공자의 '동의-> 사용자의 '책임'
    • 책임원칙훼손: 예측알고리즘의 희생양-> 결과기반 책임원칙 고수
    • 데이터오용: 잘못된 지표사용-> 알고리즘 접근허용(알고리즈미스트 생김)
  • 요구역량
    • hardskill: 이론적지식, 분석기술 숙련
    • softskill: 통찰력, 전달력, 협업능력
  • 분석조직의 구조
    • 집중구조: 별도의 전담조직 구성
    • 기능구조: 별도의 조직X, 해당부서에서 수행
    • 분산구조: 전담조직에서 현업부서로 배치

중복/ 이원화가능성

부서에 국한된 분석 가능성

전사차원의 우선순위 수행/ 분석결과에 따른 신속한 대응가능

  • 분석조직 구성
    • 빅데이터 시스템 개발팀/분석팀/활용팀
  • 애드호크러시: 다양한 분야의 전문가들이 혁신적 기능을 활용해 집중적으로 과제를 수행하는 유기적 조직구조 유형
  • 빅데이터 플랫폼: 데이터수집-저장-분석-시각화
  • 데이터 웨어하우스(DW)특징
    • 주제지향성
    • 통합성: 일관된 형태/전사적관점
    • 시계열성: 시점별로 이어짐
    • 비휘발성: 일괄처리작업에 의한 갱신 이외의 변경X
  • DW구성요소
    • 데이터모델: 주제중심의 개체-관계형 모델
    • ETL
    • ODS: 다양한 DBMS에서 추출한 데이터 통합적으로 관리
    • DW메타데이터: 데이터스키마정보+비즈니스측면에서 활용되는 정보제공
    • OLAP: 사용자가 데이터를 확인할 수 있는 솔루션
    • 데이터마이닝: 인사이트도출
    • 분석도구
    • 경영기반솔루션: 의사결정을 지원하는 솔루션 KMS,BI,DSS
  • 데이터 산업구조
    • 인프라: 데이터 수집,저장,분석,관리기능(하드웨어,소프트웨어)
    • 서비스: 데이터 제공, 활용 교육 및 컨설팅, 대신 처리하는 역할도 포함
  • BSC관점: 재무-고객-내부프로세스-학습,성장 ??
  • 정보의 특징: 정확/적당/적시/관련
  • 인공지능 경쟁력 3요소: 알고리즘/GPU(컴퓨팅파워)/빅데이터

데이터 분석계획

  • 분석유형
    • 최적화: 대상과 방법 모두 이해
    • 솔루션: 대상은 알지만 방법 모름 --> 해결을 찾자(ex. 금쪽이 사고치면 솔루션 주듯)
    • 통찰: 대상은 모르지만 방법을 암
    • 탐색: 둘다 모름
  • 목표 시점별 분석기획 방안
    • 과제중심적: 당면과제 빨리해결/문제해결/Quick-Win
    • 마스터플랜: 장기적관점/문제정의/지소적분석 내재화
  • 분석기획시 고려사항
    • 가용데이터확보-> 적절한 유즈케이스-> 낮은 실행장벽(교육 및 변화관리)
      • 유즈케이스: 사용자중심 시나리오 분석

하향식/상향식 접근법

  • 접근법
    • 하향식: problem solving
      • 문제탐색: 비즈니스모델+외부사례(벤치마킹)
          • | 비즈니스모델: 업무/제품/고객/규제/감사/지원인프라
      • 문제정의: 비즈니스문데를 데이터문제로 변환
      • 해결방안탐색
HOW(분석기법시스템)`분석역량(who)
확보
미확보
기존시스템
기존시스템개선활용
교육/채용역량확보
신규도입
시스템고도화
전문업체sourcincg
      • 타당성 검토: 경제적+데이터 및 기술적 타당성
  • 상향식접근법: problem creation
  • 혼합방식: 상향식의 (Diverse)+하향식의(converge)
  • 디자인사고-프로토타이핑의 필요성

전략적 중요도/ROI/난이도를 고려해 우선순위 결정

  • 투자비용요소: 난이도 | 비즈니스효과: 시급성
  • 우선순위
    • 시급성: 3-4-1-2 (시급성 기준일때, 쉬운 것부터 함; 난이도 조절을 안 할경우)
    • 난이도: 3-1-4-2 (난이도 기준일때, 시급한것부터 함; 1 난이도 조절해서)
  • 로드맵 수립: 업무내재화/분석데이터적용/기술적용을 고려해 로드맵수립
    • 데이터분석체계도입-> 유효성 검증-> 분석 확산 및 고도화
    • 세부이행계획 -- 혼합형이 더 많음
      • 순차적단계(폭포수방식): 설계-구현-테스트
      • 반복적 모델링단계(혼합형)
  • 데이터 분석방법론
    • 방법론: 상세한 절차/방법/도구와기법/템플릿과 산출물
    • 장애요소: 고정관념/편향된 생각/프레이밍효과
    • 방법론 생성과정
      • 방법론----내재화--->암묵지----형식화--->형식지----체계화--->방법론
 
암묵지
 
     
방법론
 
형식지
  • 빅데이터 분석방법론의 계층적 프로세스
    • 단계: 최상위계층/단계별 완료보고서
    • 태스크: 단계를 구성하는 단위활동/보고서
    • 스텝: Input, Process&tool, Output으로 구성된 단위 프로세스/보고서 구성요소
  • 일반적 분석방법론절차
  • 데이터분석 거버넌스 구성요소
    • 조직/운영프로세스/분석인프라/데이터거버넌스/분석교육
      • 데이터거버넌스: 전사차원의 모든 데이터에 대해 정책 및 지침, 표준화, 운영조직과 책임 등 표준화된 관리체계수립
      • 데이터거버넌스 주요관리대상
          • 마스터데이터: 마스터파일을 형성하는 데이터
          • 메타데이터: 다른 데이터를 설명하기 위해 사용되는 데이터
          • 데이터사전: 자료의 이름/표현방식/의미/사용방식등을 저장
      • 데이터거버넌스특징: 데이터의 가용성/유용성/통합성/보안성 확보
  • 빅데이터 거버넌스 구성요소: 원칙/조직/프로세스
  • 데이터 거버넌스 체계: 데이터 표준화/표준화 활동/데이터관리체계/데이터저장소관리
  • 데이터분석과제관리프로세스
    • 과제발굴: 분석아이디어발굴/분석과제후보제안/분석과제확정
    • 과제수행: 팀구성/분석과제실행/분석과제진행관리/결과공유
  • 업무특성에 따른 방법론 모델
      • 폭포수모델: 단계별 문서화 가능
      • 프로토타입모델
      • 나선형모델: 프로토타입모델의 개량, 폭포수+프로토타입모델
          • 위험분석단계를 추가해서 관리체계가 부실할 경우 복잡해짐..!
          • 1) 목표설정 2) 위험분석 3) 개발과 검증 4) 고객평가/다음단계수립
  • KDD분석방법론: 통계적패턴이나 지식을 찾기 위해 정리한 데이터(단방향)
    • 1) 데이터선택 -> 타겟데이터
    • 2) 데이터준비 -> 정제된데이터
    • 3) 데이터변환[학습용/검증용분리포함] -> 변환된데이터
    • 4) 데이터마이닝 -> 패턴/인사이트
    • 5) 결과평가 -> knowledge
  • CRISP-DM분석방법론: 유럽연합의 시작
      • 4개의 레벨/6개 단계
      • [phases] [generic tasks] [specialized tasks] [process instances]
      • 최상위레벨/ 일반화태스크/ 세분화태스크/ 프로세스실행(데이터마이닝구체화)
    • 1) 업무이해
    • 2) 데이터이해
    • 3) 데이터준비
    • 4) 모델링
    • 5) 평가
    • 6) 전개
  • SEMMA분석방법론: SAS 기술중심,통계중심의 방법론
      • 샘플링-> 탐색-> 수정-> 모델링-> 검증
    • 1) 비즈니스도 메인 이해
    • 2) 데이터셋선택
    • 3) 데이터 전처리
    • 4) 데이터 변환
    • 5) 데이터 마이닝
    • 6) 결과해석
    • 7) 발견지식 이용
  • 데이터분석 수준진단 목표
    • 현재 수행하고 있는 데이터 분석 수준을 명확히 이해하고 결과를 바탕으로 미래 목표수준 정의
  • 분석준비도 -6개영역
    • 분석업무파악
    • 인력 및 조직
    • 분석기법
    • 분석데이터
    • 분석문화
    • IT인프라
  • 분석 성숙도 -3개영역
    • 비즈니스/조직 및 역량/IT
  • 분석 성숙도 -진단결과
    • 도입/활용/확산/최적화
  • 사분면 분석
    • 성숙도/준비도 기준
성숙도
준비도
 
낮음
낮음
준비형
낮음
높음
도입형
높음
낮음
정착형
높음
높음
확산형
  • 데이터처리 프로세스
    • 데이터소스: 내/외/미디어
    • .. 수집: 입력/로그수집기(반정형)/크롤링/센싱
    • .. 저장: 정형/비정형/저장장치
    • .. 처리: 배치처리/실시간처리/분산처리
    • .. 분석: 전처리/분석방법/머신러닝/딥러닝
    • .. 표현: 시간시각화/관계시각화/공간시각화/분포시각화
  • 정확도와 정밀도의 관점
    • 정확도: 모형과 실제값의 차이
    • 정밀도: 모형을 계속 반복했을 때의 일관성
정확도
정밀도
 
낮음
낮음
=> 편향과 분산 모두 높다
낮음
높음
=> 편향은 높고 분산은 낮다
높음
낮음
=> 편향은 낮고 분산은 높다
높음
높음
=> 편향과 분산 모두 낮다

데이터 수집 및 저장계획

  • 내/외부 데이터
    • 내부데이터: 서비스시스템/네트워크 및 서버장비/마케팅데이터 | ETL하자
    • 외부데이터: 소셜데이터/특정기관 데이터/M2M데이터/공공데이터 |크롤링하자
  • 정형데이터수집기법
    • ETL: 데이터 웨어하우스/마트로 보내기위해 추출,변환,적재하는 프로세스기술
    • FTP(File transform load): TCP/IP프로토콜-> 클라이언트<=> 서버
      • 클라이언트---activeFTP--->서버 | 서버---passiveFTP--->클라이언트
    • API: 실시간 데이터수신
    • Sqoop: 대용량데이터 변환하는 어플리케이션
      • RDB --데이터--> HDFS --변환--> MapReduce -- 다시 RDB~
  • 반정형데이터수집기법
    • Scribe: 실시간 스트리밍 로그데이터 수집 어플리케이션 분산서버-> 중앙집중서버
      • 확장성/신뢰성/설치용이성
    • Flume: 대량의 로그데이터 효율적 전송서비스
      • 신뢰성/확장성/운영가능성/가용성
    • Chukwa: 로그데이터 HDFS저장 및 분석 수집로그
      • 모니터링/하둡/응용프로그램---> 실시간 모니터링
  • 비정형데이터수집기법
    • Scrapy: 파이썬으로 작성된 오픈소스 웹 크롤링 프레임워크
    • Apach Kafka: 실시간데이터 피드를 관리하기 위해 높은 처리량, 낮은 지연시간의 플랫폼 제공(발행/구독)
    • 크롤링: 웹로봇/웹크롤러
  • 빅데이터 수집 시스템의 요건
    • 확장성/안정성/유연성/실시간성
  • 데이터변환: 컴퓨터가 바로 처리할 수 없는 반,비정형 데이터를 정형 데이터 구조로 바꿈
    • 평활화: 잡음제거를 위해 추세에 벗어나는 값을 변환
    • 집계: 데이터 요약 및 축소
    • 일반화: 특정 구간에 분포하는 값으로 스케일 변환
    • 정규화: 정해진 구간내에 포함되도록 변환(min-max, Z-score)
    • 속성생성: 데이터통합을 위해 새로운 속성 및 특징 생성
  • 데이터 유형
    • 수집데이터
      • 구조: 정형/반정형/비정형
      • 시간: 실시간/비실시간
      • 저장형태: 파일/데이터베이스/콘텐츠/스트림
  • 데이터 특징: 정성(언어/외부시스템) vs 정량(숫자/내부시스템)
  • 스키마: 구조와 제약조건에 관한 전반적 명세 기술한 메타데이터 집합
    • 사용자의 관점에 따라 외부스키마, 개념스키마, 내부스키마로 나뉨
사용자1
사용자2, 사용자3, 사용자4
사용자5, 사용자6
외부스키마1
외부스키마2
외부스키마3
개념스키마
응용인터페이스
내부스키마
저장인터페이스
저장데이터베이스
장치인터페이스
  • 데이터 보안적용기술
    • 사용자인증/접근제어/암호화/개인정보비식별화/개인정보암호화
  • 비식별화기술 | 1. 식별방지
    • 가명처리: 다른값 대체(휴리스틱익명화/암호화/교환방법)
    • 총계처리: 통계값적용(총계처리/부분총계/라운딩재배열)
    • 데이터삭제: 특정값삭제(식별자-부분삭제/레코드삭제/전부삭제)
    • 범주화: 대표값 및 구간값 변환(감추기/랜덤라운딩/범위방법/제어라운딩)
    • 마스킹: 공백 및 노이즈 등 대체(임의잡음추가/공백과 대체)
  • 비식별화기술 | 2. 추론방지
    • K-익명성: 일정확률 수준 이상 비식별 조치 | 취약점: 동질성,배경지식 공격
    • L-다양성: 민감한 정보의 다양성 높임 | 취약점: 쏠림, 유사성 공격
    • t-근접성: 민감한 정보의 분포를 낮춤 | 췩약점: 근사적인 값을 추론
  • 개인정보활용
    • 가명처리: 개인정보 일부를 삭제,대체해서 추가정보 없이 특정 개인을 분별할 수 없도록 하는 것
    • 사전준비-가명처리(위험도측정)-검토(추가처리)-사후관리
    • 신용정보법: 가명정보는 신용정보 주체의 동의없이 활용가능
  • 데이터 품질관리의 중요성
    • 결과의 신뢰성 확보/ 일원화된 프로세스/ 데이터활용도 향상/ 양질의 데이터 확보

* 데이터의 품질을 정의할 때는 주관적기준이 사용된다/ 특히 비정형인 경우 사람이 직접 오류를 확인한다.

  • 데이터 품질기준
    • 정형: 완전성/유일성/유효성/일관성/정확성
    • 비정형: 신뢰성/기능성/효율성/사용성/이식성
  • 빅데이터 저장기술
    • 분산파일 시스템: 데이터를 수집,저장,분석하기 위해 두 대 이상의 컴퓨터로 작업하고 발생한 문제에 대응하는 방식
      • 하둡: 대용량 비정형 데이터 저장 및 분석, 장비를 증가시킬수록 성능향상
        • 자바오픈소스프레임워크 분산컴퓨팅환경지원(네임노드/데이터노드)
      • HDFS: 하둡분산파일시스템(클라우드용): 사용자의 직접접근권한 없음
        • 클라우드컴퓨팅환경구축, 리눅스서버에서이용, 뛰어난 확장성
      • GFS: 구글의 대규모 클러스터 서비스 플랫폼
    • NoSQL: 비정형데이터의 저장과 관리를 위해 만들어진 기술
      • Casandra: 대용량 처리시스템
      • HBase: 자바기반 비관계형 DB
    • 병렬 DBMS
      • VoltDB/SQP HANA/Vertica/Greenplum
    • 클라우드파일저장시스템
      • 아마존s3/OpenStackSwift
    • 네트워크구성저장시스템
      • SAN/NAS

===> 저장기술을 구글&애플 good/ 솔루션: 아파치,카산드라

  • 맵리듀스: 단위처리 맵작업&작업물 집계하는 리듀스단계
    • Input
    • splitting
    • Mapping
    • Shuffling
    • Reducing
    • Finalresult
  • 구글파일시스템: 마스터/청크서버/클라이언트
  • CAP이론
    • 분산컴퓨팅환경: 일관성/가용성/지속성
  • NoSQl 데이터모델
    • 키-값: 간단한 모델/확장성/범위질의어려움/응용프로그램모델링이복잡
    • 열기반: 칼럼기반으로 데이터저장/ 연관된데이터위주/ 압축효율이 좋음/범위질이 굿
    • 문서기반: 문서형식의 정보저장/레코드 간의 관계설명/문서마다 다른 스키마

 

728x90
반응형

'[빅분기]' 카테고리의 다른 글

[PART3 요약추가]  (0) 2023.10.31
[빅데이터 모델링]  (0) 2023.10.31
[PART1/PART2 오답노트]  (0) 2023.10.31
[빅데이터 탐색]  (0) 2023.10.31
[범주형 자료분석/다차원 척도법/다변량분석/시계열분석]  (0) 2023.10.31