[PART1/PART2 오답노트]

2023. 10. 31. 14:05[빅분기]

728x90
반응형

PART1 (오답노트)

  • 맵리듀스 패턴
    • 단어세기/그룹화/조인/필터링/인버트인덱스/최대-최소/통계
    • 조인패턴: 두개 이상의 데이터 세트를 조인(연결)하여 처리하는데 사용
  • FTP(file transfer protocol): 정형데이터 수집기법
    • 대량의 파일(데이터)를 네트워크를 통해 주고받을 때 사용되는 파일 전송 프로토콜, 동작 방식이 직관/단순하여 파일을 빠른속도로 한꺼번에 주고받을 수 있다.
    • 파일 송수신을 목적으로 하고, 수집하는 기술X
    • 네트워크를 통해 공유하는 여러호스트 컴퓨터의 데이터에 접근가능
  • 분산파일시스템
    • 네트워크를 통해 공유하는 여러호스트 파일에 접근하는 파일시스템
  • 네트워크저장시스템
    • 이기종 데이터저장장치를 하나의 데이터 서버에 연결하여 총괄적으로 데이터를 저장 및 관리하는 시스템
  • 스쿱: 대용량 관계형RDBMS로부터 HDFS로 커넥터(변환)--을 통해 데이터수집
  • 빅데이터 분석방법론
    • 분석기획/데이터준비(전처리)/데이터분석/시스템구현/평가 및 전개
  • 빅데이터 플랫폼의 계층구조
    • 소프트웨어/플랫폼/인프라스트럭쳐 ---> 3개층으로 구성!
    • 소프트웨어: 애플리케이션 구성/ 데이터 처리 및 분석과 이를위한 데이터 수집+정제
    • 플랫폼: 애플리케이션 실행을 위한 플랫폼(서비스)제공
      • 데이터관리모듈
      • 자원관리모듈
      • 서비스관리모듈
      • 보안모듈
    • 인프라스트럭쳐: 자원배치/스토리지관리/노드 및 네트워크관리를 통해 빅데이터 처리와 분석에 필요한 자원제공
  • 도메인이슈도출: 데이터분석을 통해 개선사항(방향) 도출단계
  • 분석목표수립: 현실적인 분석목표수립
  • 프로젝트계획수립: 자원과 예산등을 고려하여 계획수립
  • 병렬 DBMS
    • 분산아키텍쳐
    • 데이터를 복제해서 분산한 관계로 데이터변경에 따른 관리비용 발생
    • 데이터 파티셔닝과 데이터 병렬처리를 통해 고성능제공 (다수의 마이크로 프로세서 동시 사용가능/데이터 처리 신속/시스템 용량확장 용이)
    • 데이터를 중복저장한 것이 아님!!
  • WBS(Work Breakdown Structure) - 분석기획과정에서 작성하는 단계
    • 프로젝트계획 수립단계 ---> 신제 수행되어야하는 작업을 세분화하여 일정 정리
  • CRISP-DM
    • 비즈니스이해/데이터이해/데이터준비/모델링/평가/전개
  • AI ) 머신러닝 ) 딥러닝
  • 역할
    • 데이터 엔지니어: 데이터 플랫폼에 대한 설계 및 데이터 흐름 관리와 모델 배포 등 데이터 분석환경을 설계하고 구축 (ex. 관계형데베를 하둡기반으로 전환)
    • .. 아키텍쳐: 비즈니스 요건을 구현하기 위한 데이터의 흐름, 표준, 원칙을 규정
    • .. 모델러: 데이터 처리를 위한 논리모델과 물리모델의 설계 및 개발 수행
  • 자료수집방법
    • 스캠퍼: 창의적문제해결기법/기존아이디어를 변형,조정,조합등의 방법으로 발전시킴
    • FGI(Focus Group Inerview): 관찰자 역할의 연구자가 동일한 소수 집단을 대상으로 특정 주제에 대하여 자유로운 토론을 이끌어내 자료수집
  • HDFS
    • GFS을 기반으로 구현한 오픈소스이므로 동일한 소스코드를 사용
    • 복제횟수는 환경설정에서 사용자가 개수조절(변경) 가능
    • EXT4, NTFS와 같은 하위시스템
  • 빅데이터분석계획
    • 비즈니스 이해 및 범위설정---프로젝트정의---프로젝트 수행계획수립---프로젝트위험계획수립(제일마지막..)
  • 플랫폼
    • 맵리듀스: 분할정복 방식으로 대용량 데이터를 병렬로 처리할 수 있는 모델
    • 하이브: 하둡기반의 데이터 웨어하우징용 솔루션
    • 피그: 대용량 데이터 집합을 분석하기 위한 플랫폼
    • 아파치스파크: 인메모리기반의 실시간 분산형 컴퓨팅 플랫폼/하둡보다 빠름
  • 개인정보 차등보호
    • 통계나 수리적방법으로 데이터를 변형해 위험을 낮추거나 수집단계에서 직접 정보보호처리를 하여 노이즈를 추가하여 개인정보보호
  • 비식별화
    • K-익명성: 같은 값이 K개 이상
    • L-다양성: L개의 다른 정보

PART2 (오답노트)

  • 이산화 자체는 노이즈 제거에 사용되지 않음, 이산화이후에 노이즈 제거 방법들을 적용하여 사용가능
  • 독립변수 범주수가 3개이면, 회귀계수는 3-1개가 필요
  • 원핫인코딩
    • 공간효율이 좋지 않다<--- 변수의 차원 증가에 따른 공간 사용량 증가에 유의해야함
    • 범주형변수가 많으면 원핫인코딩 적용시 변수의 개수가 기하급수적으로 증가할 수 있고 ===> 차원의 저주 야기
      • 차원의저주: 변수 개수가 증가함에 따라 데이터 희소성이 증가하고 모델 학습이 어려워지는 현상
728x90
반응형

'[빅분기]' 카테고리의 다른 글

[PART3 요약추가]  (0) 2023.10.31
[빅데이터 모델링]  (0) 2023.10.31
[빅데이터 탐색]  (0) 2023.10.31
[빅데이터의 이해]  (0) 2023.10.31
[범주형 자료분석/다차원 척도법/다변량분석/시계열분석]  (0) 2023.10.31