[빅데이터 탐색]

2023. 10. 31. 14:04[빅분기]

728x90
반응형

  • 횡적자료: 단일시점 여러대상 | 종적자료: + 시계열 ======> 여러시점표현
  • 질적자료: 서열(만족도),명목 | 양적자료: 비율(절대0),등간
  • 데이터 정제: 불완전 데이터를 검출/이동/정정 or 교정
    • 1) 수집: 전처리
    • 2) 변환
    • 3) 교정
    • 4) 통합
  • 결측치: 입력누락/ 비어있는 값
    • 완전무작위(MCAR): 다른 변수와 연관X, 완전랜덤 <입력안한경우/전산오류누락>
    • 무작위(MAR): 특정변수가 영향주지만 결과와 상관X | 결과에는 상관 없어야함
    • 비무작위(MNAR): 다른 변수와 상관 있음 | 결과에 영향준다
  • 결측치처리
    • 단순대치
      • 단순삭제: MCAR의 경우
        • 1) listwise(데이터가 작은경우 표본감소문제) 2) pairwise
      • 평균대치: 비조건부/조건부
      • 단순확률핫덱: 연구자료에서 표본바탕의 비슷한 규칙찾아 대체
    • 다중대치: 단순대치 n번수행
    • 그외: 수작업/전영상수/무시
    • + 최근접대치
  • 이상치: 전처리과정 발생문제, 의도하지 않게 잘못입력, 분석목적에 부합X, 의도적이상치도 있다
    • 사분위(IOR): Q1-1.5IOR~Q3+1.5IOR | Q3-Q1=IOR
    • 정규분포: 평균 +- 3sigma
    • 군집화: k-clustering 밖의 점들
    • 기하평균: 기하평균 좌우 2.5sigma
  • 결측처리
    • 삭제: 존재할 수 없는 값은 삭제
    • 극단치기준이용: IOR
    • .. 절단: 상,하위 5%제거
    • 극단값조정
  • 이상치탐지
    • 시각화
    • z-score ----- 맥락의 정규화/표준편차이용!!
      • 마할라노비스 거리(분포와점사이의 거리)/타원형/각표준편차축으로 projection
    • 밀도기반 clustergin ==> DBSCAN; 군집의 밀도이용(군집수 지정 안해도 됨)
    • 고립의사나무: 고립점 찾기/ 길이 short
  • 데이터 통합
    • 스키마통합&개체의 매칭
    • 데이터중복
    • 하나의속성/상충되는 값
  • 데이터 축소: 사이즈 줄이기 but 분석결과는 같게
  • 데이터 변환
    • 형식&구조변환
    • 데이터 scaling: 1)표준화 2) 평활화 3) 정규화<0~1로변환 분포조정>
    • 평활화: 매끄럽게--> 시계열의 무작위적 변화효과를 줄여줌(구간화/군집화)
    • 비정형데이터의 변환
  • 변수선택
    • 필터: feature들 간의 rho확인, 무의미한 변수 filtering -> 유의미한것만 modeling
    • 래퍼: 필터보다비용↑/오버피팅↑/교차검증/항상best를 찾는 과정/일부변수로modeli
      • 전진선택: 0모형에서 시작---> 종속변수와rho↑ 포함 [F유의성검증]
      • 후진제거: 전체모형에서시작--> .. ↓포함
      • 단계적: 전진선택진행하고 나머지변수로는 후진제거
    • 임베디드: 모델링자체에 변수선택 포함
      • 필터와 래퍼의 장점 결합
      • L1 -라쏘/엘라스틱넥
      • L2 -릿지
  • 차원축소==오퍼피팅방지+해석력 easy
    • 다차원척도법(MDS)
      • 객체거리가 저차원 공간상에 최대한 많이 보존되도록하는 좌표계를 찾자
      • sample간의 거리를 보존하면서 차원축소 진행
    • PCA
      • 데이터분포의 주성분분석, 고차원data--> 저차원의 선형연관성이 없는 데이터로
      • scaling이 필수/분사이 큰 방향위주/변수하나하나에 대한 분석X/분포의 주성분
      • 직교변환 사용!
    • 요인분석
      • 변수간의 상관관계를 고려하여 유사한 변수끼리 묶어 잠재요인 도출
      • 묶는다는 점에서 군집화 하고 독립/종속변수의 개념이 없고 정보손실을 억제
    • 선형판별분석(LDA)
      • 분류알고리즘, class를 잘 구분하는 축(투명축과 결정경계)을 학습
    • SVD
      • A-> 특이값분해,, 적당한 특이값으로 A의 정보력 만족 | MxN차원 data이용
    • t-SNE
      • 2차원embedding벡터학습
      • 데이터간의 거리를 stochastic probability로 변환하여 임베딩
      • p=비슷한 건 가까이, 비슷하지 않으면 멀리있다고 보는 확률개념
    • SVM
      • 범주 vs 연속(SVR;regression)
  • 변수변환
    • 변수구간화: binning; 연속->범주
    • decision_tree: 분리기준사용해서 변환
    • dummy: 0,1 (one-hot-encoding)
    • 정규분포화: 로그변환/제곱근변환
  • 불균형데이터처리
    • 오버샘플링: 더 작은 수의 집단을 표본으로
      • 리샘플링: 더 작은 수의 집단을 복제해서 샘플링/과적합↑
      • smote: .. 일정거리를 가진 가상데이터 생성 (k-nn)
      • ADASYN: .. 관측비율 계산하여 smote진행
      • Boderline smote: .. 서로다른 클래스스간의 경계에서 smote
    • 언더샘플링: 더 많은 수의 집단을 표본으로
      • 랜덤언더샘플링
      • 토멕링크: 다수의 관측치가 몰린곳의 다수측 데이터--> 표본추출
      • CNN(condensed_near_neighbor): 밀집된 데이터제거/ 대표데이터만 남기기
      • OSS(one_sided_selection): 토멕링크+CNN
  • 데이터탐색: 탐데분(EDA)
    • 저항성: 일부파손 ok
    • 잔차의해석: 주경향에서 벗어나는 것 분석
    • 데이터재표현: 단순화
    • 현시성: 데시
  • 데이터분포
    • 중심경향도: 평균/중앙값/최빈값
    • 산포도: 분산/표준편차/범위/사분위범위/변동계수(CV=sigma/mu; 상대적산포도)
    • 자료의 비대칭도:왜도, 첨도 | in 표준정규 | 왜도:0, 첨도: 3
    • 피어슨비대칭계수= 3(평균-중앙값)/표준편차
  • 평활화할 때
    • 좌로치우치면: lnx, root(x)
    • 우로치우치면: ^2, ^3
    • 극단좌로치우침: 1/X
  • 상관관계분석: 단순상관분석(2), 다중상관분석(3↑), 편상관분석
    • 상관분석: 산점도/공분산/상관계수로 선형관계 파악
      • 선형성
      • 등분산성: 흩어진 정도가 같다
      • 정규성
      • iid
    • 상관계수
      • 피어슨(비율/등간) | 흔히 아는 rho구하기 모수방법
      • 스피어만(서열)ㅣ 두 변수를 단조함수를 사용해서 측정 : 비모수방법
        • 스피어만은 표본이 작을 때 용이
      • 상관관계 유의성검정 ---- t-test이용
  • data
    • 시간data: 유효시간/거래시간/사용자정의시간/스냅샷data(특정시점포착 파일시스템 포착, 이미지저장, 보관)
    • 공간data: 비공간/래스터공간(그리드셀로나누고 셀에 정보저장)/벡터공간/기하학적/위상적
    • =====> 지리정보/위치기반/차량위치추적정보
  • 분석
    • 다중회귀: 독립변수2개이상
    • 로지스틱회귀: 종속변수가 이산
    • 분산분석: 3개이상의 표본차이검정
      • SST | df: n-1
      • SSB; 집단간 | df: i-1
      • SSW; 집단내 (mse역할) | df: n-i
      • F=SSB/SSW
  • 비정형데이터
    • text_mining: 비정형텍스트-> 유용한 정보추출
    • data_mining: 방대한 data-> insight
    • opinion_mining: 감정분석!
    • web_mining: SNS누가 영향력있는지 nework기반
      • 소셜네트워킹분석
        • 소셜웹마이닝: 네트워크관계+대화위주분석
        • 소셜애널리틱스: SNS 긍/부 텍스트분석
  • 표본오차(모집단 추론과정에서 발생하는 오차)/비표본오차
  • 확률표본추출
    • SRS
    • 계통: k개씩 n구간나누고 K번째 떨어진 간격으로 원소추출
    • 집락: 집단내 이질/집단간 동질
    • 층화: 집단내 동질/집단간 이질 (남/여)
  • 비확률표본추출
    • 편의표본: 임의
    • 유의표본: 연구자가~
    • 지원자: 희망자대상 표본추출
    • 할당: 모집단 속성파악 후 구성비율을 고려해 추출 (ex. 선거여론조사)
    • 눈덩이(네트워크)
  • 총확률정리: using 베이지안
  • 이산형: 베르누이/이항/기하(처음성공까지 반복한 횟수)/다항/포아송
  • 연속형: 균일/정규/지수(경과시간)/t-분포/카이제곱
    • t-분포의 집단 평균검정
      • 일표본 t검정: 연속형변수의 평균값을 특정 값과 비교
          • ex) 한 집단의 평균이 모평균과 같은지
      • 대응표본(쌍체검정)
          • ex) 한 집단의 전후 차
      • 독립표본 t-검정
          • ex) 두 집단의 차이검정
  • 중심극한정리: 표본이 많을때 분포와 무관하게 정규분포 따름
  • 점추정량 조건: 불편성/효율성/일치성/충족성
  • 율자료-- 기하평균쓰기
  • 자료가 다를 때, 조화<기하<산술 | 자료가 같으면 동일
  • 변수: 변수들은 CRM에 이용되는 경우가 많음
    • 요약변수: 가장 기본/aggregation/재활용성↑
    • 파생변수: 보편적이고 대표성을 가지도록/변수들을 조합한 경우
728x90
반응형

'[빅분기]' 카테고리의 다른 글

[PART3 요약추가]  (0) 2023.10.31
[빅데이터 모델링]  (0) 2023.10.31
[PART1/PART2 오답노트]  (0) 2023.10.31
[빅데이터의 이해]  (0) 2023.10.31
[범주형 자료분석/다차원 척도법/다변량분석/시계열분석]  (0) 2023.10.31