[빅데이터 탐색]

[빅데이터 탐색]

2023. 10. 31. 14:04ㆍ[빅분기]

728x90

횡적자료: 단일시점 여러대상 | 종적자료: + 시계열 ======> 여러시점표현
질적자료: 서열(만족도),명목 | 양적자료: 비율(절대0),등간
데이터 정제: 불완전 데이터를 검출/이동/정정 or 교정
- 1) 수집: 전처리
- 2) 변환
- 3) 교정
- 4) 통합
결측치: 입력누락/ 비어있는 값
- 완전무작위(MCAR): 다른 변수와 연관X, 완전랜덤 <입력안한경우/전산오류누락>
- 무작위(MAR): 특정변수가 영향주지만 결과와 상관X | 결과에는 상관 없어야함
- 비무작위(MNAR): 다른 변수와 상관 있음 | 결과에 영향준다
결측치처리
- 단순대치
  - 단순삭제: MCAR의 경우
    - 1) listwise(데이터가 작은경우 표본감소문제) 2) pairwise
  - 평균대치: 비조건부/조건부
  - 단순확률핫덱: 연구자료에서 표본바탕의 비슷한 규칙찾아 대체
- 다중대치: 단순대치 n번수행
- 그외: 수작업/전영상수/무시
- + 최근접대치
이상치: 전처리과정 발생문제, 의도하지 않게 잘못입력, 분석목적에 부합X, 의도적이상치도 있다
- 사분위(IOR): Q1-1.5IOR~Q3+1.5IOR | Q3-Q1=IOR
- 정규분포: 평균 +- 3sigma
- 군집화: k-clustering 밖의 점들
- 기하평균: 기하평균 좌우 2.5sigma
결측처리
- 삭제: 존재할 수 없는 값은 삭제
- 극단치기준이용: IOR
- .. 절단: 상,하위 5%제거
- 극단값조정
이상치탐지
- 시각화
- z-score ----- 맥락의 정규화/표준편차이용!!
  - 마할라노비스 거리(분포와점사이의 거리)/타원형/각표준편차축으로 projection
- 밀도기반 clustergin ==> DBSCAN; 군집의 밀도이용(군집수 지정 안해도 됨)
- 고립의사나무: 고립점 찾기/ 길이 short
데이터 통합
- 스키마통합&개체의 매칭
- 데이터중복
- 하나의속성/상충되는 값
데이터 축소: 사이즈 줄이기 but 분석결과는 같게
데이터 변환
- 형식&구조변환
- 데이터 scaling: 1)표준화 2) 평활화 3) 정규화<0~1로변환 분포조정>
- 평활화: 매끄럽게--> 시계열의 무작위적 변화효과를 줄여줌(구간화/군집화)
- 비정형데이터의 변환
변수선택
- 필터: feature들 간의 rho확인, 무의미한 변수 filtering -> 유의미한것만 modeling
- 래퍼: 필터보다비용↑/오버피팅↑/교차검증/항상best를 찾는 과정/일부변수로modeli
  - 전진선택: 0모형에서 시작---> 종속변수와rho↑ 포함 [F유의성검증]
  - 후진제거: 전체모형에서시작--> .. ↓포함
  - 단계적: 전진선택진행하고 나머지변수로는 후진제거
- 임베디드: 모델링자체에 변수선택 포함
  - 필터와 래퍼의 장점 결합
  - L1 -라쏘/엘라스틱넥
  - L2 -릿지
차원축소==오퍼피팅방지+해석력 easy
- 다차원척도법(MDS)
  - 객체거리가 저차원 공간상에 최대한 많이 보존되도록하는 좌표계를 찾자
  - sample간의 거리를 보존하면서 차원축소 진행
- PCA
  - 데이터분포의 주성분분석, 고차원data--> 저차원의 선형연관성이 없는 데이터로
  - scaling이 필수/분사이 큰 방향위주/변수하나하나에 대한 분석X/분포의 주성분
  - 직교변환 사용!
- 요인분석
  - 변수간의 상관관계를 고려하여 유사한 변수끼리 묶어 잠재요인 도출
  - 묶는다는 점에서 군집화 하고 독립/종속변수의 개념이 없고 정보손실을 억제
- 선형판별분석(LDA)
  - 분류알고리즘, class를 잘 구분하는 축(투명축과 결정경계)을 학습
- SVD
  - A-> 특이값분해,, 적당한 특이값으로 A의 정보력 만족 | MxN차원 data이용
- t-SNE
  - 2차원embedding벡터학습
  - 데이터간의 거리를 stochastic probability로 변환하여 임베딩
  - p=비슷한 건 가까이, 비슷하지 않으면 멀리있다고 보는 확률개념
- SVM
  - 범주 vs 연속(SVR;regression)
변수변환
- 변수구간화: binning; 연속->범주
- decision_tree: 분리기준사용해서 변환
- dummy: 0,1 (one-hot-encoding)
- 정규분포화: 로그변환/제곱근변환
불균형데이터처리
- 오버샘플링: 더 작은 수의 집단을 표본으로
  - 리샘플링: 더 작은 수의 집단을 복제해서 샘플링/과적합↑
  - smote: .. 일정거리를 가진 가상데이터 생성 (k-nn)
  - ADASYN: .. 관측비율 계산하여 smote진행
  - Boderline smote: .. 서로다른 클래스스간의 경계에서 smote
- 언더샘플링: 더 많은 수의 집단을 표본으로
  - 랜덤언더샘플링
  - 토멕링크: 다수의 관측치가 몰린곳의 다수측 데이터--> 표본추출
  - CNN(condensed_near_neighbor): 밀집된 데이터제거/ 대표데이터만 남기기
  - OSS(one_sided_selection): 토멕링크+CNN
데이터탐색: 탐데분(EDA)
- 저항성: 일부파손 ok
- 잔차의해석: 주경향에서 벗어나는 것 분석
- 데이터재표현: 단순화
- 현시성: 데시
데이터분포
- 중심경향도: 평균/중앙값/최빈값
- 산포도: 분산/표준편차/범위/사분위범위/변동계수(CV=sigma/mu; 상대적산포도)
- 자료의 비대칭도:왜도, 첨도 | in 표준정규 | 왜도:0, 첨도: 3
- 피어슨비대칭계수= 3(평균-중앙값)/표준편차
평활화할 때
- 좌로치우치면: lnx, root(x)
- 우로치우치면: ^2, ^3
- 극단좌로치우침: 1/X
상관관계분석: 단순상관분석(2), 다중상관분석(3↑), 편상관분석
- 상관분석: 산점도/공분산/상관계수로 선형관계 파악
  - 선형성
  - 등분산성: 흩어진 정도가 같다
  - 정규성
  - iid
- 상관계수
  - 피어슨(비율/등간) | 흔히 아는 rho구하기 모수방법
  - 스피어만(서열)ㅣ 두 변수를 단조함수를 사용해서 측정 : 비모수방법
    - 스피어만은 표본이 작을 때 용이
  - 상관관계 유의성검정 ---- t-test이용
data
- 시간data: 유효시간/거래시간/사용자정의시간/스냅샷data(특정시점포착 파일시스템 포착, 이미지저장, 보관)
- 공간data: 비공간/래스터공간(그리드셀로나누고 셀에 정보저장)/벡터공간/기하학적/위상적
- =====> 지리정보/위치기반/차량위치추적정보
분석
- 다중회귀: 독립변수2개이상
- 로지스틱회귀: 종속변수가 이산
- 분산분석: 3개이상의 표본차이검정
  - SST | df: n-1
  - SSB; 집단간 | df: i-1
  - SSW; 집단내 (mse역할) | df: n-i
  - F=SSB/SSW
비정형데이터
- text_mining: 비정형텍스트-> 유용한 정보추출
- data_mining: 방대한 data-> insight
- opinion_mining: 감정분석!
- web_mining: SNS누가 영향력있는지 nework기반
  - 소셜네트워킹분석
    - 소셜웹마이닝: 네트워크관계+대화위주분석
    - 소셜애널리틱스: SNS 긍/부 텍스트분석
표본오차(모집단 추론과정에서 발생하는 오차)/비표본오차
확률표본추출
- SRS
- 계통: k개씩 n구간나누고 K번째 떨어진 간격으로 원소추출
- 집락: 집단내 이질/집단간 동질
- 층화: 집단내 동질/집단간 이질 (남/여)
비확률표본추출
- 편의표본: 임의
- 유의표본: 연구자가~
- 지원자: 희망자대상 표본추출
- 할당: 모집단 속성파악 후 구성비율을 고려해 추출 (ex. 선거여론조사)
- 눈덩이(네트워크)
총확률정리: using 베이지안
이산형: 베르누이/이항/기하(처음성공까지 반복한 횟수)/다항/포아송
연속형: 균일/정규/지수(경과시간)/t-분포/카이제곱
- t-분포의 집단 평균검정
  - 일표본 t검정: 연속형변수의 평균값을 특정 값과 비교
    - - ex) 한 집단의 평균이 모평균과 같은지
  - 대응표본(쌍체검정)
    - - ex) 한 집단의 전후 차
  - 독립표본 t-검정
    - - ex) 두 집단의 차이검정
중심극한정리: 표본이 많을때 분포와 무관하게 정규분포 따름
점추정량 조건: 불편성/효율성/일치성/충족성
율자료-- 기하평균쓰기
자료가 다를 때, 조화<기하<산술 | 자료가 같으면 동일
변수: 변수들은 CRM에 이용되는 경우가 많음
- 요약변수: 가장 기본/aggregation/재활용성↑
- 파생변수: 보편적이고 대표성을 가지도록/변수들을 조합한 경우

728x90

'[빅분기]' 카테고리의 다른 글

[PART3 요약추가] (0)	2023.10.31
[빅데이터 모델링] (0)	2023.10.31
[PART1/PART2 오답노트] (0)	2023.10.31
[빅데이터의 이해] (0)	2023.10.31
[범주형 자료분석/다차원 척도법/다변량분석/시계열분석] (0)	2023.10.31

통계일기

통계일기

태그

최근글

댓글

공지사항

아카이브

'[빅분기]' 카테고리의 다른 글

관련글

티스토리툴바