[빅데이터 모델링]

2023. 10. 31. 14:06[빅분기]

728x90
반응형

 

분석모형 구축

  • 통계분석: 전형적인 데이터 모델 구축기법
    • 회귀분석: 종속변수 값을 예측/인과성/독-종의 선형관계
    • 로지스틱회귀분석: 개별 관측값의 분류
    • 판별분석: 종속변인이 2이상의 그룹으로 이뤄졌을 때, 여러개의 독립변수로 관측값 예측 및 판별
    • 주성분분석: 상관관계가 높은 변수의 선형결합으로 만들어진 주성분이라는 새로운 변수를 만들어 변수를 요약 및 축소
  • 데이터 마이닝: 데이터를 다양한 관점에서 분석--> 패턴 및 상관성을 분석하여 insight
    • 분류(로지스틱회귀/의사결정나무/K-NN/SVM)
    • 예측(회귀/장바구니/시계열/K-NN)
    • 연관(연관성/순차패턴분석)
    • 군집화(군집분석/K-means클러스터링/ML) ex) SOM(Self Organinzing Maps)
  • 머신러닝: 알고리즘으로 학습한 지식 추출 및 이를 기반으로 미래 결과 예측
      • 데이터마이닝과 유사 BUT 매개변수를 기계가 자동으로 학습함
    • 지도학습 ---> 예측/분류모델
    • 비지도학습(자율학습) ---> 군집화/차원축소/연관성분석
    • 강화학습 ex)Q-learning
  • 비정형데이터분석
    • 텍스트마이닝: 비정형 텍스트에서 정보 추출 및 분석/문서분류/군집/자연어처리
    • 오피니언마이닝: 감성분석
    • sns분석
  • 분석모형선정
    • 선정기준: 목적/종속변수의 존재 및 종류파악
  • 분석모형정의: 데이터의 양과 품질이 중요/데이터 셋 분할
  • 분석모형 구축
    • 1) 데이터 수집 및 처리
      • 데이터마트구성: 기존사례분석 및 최대 데이터 선택
      • 데이터현황분석: 데이터 탐색 및 충실도/이상치 파악/오류율 고려
    • 2) 분석알고리즘 수행
      • 알고리즘 선정: 목적/유형/볼륨에 맞는 알고리즘 선택
      • .. 수행: 데이터셋 준비/파라미터 설정 및 조정/분석결과 기록
    • 3) 분석결과 평가 및 모델 선정
      • 최종모델 선정/실질적 활용가능성 검토
  • 데이터분할: 과적합과 일반화를 위해 분석 데이터셋을 훈련/평가/검증으로 나누기
    • 훈련50/평가20/검증30
    • 양성 or 음성 데이터가 훈련과 평가 데이터셋에 몰리지 않도록
  • 홀드아웃: 주어진 데이터를 무작위로 두개의 데이터로 구분하여 사용
    • 교차검증
      • 데이터 K개의 하위그룹으로 분할 K-1개의 훈련/나머지 1개 검증
      • K번 반복측정 --> MSE의 평균으로 최종값
  • 평가척도
    • 지도학습: 분류정확도/평균오차율/오류재현율
    • 비지도학습: 집도 소속률/데이터 밀도 및 군집도
    • 비정형데이터분석: 텍스트 매칭률/문서분류율

통계 분석기법

  • 회귀분석
    • 적합데이터: 계량데이터/명목척도범주자료 가능(더미변수로 변환가능)
    • 가정
      • 오차의 등분산성
      • .. 정규성
      • .. 독립성: 왓슨 검정시 ~2에 가까울수록 자기상관 없음
    • 오차: 실제값-예측값
    • 잔차: 표본관측값-예측값
  • 회귀계수 추정법: 최소제곱법
    • 회귀모형 유의성(F검정)
    • 회귀계수 유의성(t-검정)
    • 모형설명력(결정계수=SSR/SST): 모형은 데이터를 얼마나 설명하는가
  • 그래프
    • normal Q-Q plot: 표준화 잔차 plot; 정규--> 45도
    • scale-location: x축(회귀모형 예측값), y축(표준화 잔차); ---> 기울기:0
    • 쿡의 거리: x축(정렬된 관측값), y축(해당위치의 쿡의 거리); ---> 1이상이면 크다
      • 쿡의 거리: 관측치가 회귀 모형에 미치는 영향을 나타내는 측도
    • 쿡의 거리 vs 레버리지: x축(레버리지), y축(쿡의 거리); ---> 비례관계
  • 다중선형회귀(=중선형회귀분석/다변량회귀분석)
    • 복수의 독립변수가 종속변수에 미치는 영향 추정
    • 데이터가정: 독립-종속변수의 선형성/오차의 독립성,등분산성,정규성
    • 다중공선성: 회귀분석에서 독립변수 사이의 강한 상관관계가 있는 경우
      • PCA나 릿지모형(L2)으로 문제 해결
      • 허용오차(변수에의해 설명되지 않는 부분)가 0.1이하이면 문제심각
      • VIF(분산팽창요인=허용오차 역수)가 10이상이면 문제 심각
  • 결과해석
    • 회귀모형 유의성(F검정)
    • 회귀계수 유의성(t-검정) ---> 표준화계수(평균:0/분산:1)인데이터로 변환하고 검정
    • 모형설명력(결정계수=SSR/SST): 모형은 데이터를 얼마나 설명하는가
  • 최적 회귀방정식 선택
    • 단계적 변수선택
      • 전진선택/후진제거/단계적
    • 벌점화된 선택
      • AIC: 최소 정보 손실을 갖는 모델을 적합하다 판단
      • BIC: AIC, 변수가 많을수록 패널티부여
    • 수정된 결정계수
      • MSE가 최소인 시점의 모형/최소와 비슷해서 변수 추가 필요 없는 시점의 모형선택
    • Mallow's Cp
      • 모든변수를 사용한 모형과 p개의 변수를 사용한 모형이 얼마나 가까운지를 나타내는 통계량 ---> 작을수록 좋당!!!
    • 모든 변수가 추가될수록 잔차제곱합이 작아진다 ---> 과적합 발생가능
  • 정규화 선형회귀: 선형회귀계수에 제약조건 추가해서 오버피팅 막음
    • 라쏘(L1): 가중치 절대값의 합을 최소화하는 제약조건
      • 가중치가 0에 가까워지난 0이 되지 않는 릿지와 달리 라쏘는 가능
    • 릿지(L2): 가중치 제곱합 최소화..
      • 가중치의 모든 원소가 0에 가까워지길 원함
      • 람다 도입해서 trade-off관계/ 람다가 커지면 가중치 줄고, 람다가 작아지면 일반적 선형회귀 모형이 된다.
    • 엘라스틱 넷(L1): 릿지+라쏘 ===> 두개의 하이퍼파라미터가징
  • GLM(일반화선형회귀): Y=g(X)+epsilon
    • 종속변수를 적절한 함수로 바꿔 독립변수와 선형결합
      • 랜덤성분(종속변수의 확률분포)
      • 체계적성분(설명변수X들이 결합된 형태)
      • 연결함수(랜덤성분과 체계적 성분의 연결) | g(.)
  • 회귀분석의 영향력 진단: 모형의 안전성 판단
    • 영향점: 회귀직선의 기울기에 영향을 크게 미치는 점
      • 쿡의 거리/DFBEtAS/DFFIts/leverage-H 이용
  • 범주형 자료분석
    • 설명(범주)/반응(범주) ==> 분할표/카이제곱
    • 설명(범주)/반응(연속) ==> T검정/분산분석
    • 설명(연속)/반응(범주) ==> 로지스틱
  • 분할표분석(교차표): 행(설명변수), 열(반응변수)
  • 카이제곱/교차분석(관찰빈도와 기대빈도간의 차이검정)
    • 적합성: 실험에서 얻어진 관측값이 이론과 일치하는 가(분포가정검정)
    • 독립성: 모집단의 두 변수가 독립인지 검정
    • 동질성: 범주화된 집단의 분포가 서로 동일한지 검정
  • 다차원 척도법: 객체간 근접성을 시각화
    • 유사/비유사성 측정하여 2,3차원 공간에 산점도
    • 데이터 속 숨은 패턴/구조찾기 ---> 소수 차원의 공간에 기하학적으로 표현
    • 데이터 축소
    • 유클리드거리행렬사용 ---> 상대적 거리 정확도(스트레스값;비유사성)로 적합정도 나타냄 | 0: 완벽/0.15이상:나쁨
    • 최적모형적합: 부적합도를 최소로하는 반복알고리즘/부적합도가 일정수준 이하일 때 적합모형으로 선정
      • 계량적MDS(등간/비율)
      • 비계량적(순서): 개체사이 거리가 순서이면, 순서척도를 거리로 변환하여 적용
  • 다변량 분석
    • 주성부분분석
      • 첫번째 주성분으로 전체변동을 가장 많이 설명
      • 주성분은 서로 독립이어야 함
      • 소수의 주성분으로 차원축소/다중공선성존재시 무관한 주성분으로 변수 축소해서 모델 활용가능/군집분석 시 연산속도 향상
      • 기여율: 각 변수 분산값의 합(주성분 변수의 분산)
          • == 총변동에 대한 주성분의 설명력 ~1일수록 GOOD
      • scree-plot:x(주성분), y(고유치==분산)
    • 요인분석: 상관관계로 서로 비슷한 변수를 묶어 새로운 잠재요인 추출
      • 변수조건(등간/비율척도) | 표본(100개이상)
      • 요인적재값: 변수와 해당요인의 상관계수
        • ^2== 해당변수가 요인으로 설명되는 분산 비율
      • 고유값: 요인의 모든 변수의 요인 적재값 제곱의 합
        • 해당 요인이 설명할 수 있는 변수의 분산의 총합
      • 공통성: 여러 요인이 설명할 수 있는 한 변수의 분산의 양을 백분율로 표시
        • 한 변수의 공통성은 추출된 요인이 그 변수의 분산을 얼마나 설명
      • 요인추출법
        • PCA: 전체 분산을 바탕으로 요인추출
        • 공통요인분석: 공통분산만으로 요인추출/잠재요인에서 변수가 산출되는 것으로 보는 방식
      • 요인수결정
        • 고유값 기준 >1 이상인 요인 추출
        • 스크리: 팔꿈치 지점
      • 절차
        • 데이터입력-상관계수-요인추출-요인적재량-요인회전(직각/비직각)-생성된요인해석-요인점수(요인점수계수*표준화관측치)산출
    • 판별분석: 집단에 대한 정보로 집단 구별하는 판별함수/규칙 --> 분류
      • 조건: 독립변수(등간/비율)[다변량정규분포]/ 종속(명목/서열)
      • 판별식도출: 그룹내 분산에 비해 그룹간 분산을 최대화하는 독립변수의 계수탐색
      • 판별함수 수: min(집단수-1,독립변수의 수)인 만큼 생성 ---> 가장 먼저 계산된 판별식의 판별력이 가장 높다
      • 가정: 종속변수에 의해 범주화되는 그룹의 분산-공분산행렬이 동일
      • 판별함수에 포함될 독립변수 선택법
        • 동시입력방식
        • 단계입력방식
      • 적합도: 카이제곱/hi-ratio(정확히분류된대상 수/전체대상의 수)
  • 시계열 분석
    • 시계열자료: 시간의 흐름에 따라 관측
    • 종류: 비정상성/정상성
    • 정상성: 시계열의 확률적이 성질이 시간의 흐름에 따라 변하지 않는 것,
      • ==> 시계열 분석하려면 정상성 만족해야함
      • 조건 1) 평균일정: 일정하지 않으면 차분(현-전) ; 정상화
      • 조건 2) 분산일정: .. 변환하셈 ; 정상화
      • 조건 3) 공분산은 시차에만 의존/특정 시점에 의존하지 않는다
    • 정상시계열의 특징
      • 어떤 시점에서 평균/분산/특정 시차의 길이를 갖는 자기공분산을 측정해도 동일값/ 항상 평균으로 회귀하려는 경향/ 평균주변에서의 변동폭이 일정
    • 분석방법: 회귀/box-Jenkins/지수평활/시계열 분해
      • 일변량: box-Jenkins/지수평활/시계열 분해
      • 다변량: 회귀분석(계량경제)/전이함수모형/개입분석
    • 이동평균법: 이동평균 계산/추세파악--> 다음기간 예측
      • 계절변동과 불규칙 변동제거/추세변동과​ 순환변동만 가진 시계열로 변환
      • 간단/자료수가 많고 안정적 패턴을 보이면 예측 품질 좋음
      • 특정 기간에 속하는 시계열은 동일 가중치
      • 불규칙 변동이 심하지 않은 경우 짧은 기간의 평균 사용
      • 적절한 기간,m의 개수를 선정하는 것이 가장 중요
    • 지수평활법: 모든 시계열 자료를 사용해 평균을 구하고, 최근 데이터에 더 많은 가중치를 부여해 미래 예측
      • 단기간에 발생하는 불규칙변동을 평활화
      • 지수평활계수가 가중치역할/불규칙변동이 큰 시계열의 경우 낮은 지수평활계수를 가짐
      • 지수평활계수는 예측오차를 비교해 예측오차가 작은 값을 고름
      • 지수평활계수는 과거일수록 감소
      • 중기 예측 이상에 주로 사용
    • 시계열 모형(AR)
      • 자기회귀모형: 자기상관성을 시계열 모형으로 나타낸 것
        • 자기상관성: p시점 이전의 자료가 현재 자료에 영향을 주는 것
        • ACF: 시계열 데이터의 자기상관성을 파악하기 위한 함수
    • 이동평균 모형:시간이 지나며 관측치 평균값의 지속적 증/감의 경향을 나타낸 모형
      • 현시점의 자료를 유한한 수량의 백색잡음의 결합으로 표현해 늘 정상성 만족
    • 자기회귀누적이동평균모형(ARIMA): 자기회귀,이동평균 모두고려
      • 과거값과 과거 예측오차로 현재값을 설명
      • 비정상 시계열 모형/차분이나 변환으로 다른 모형으로 정상화 가능
      • p-AR지수/q-MA지수/d-차분횟수 ---> 이렇게 3개 차수가 있음
    • 분해시계열: 시계열에 영향을 주는 일반적 요인을 시계열에서 분리해 분석하는 법
      • Z=f(T,S,C,I)
      • T: 경향요인
      • S: 계절요인
      • C: 순환요인
      • I : 불규칙요인
  • 비모수통계
    • 모수적방법: 모집단 분포가정 --> 검정통계량과 분포를 유도하여 검정
    • 비모수적..: 추출된 모집단 분포에 아무 제약을 가하지 않고 검정/특정분포를 따른다고 할 수 없는 경우에 활용
    • 콜모고로프-스미르노프(단일표본)
      • 관측치가 [정규/포아송]처럼 특정분포 따르는지 검정
      • 누적관측치와 누적이론분포와의 절대값으로 검정통계량 계산
    • 맨 휘트니U검정(독립두표본)
      • 두 집단의 분포가 동일한지
      • 두 집단의 관측값 통합 --> 크기순 정렬 후 순위 부여 --> 그룹별로 순위의 합을 구해 두 그룹의 순위 합의 크기가 통계적으로 차이있는지 검정
      • 윌콕슨은 중앙값이용하는 반면 검정통계량은 다르지만 결과는 동일하다
          • if) 독립인 두집단의 평균차 비교에서
            • 정규성만족(모수적)==> 독립표본 t검정
            • .. 불만족(비모수적)==> 맨휘트니 or 윌콕슨
              • H0: 두 집단의 순위합은 동일하다
    • 윌콕슨의 부호 순위 검정(대응 두 표본)
      • 대응하는 두 중위수에 차이가 있는지 검정
          • if) 독립인 두집단의 평균차 비교에서
            • 정규성만족(모수적)==> 대응표본 t검정<쌍체비교>
            • .. 불만족(비모수적)==> 윌콕슨
              • H0: 두 집단의 중앙값은 동일하다
    • 런 검정: 연속적인 관측값들이 무작위로 나타났는지 검정
      • 우연성 검정
      • 런: 한 종류의 부호/집단이 시작하여 끝날 때까지의 덩어리
      • 양의상관) 이전 시점의 값이 지속되는 경향
      • 중앙선을 기준으로 런이 교차하는 경우가 매우 적거나 많으면 독립적이라고 보기 어려움 ---> 적당하자~~
      • 표본크기:n , 런의수: R, 표본이 독립이면 R은 정규분포따른다 (자연스럽게~)
      • 가설) 일련의 관측치는 랜덤이다(표본은 독립)
728x90
반응형

'[빅분기]' 카테고리의 다른 글

[모의고사 1회차/오답노트]  (1) 2023.10.31
[PART3 요약추가]  (0) 2023.10.31
[PART1/PART2 오답노트]  (0) 2023.10.31
[빅데이터 탐색]  (0) 2023.10.31
[빅데이터의 이해]  (0) 2023.10.31