[빅데이터 모델링]

[빅데이터 모델링]

2023. 10. 31. 14:06ㆍ[빅분기]

728x90

분석모형 구축

통계분석: 전형적인 데이터 모델 구축기법
- 회귀분석: 종속변수 값을 예측/인과성/독-종의 선형관계
- 로지스틱회귀분석: 개별 관측값의 분류
- 판별분석: 종속변인이 2이상의 그룹으로 이뤄졌을 때, 여러개의 독립변수로 관측값 예측 및 판별
- 주성분분석: 상관관계가 높은 변수의 선형결합으로 만들어진 주성분이라는 새로운 변수를 만들어 변수를 요약 및 축소
데이터 마이닝: 데이터를 다양한 관점에서 분석--> 패턴 및 상관성을 분석하여 insight
- 분류(로지스틱회귀/의사결정나무/K-NN/SVM)
- 예측(회귀/장바구니/시계열/K-NN)
- 연관(연관성/순차패턴분석)
- 군집화(군집분석/K-means클러스터링/ML) ex) SOM(Self Organinzing Maps)
머신러닝: 알고리즘으로 학습한 지식 추출 및 이를 기반으로 미래 결과 예측
- - 데이터마이닝과 유사 BUT 매개변수를 기계가 자동으로 학습함
- 지도학습 ---> 예측/분류모델
- 비지도학습(자율학습) ---> 군집화/차원축소/연관성분석
- 강화학습 ex)Q-learning
비정형데이터분석
- 텍스트마이닝: 비정형 텍스트에서 정보 추출 및 분석/문서분류/군집/자연어처리
- 오피니언마이닝: 감성분석
- sns분석
분석모형선정
- 선정기준: 목적/종속변수의 존재 및 종류파악
분석모형정의: 데이터의 양과 품질이 중요/데이터 셋 분할
분석모형 구축
- 1) 데이터 수집 및 처리
  - 데이터마트구성: 기존사례분석 및 최대 데이터 선택
  - 데이터현황분석: 데이터 탐색 및 충실도/이상치 파악/오류율 고려
- 2) 분석알고리즘 수행
  - 알고리즘 선정: 목적/유형/볼륨에 맞는 알고리즘 선택
  - .. 수행: 데이터셋 준비/파라미터 설정 및 조정/분석결과 기록
- 3) 분석결과 평가 및 모델 선정
  - 최종모델 선정/실질적 활용가능성 검토
데이터분할: 과적합과 일반화를 위해 분석 데이터셋을 훈련/평가/검증으로 나누기
- 훈련50/평가20/검증30
- 양성 or 음성 데이터가 훈련과 평가 데이터셋에 몰리지 않도록
홀드아웃: 주어진 데이터를 무작위로 두개의 데이터로 구분하여 사용
- 교차검증
  - 데이터 K개의 하위그룹으로 분할 K-1개의 훈련/나머지 1개 검증
  - K번 반복측정 --> MSE의 평균으로 최종값
평가척도
- 지도학습: 분류정확도/평균오차율/오류재현율
- 비지도학습: 집도 소속률/데이터 밀도 및 군집도
- 비정형데이터분석: 텍스트 매칭률/문서분류율

통계 분석기법

회귀분석
- 적합데이터: 계량데이터/명목척도범주자료 가능(더미변수로 변환가능)
- 가정
  - 오차의 등분산성
  - .. 정규성
  - .. 독립성: 왓슨 검정시 ~2에 가까울수록 자기상관 없음
- 오차: 실제값-예측값
- 잔차: 표본관측값-예측값
회귀계수 추정법: 최소제곱법
- 회귀모형 유의성(F검정)
- 회귀계수 유의성(t-검정)
- 모형설명력(결정계수=SSR/SST): 모형은 데이터를 얼마나 설명하는가
그래프
- normal Q-Q plot: 표준화 잔차 plot; 정규--> 45도
- scale-location: x축(회귀모형 예측값), y축(표준화 잔차); ---> 기울기:0
- 쿡의 거리: x축(정렬된 관측값), y축(해당위치의 쿡의 거리); ---> 1이상이면 크다
  - 쿡의 거리: 관측치가 회귀 모형에 미치는 영향을 나타내는 측도
- 쿡의 거리 vs 레버리지: x축(레버리지), y축(쿡의 거리); ---> 비례관계
다중선형회귀(=중선형회귀분석/다변량회귀분석)
- 복수의 독립변수가 종속변수에 미치는 영향 추정
- 데이터가정: 독립-종속변수의 선형성/오차의 독립성,등분산성,정규성
- 다중공선성: 회귀분석에서 독립변수 사이의 강한 상관관계가 있는 경우
  - PCA나 릿지모형(L2)으로 문제 해결
  - 허용오차(변수에의해 설명되지 않는 부분)가 0.1이하이면 문제심각
  - VIF(분산팽창요인=허용오차 역수)가 10이상이면 문제 심각
결과해석
- 회귀모형 유의성(F검정)
- 회귀계수 유의성(t-검정) ---> 표준화계수(평균:0/분산:1)인데이터로 변환하고 검정
- 모형설명력(결정계수=SSR/SST): 모형은 데이터를 얼마나 설명하는가
최적 회귀방정식 선택
- 단계적 변수선택
  - 전진선택/후진제거/단계적
- 벌점화된 선택
  - AIC: 최소 정보 손실을 갖는 모델을 적합하다 판단
  - BIC: AIC, 변수가 많을수록 패널티부여
- 수정된 결정계수
  - MSE가 최소인 시점의 모형/최소와 비슷해서 변수 추가 필요 없는 시점의 모형선택
- Mallow's Cp
  - 모든변수를 사용한 모형과 p개의 변수를 사용한 모형이 얼마나 가까운지를 나타내는 통계량 ---> 작을수록 좋당!!!
- 모든 변수가 추가될수록 잔차제곱합이 작아진다 ---> 과적합 발생가능
정규화 선형회귀: 선형회귀계수에 제약조건 추가해서 오버피팅 막음
- 라쏘(L1): 가중치 절대값의 합을 최소화하는 제약조건
  - 가중치가 0에 가까워지난 0이 되지 않는 릿지와 달리 라쏘는 가능
- 릿지(L2): 가중치 제곱합 최소화..
  - 가중치의 모든 원소가 0에 가까워지길 원함
  - 람다 도입해서 trade-off관계/ 람다가 커지면 가중치 줄고, 람다가 작아지면 일반적 선형회귀 모형이 된다.
- 엘라스틱 넷(L1): 릿지+라쏘 ===> 두개의 하이퍼파라미터가징
GLM(일반화선형회귀): Y=g(X)+epsilon
- 종속변수를 적절한 함수로 바꿔 독립변수와 선형결합
  - 랜덤성분(종속변수의 확률분포)
  - 체계적성분(설명변수X들이 결합된 형태)
  - 연결함수(랜덤성분과 체계적 성분의 연결) | g(.)
회귀분석의 영향력 진단: 모형의 안전성 판단
- 영향점: 회귀직선의 기울기에 영향을 크게 미치는 점
  - 쿡의 거리/DFBEtAS/DFFIts/leverage-H 이용
범주형 자료분석
- 설명(범주)/반응(범주) ==> 분할표/카이제곱
- 설명(범주)/반응(연속) ==> T검정/분산분석
- 설명(연속)/반응(범주) ==> 로지스틱
분할표분석(교차표): 행(설명변수), 열(반응변수)
카이제곱/교차분석(관찰빈도와 기대빈도간의 차이검정)
- 적합성: 실험에서 얻어진 관측값이 이론과 일치하는 가(분포가정검정)
- 독립성: 모집단의 두 변수가 독립인지 검정
- 동질성: 범주화된 집단의 분포가 서로 동일한지 검정
다차원 척도법: 객체간 근접성을 시각화
- 유사/비유사성 측정하여 2,3차원 공간에 산점도
- 데이터 속 숨은 패턴/구조찾기 ---> 소수 차원의 공간에 기하학적으로 표현
- 데이터 축소
- 유클리드거리행렬사용 ---> 상대적 거리 정확도(스트레스값;비유사성)로 적합정도 나타냄 | 0: 완벽/0.15이상:나쁨
- 최적모형적합: 부적합도를 최소로하는 반복알고리즘/부적합도가 일정수준 이하일 때 적합모형으로 선정
  - 계량적MDS(등간/비율)
  - 비계량적(순서): 개체사이 거리가 순서이면, 순서척도를 거리로 변환하여 적용
다변량 분석
- 주성부분분석
  - 첫번째 주성분으로 전체변동을 가장 많이 설명
  - 주성분은 서로 독립이어야 함
  - 소수의 주성분으로 차원축소/다중공선성존재시 무관한 주성분으로 변수 축소해서 모델 활용가능/군집분석 시 연산속도 향상
  - 기여율: 각 변수 분산값의 합(주성분 변수의 분산)
    - - == 총변동에 대한 주성분의 설명력 ~1일수록 GOOD
  - scree-plot:x(주성분), y(고유치==분산)
- 요인분석: 상관관계로 서로 비슷한 변수를 묶어 새로운 잠재요인 추출
  - 변수조건(등간/비율척도) | 표본(100개이상)
  - 요인적재값: 변수와 해당요인의 상관계수
    - ^2== 해당변수가 요인으로 설명되는 분산 비율
  - 고유값: 요인의 모든 변수의 요인 적재값 제곱의 합
    - 해당 요인이 설명할 수 있는 변수의 분산의 총합
  - 공통성: 여러 요인이 설명할 수 있는 한 변수의 분산의 양을 백분율로 표시
    - 한 변수의 공통성은 추출된 요인이 그 변수의 분산을 얼마나 설명
  - 요인추출법
    - PCA: 전체 분산을 바탕으로 요인추출
    - 공통요인분석: 공통분산만으로 요인추출/잠재요인에서 변수가 산출되는 것으로 보는 방식
  - 요인수결정
    - 고유값 기준 >1 이상인 요인 추출
    - 스크리: 팔꿈치 지점
  - 절차
    - 데이터입력-상관계수-요인추출-요인적재량-요인회전(직각/비직각)-생성된요인해석-요인점수(요인점수계수*표준화관측치)산출
- 판별분석: 집단에 대한 정보로 집단 구별하는 판별함수/규칙 --> 분류
  - 조건: 독립변수(등간/비율)[다변량정규분포]/ 종속(명목/서열)
  - 판별식도출: 그룹내 분산에 비해 그룹간 분산을 최대화하는 독립변수의 계수탐색
  - 판별함수 수: min(집단수-1,독립변수의 수)인 만큼 생성 ---> 가장 먼저 계산된 판별식의 판별력이 가장 높다
  - 가정: 종속변수에 의해 범주화되는 그룹의 분산-공분산행렬이 동일
  - 판별함수에 포함될 독립변수 선택법
    - 동시입력방식
    - 단계입력방식
  - 적합도: 카이제곱/hi-ratio(정확히분류된대상 수/전체대상의 수)
시계열 분석
- 시계열자료: 시간의 흐름에 따라 관측
- 종류: 비정상성/정상성
- 정상성: 시계열의 확률적이 성질이 시간의 흐름에 따라 변하지 않는 것,
  - ==> 시계열 분석하려면 정상성 만족해야함
  - 조건 1) 평균일정: 일정하지 않으면 차분(현-전) ; 정상화
  - 조건 2) 분산일정: .. 변환하셈 ; 정상화
  - 조건 3) 공분산은 시차에만 의존/특정 시점에 의존하지 않는다
- 정상시계열의 특징
  - 어떤 시점에서 평균/분산/특정 시차의 길이를 갖는 자기공분산을 측정해도 동일값/ 항상 평균으로 회귀하려는 경향/ 평균주변에서의 변동폭이 일정
- 분석방법: 회귀/box-Jenkins/지수평활/시계열 분해
  - 일변량: box-Jenkins/지수평활/시계열 분해
  - 다변량: 회귀분석(계량경제)/전이함수모형/개입분석
- 이동평균법: 이동평균 계산/추세파악--> 다음기간 예측
  - 계절변동과 불규칙 변동제거/추세변동과 순환변동만 가진 시계열로 변환
  - 간단/자료수가 많고 안정적 패턴을 보이면 예측 품질 좋음
  - 특정 기간에 속하는 시계열은 동일 가중치
  - 불규칙 변동이 심하지 않은 경우 짧은 기간의 평균 사용
  - 적절한 기간,m의 개수를 선정하는 것이 가장 중요
- 지수평활법: 모든 시계열 자료를 사용해 평균을 구하고, 최근 데이터에 더 많은 가중치를 부여해 미래 예측
  - 단기간에 발생하는 불규칙변동을 평활화
  - 지수평활계수가 가중치역할/불규칙변동이 큰 시계열의 경우 낮은 지수평활계수를 가짐
  - 지수평활계수는 예측오차를 비교해 예측오차가 작은 값을 고름
  - 지수평활계수는 과거일수록 감소
  - 중기 예측 이상에 주로 사용
- 시계열 모형(AR)
  - 자기회귀모형: 자기상관성을 시계열 모형으로 나타낸 것
    - 자기상관성: p시점 이전의 자료가 현재 자료에 영향을 주는 것
    - ACF: 시계열 데이터의 자기상관성을 파악하기 위한 함수
- 이동평균 모형:시간이 지나며 관측치 평균값의 지속적 증/감의 경향을 나타낸 모형
  - 현시점의 자료를 유한한 수량의 백색잡음의 결합으로 표현해 늘 정상성 만족
- 자기회귀누적이동평균모형(ARIMA): 자기회귀,이동평균 모두고려
  - 과거값과 과거 예측오차로 현재값을 설명
  - 비정상 시계열 모형/차분이나 변환으로 다른 모형으로 정상화 가능
  - p-AR지수/q-MA지수/d-차분횟수 ---> 이렇게 3개 차수가 있음
- 분해시계열: 시계열에 영향을 주는 일반적 요인을 시계열에서 분리해 분석하는 법
  - Z=f(T,S,C,I)
  - T: 경향요인
  - S: 계절요인
  - C: 순환요인
  - I : 불규칙요인
비모수통계
- 모수적방법: 모집단 분포가정 --> 검정통계량과 분포를 유도하여 검정
- 비모수적..: 추출된 모집단 분포에 아무 제약을 가하지 않고 검정/특정분포를 따른다고 할 수 없는 경우에 활용
- 콜모고로프-스미르노프(단일표본)
  - 관측치가 [정규/포아송]처럼 특정분포 따르는지 검정
  - 누적관측치와 누적이론분포와의 절대값으로 검정통계량 계산
- 맨 휘트니U검정(독립두표본)
  - 두 집단의 분포가 동일한지
  - 두 집단의 관측값 통합 --> 크기순 정렬 후 순위 부여 --> 그룹별로 순위의 합을 구해 두 그룹의 순위 합의 크기가 통계적으로 차이있는지 검정
  - 윌콕슨은 중앙값이용하는 반면 검정통계량은 다르지만 결과는 동일하다
    - - if) 독립인 두집단의 평균차 비교에서
        
        정규성만족(모수적)==> 독립표본 t검정
        
        .. 불만족(비모수적)==> 맨휘트니 or 윌콕슨
        
        H0: 두 집단의 순위합은 동일하다
- 윌콕슨의 부호 순위 검정(대응 두 표본)
  - 대응하는 두 중위수에 차이가 있는지 검정
    - - if) 독립인 두집단의 평균차 비교에서
        
        정규성만족(모수적)==> 대응표본 t검정<쌍체비교>
        
        .. 불만족(비모수적)==> 윌콕슨
        
        H0: 두 집단의 중앙값은 동일하다
- 런 검정: 연속적인 관측값들이 무작위로 나타났는지 검정
  - 우연성 검정
  - 런: 한 종류의 부호/집단이 시작하여 끝날 때까지의 덩어리
  - 양의상관) 이전 시점의 값이 지속되는 경향
  - 중앙선을 기준으로 런이 교차하는 경우가 매우 적거나 많으면 독립적이라고 보기 어려움 ---> 적당하자~~
  - 표본크기:n , 런의수: R, 표본이 독립이면 R은 정규분포따른다 (자연스럽게~)
  - 가설) 일련의 관측치는 랜덤이다(표본은 독립)

728x90

저작자표시 비영리 변경금지 (새창열림)

'[빅분기]' 카테고리의 다른 글

[모의고사 1회차/오답노트] (1)	2023.10.31
[PART3 요약추가] (0)	2023.10.31
[PART1/PART2 오답노트] (0)	2023.10.31
[빅데이터 탐색] (0)	2023.10.31
[빅데이터의 이해] (0)	2023.10.31

통계일기

통계일기

태그

최근글

댓글

공지사항

아카이브

'[빅분기]' 카테고리의 다른 글

관련글

티스토리툴바