[범주형 자료분석/다차원 척도법/다변량분석/시계열분석]

2023. 10. 31. 13:58[빅분기]

728x90
반응형

범주형 자료분석은 자료들이 이산형(discrete)인 경우에 사용한다.

sucess (성공)
fail (실패)
exposed ( 관심집단 )
a
b
unexposed ( 비교집단 )
c
d

1) RR : 비교집단 위험률 대비 관심집단 위험률 ; 상대적 위험도

==> RR은 비교집단 위험률대비 관심집단이 위험률을 나타내기 때문에

- RR=1 : 무관

- RR>1 : 확률높음

- RR<1 : 확률낮음

2) Odds : 비교집단 승산대비 관심집단 승산

==> Odds는 주어진 환경에서 발생할 확률/그렇지 않을 확률이기 때문에

 

==> Odds비는 비교집단 승산대비 관심집단이 승산을 나타내기 때문에

3) 카이제곱 (= 교차분석) , 카이제곱 검정은 세가지 분석이 가능하다.

1) 적합도 2) 독립성 3) 동질성

적합도 검정 : 특정분포를 따르는가 | df=k-1

독립성 검정: 두 변수가 독립인가 | df=(r-1)(c-1)

동질성 검정: 각 범주의 모집단이 동질한가 | 계산법은 독립성 검정과 동일


다차원 척도법

다차원척도법은 개체들 사이의 유사/비유사성을 측정해서 개체를 2,3차원 공간에 으로 표현한다. ( 개체간 근접성과 집단화를 시각적으로 표현 )

장점) 1. 잠재패턴 발견 -> 공간에 기하학적으로 표현

2. 데이터 축소, 데이터 정보발견을 위한 탐색수단

3. 데이터가 만들어진 현상이나 과정에 고유의 의미부여

유클리드 거리 (d) 계산 == 개체간의 유사/비유사성 측정 == 적합/부적합 측정

(s)라는 스트레스값으로 재표현 --> 스트레스 값(S)이 best인 모형 찾자

S=0 ; 완벽, S>0.15; 적합수준이 나쁘다

종류) 1. 계량적 (등간척도/비율척도) 2. 비계량적 (순서척도)


다변량분석은 PCA, 요인분석, 판별분석의 내용을 담고 있다.

1) PCA : 주성분분석은 상관성이 높은 변수들의 선형결합으로 이뤄진

'주성분' 이라는 새로운 변수에 변수들을 요약, 축소하는 기법이다.

 

장점) 1. 차원축소 -> 데이터 이해 easy

2. 직교하는 축을 찾으므로 rho=0이 되어서 다중공선성 문제해결

3. 차원을 줄였기 때문에 군집분석 수행시 연산속도 개선

 

주성분 기억률(=주성분변수의 분산) ㅣ 총변동에 대한 설명력을 가진다

누적기억률 > 85% 가 되는 변수까지 선택한다

팔꿈치그림(=Scree plot) : 주성분(x축), 고유치(y축)

2) 요인분석 : 변수간 상관관계 고려해서 비슷한 변수를 묶어서 해로운 잠재요인추출

조건 [ 등간/비율척도, 표본은 100개이상 ]

요인 : 새롭게 생성한 변수집단

요인적재값 : 변수와 요인간 상관계수

--> 이거 제곱하면 해당변수가 요인으로 설명되는 분산비

고유값 : 요인이 설명할 수 있는 변수분산의 총합

공통성 : 요인이 설명할 수 있는 한 변수의 분산의 양을 백분율로, 즉 요인이 변수의 정보를 얼마나 설명하는가를 나타냄

  • 요인 추출방법) 1. 주성분분석 : 주로사용, 총분산 기반 요인추출

2. 공통요인분석: 공통분산만 기반 요인추출

 

- 주성분분석 ) n개의 입력 변수들이 가지는 총분산을 n개의 주성분으로 다시 나타냄, 먼저 추출된 주성분 요인이 총분산을 많이 설명하도록 순차적으로 추출

--> 총분산 쓰기 때문에 정보손실을 줄이고 총분산을 많이 설명하도록 하는 요인을 효과적으로 추출해서 공통요인분석보다 주로 사용됨.

  • 요인수 결정) 1. 고유값 >1 인 요인

2. scree plot의 팔꿈치

 

  • 요인분석 절차)

① 데이터입력

② 상관계수산출

③ 요인추출

④ 요인적재량산출

요인회전 ; 요인해석과 패턴을 찾으려보 분산 재분배

⑥ 생성된요인해석

⑦ 요인점수산출

요인회전직각(쿼티, 베리, 아퀴멕스)/비직각회전(오블라민) 있음

3) 판별분석 : 집단을 구별할 수 있는 판별함수와 규칙을 만들어 개체가 어느 집단에 속하는지 분류하는 다변량 기법.

조건 [ 독립변수: 등간/비율, 종속변수: 명목/순서 ]

  • 판별식) Z(판별점수) = 독립변수들의 선형결합
  • 판별식 수) min(집단수-1, 독립변수 수)
  • 판별방식) 그룹 내 분산에 비해 그룹간 분산의 차이를 최대화하는 계수탐색

시계열분석은 시간의 흐름에 따른 관측자료분석이다.

  • 정상성 : 시계열의 확률적인 성질들이 시간의 흐름에 따라 변하지 않음.

① 평균일정 : 모든시점에 대해 일정, 정상화(=차분:현-전)

② 분산일정 : 시점에 의존X, 정상화(변환)

③ 공분산은 시차에만 의존, 특정시점에 의존X

<=> 시차가 있어야만 공분산 존재가능

=> 항상 평균으로 회귀하려는 경향

=> 평균값 주변 변동폭이 일정

 

 시계열 모형

  • 자기회귀 모형(AR) : 자기상관성을 시계열 모형으로 구성

| p시점 전의 자료가 현재 자료에 영향을 주는 특성

| 자기상관함수(ACF) : 시계열 데이터의 자기상관성 파악

| Z=현재시점의 시계열 자료

  • 이동평균 모형(MA) : 시간이 지날수록 관측치의 평균값이 지속적으로 증가하거나 감소하는 경향을 표현, 언제나 정상성 만족

 

728x90
반응형

'[빅분기]' 카테고리의 다른 글

[PART3 요약추가]  (0) 2023.10.31
[빅데이터 모델링]  (0) 2023.10.31
[PART1/PART2 오답노트]  (0) 2023.10.31
[빅데이터 탐색]  (0) 2023.10.31
[빅데이터의 이해]  (0) 2023.10.31