[빅분기](9)
-
[빅데이터 탐색]
횡적자료: 단일시점 여러대상 | 종적자료: + 시계열 ======> 여러시점표현 질적자료: 서열(만족도),명목 | 양적자료: 비율(절대0),등간 데이터 정제: 불완전 데이터를 검출/이동/정정 or 교정 1) 수집: 전처리 2) 변환 3) 교정 4) 통합 결측치: 입력누락/ 비어있는 값 완전무작위(MCAR): 다른 변수와 연관X, 완전랜덤 무작위(MAR): 특정변수가 영향주지만 결과와 상관X | 결과에는 상관 없어야함 비무작위(MNAR): 다른 변수와 상관 있음 | 결과에 영향준다 결측치처리 단순대치 단순삭제: MCAR의 경우 1) listwise(데이터가 작은경우 표본감소문제) 2) pairwise 평균대치: 비조건부/조건부 단순확률핫덱: 연구자료에서 표본바탕의 비슷한 규칙찾아 대체 다중대치: 단순대치 ..
2023.10.31 -
[빅데이터의 이해]
빅데이터의 이해 데이터의 구분 정량적: 주로 숫자 정성적: 비정형, ex) 텍스트, 문자 데이터 유형 정형: RDB, CSV, 스프레드시트 반정형: 스키마제공(웹로그, 알람, XML, HTML, JSON, RSS) 비정형: 이미지, 오디오, 문자 NoSQl SQL: 데이터베이스 접근시 쓰는 언어/데이터 정의,조작,제어기능 데이터 기반 지식 구분 암묵지: 숨은지식, 타인에게 공유 어려움 (내면화, 공통화) 형식지: 형상화된 지식, 구체적 형태가 있음 (표출화, 연결화) 데이터 기반 지식 구분: 내면화-> 공통화 -> 표출화 -> 연결화 DIKW: data(객관적 사실)-infomation- knowledge-wisdom(창의적 아이디어) DB: 정형데이터관리(정리된 수집물, 체계적 편집물+검색도구) -> ..
2023.10.31 -
[범주형 자료분석/다차원 척도법/다변량분석/시계열분석]
범주형 자료분석은 자료들이 이산형(discrete)인 경우에 사용한다. sucess (성공) fail (실패) exposed ( 관심집단 ) a b unexposed ( 비교집단 ) c d 1) RR : 비교집단 위험률 대비 관심집단 위험률 ; 상대적 위험도 ==> RR은 비교집단 위험률대비 관심집단이 위험률을 나타내기 때문에 - RR=1 : 무관 - RR>1 : 확률높음 - RR Odds는 주어진 환경에서 발생할 확률/그렇지 않을 확률이기 때문에 ==> Odds비는 비교집단 승산대비 관심집단이 승산을 나타내기 때문에 3) 카이제곱 (= 교차분석) , 카이제곱 검정은 세가지 분석이 가능하다. 1) 적합도 2) 독립성 3) 동질성 적합도 검정 : 특정분포를 따르는가 | df=k-1..
2023.10.31