전체 글(26)
-
[빅데이터 탐색]
횡적자료: 단일시점 여러대상 | 종적자료: + 시계열 ======> 여러시점표현 질적자료: 서열(만족도),명목 | 양적자료: 비율(절대0),등간 데이터 정제: 불완전 데이터를 검출/이동/정정 or 교정 1) 수집: 전처리 2) 변환 3) 교정 4) 통합 결측치: 입력누락/ 비어있는 값 완전무작위(MCAR): 다른 변수와 연관X, 완전랜덤 무작위(MAR): 특정변수가 영향주지만 결과와 상관X | 결과에는 상관 없어야함 비무작위(MNAR): 다른 변수와 상관 있음 | 결과에 영향준다 결측치처리 단순대치 단순삭제: MCAR의 경우 1) listwise(데이터가 작은경우 표본감소문제) 2) pairwise 평균대치: 비조건부/조건부 단순확률핫덱: 연구자료에서 표본바탕의 비슷한 규칙찾아 대체 다중대치: 단순대치 ..
2023.10.31 -
[빅데이터의 이해]
빅데이터의 이해 데이터의 구분 정량적: 주로 숫자 정성적: 비정형, ex) 텍스트, 문자 데이터 유형 정형: RDB, CSV, 스프레드시트 반정형: 스키마제공(웹로그, 알람, XML, HTML, JSON, RSS) 비정형: 이미지, 오디오, 문자 NoSQl SQL: 데이터베이스 접근시 쓰는 언어/데이터 정의,조작,제어기능 데이터 기반 지식 구분 암묵지: 숨은지식, 타인에게 공유 어려움 (내면화, 공통화) 형식지: 형상화된 지식, 구체적 형태가 있음 (표출화, 연결화) 데이터 기반 지식 구분: 내면화-> 공통화 -> 표출화 -> 연결화 DIKW: data(객관적 사실)-infomation- knowledge-wisdom(창의적 아이디어) DB: 정형데이터관리(정리된 수집물, 체계적 편집물+검색도구) -> ..
2023.10.31 -
[범주형 자료분석/다차원 척도법/다변량분석/시계열분석]
범주형 자료분석은 자료들이 이산형(discrete)인 경우에 사용한다. sucess (성공) fail (실패) exposed ( 관심집단 ) a b unexposed ( 비교집단 ) c d 1) RR : 비교집단 위험률 대비 관심집단 위험률 ; 상대적 위험도 ==> RR은 비교집단 위험률대비 관심집단이 위험률을 나타내기 때문에 - RR=1 : 무관 - RR>1 : 확률높음 - RR Odds는 주어진 환경에서 발생할 확률/그렇지 않을 확률이기 때문에 ==> Odds비는 비교집단 승산대비 관심집단이 승산을 나타내기 때문에 3) 카이제곱 (= 교차분석) , 카이제곱 검정은 세가지 분석이 가능하다. 1) 적합도 2) 독립성 3) 동질성 적합도 검정 : 특정분포를 따르는가 | df=k-1..
2023.10.31 -
[2장] ANOVA
cf. (1장) 편차: 변량-평균 오차: 추정값-참값 변산성(variability): 자료가 흩어진 정도 [용어 요약] 제곱합: 편차 제곱의 총합, 표본내의 변산성의 총량을 나타냄 분산분석(Analysis Of Variance)은 총 제곱합을 분할하여 수행 * 이때 제곱합이 어떤 변량에서 어떤 평균을 빼느냐에 따라 총제곱합/처리제곱합/오차제곱합으로 나뉨 [cf] 두 집단의 비교) 평균차이를 이용한 T검정 수행 세 개 이상의 집단비교) 분산비를 이용한 분산분석 수행 분산분석을 왜하는가? (다스리언니: 제곱한걸 왜 또 분할하누!) 두 집단의 비교에서 사용한 T검정은 사용이 안되는 이유는 세 집단을 비교하는 적절한 가설을 세우기 어려워서 다른 방법이 필요하다 날씨가 화창한 어느날 농부가 옥수수를 심어야 ..
2023.10.31 -
[1장] 표준편차랑 표준오차
[결론 요약] 표준편차: 데이터가 평균을 중심으로 퍼져 있는 정도를 나타내는 가장 일반적인 측도 표준오차: 표본평균의 표준편차 변량(variate): 자료를 대표하는 하나의 양 ex) 점수, 매출액 변산성(variability): 자료가 흩어진 정도 변산성 측정치: 분산, 표준편차, 범위, 사분위수 범위 * 변산량을 표현하고자 변량이 분산(variance)를 의미하기도 함, 변량(variate)와 다른 개념 어제 다스리언니가 물어본 질문들을 바탕으로 한번 끄적여볼겡~ :) 모집단(전체집단)이 있다고 하자 모집단을 전수조사할 수 없어서 크기가 n인 표본추출 * 기호표기는 그러려니하고 외우기, 표본평균은 모평균에 대한 추정치 표본평균의 성질 1) 편차: 변량-평균 | 표준편차는 변량(X)에서 ..
2023.10.31 -
[SQLD 요약] -2- 엔터티/속성/관계/식별자 2023.10.31