[모의고사 1회차/오답노트]

[모의고사 1회차/오답노트]

2023. 10. 31. 14:09ㆍ[빅분기]

728x90

모의고사 1회차 오답노트

ETL: 데이터 추출/변환/적제 --> 다양한 원천데이터를 추출하고 공통된 형식으로 변환하여 적재하는
딥러닝: 딥러닝은 해석이 어려움/Dropout(과적합방지를 위해 학습과정에서 유닛의 일부를 랜덤_임의로 누락시킴)/sigmoid_functio을 활성함수로 이용/최적의 학습결과를 찾기위해 오류 역전파 알고리즘 사용
빅데이터 분석 방법론(5단계): 분석기획/데이터준비/데이터분석/시스템구현/평가 및 전개
지도학습: 학습데이터로부터 하나의 함수를 유추하기 위한 방법 (분류/회귀)
개인정보 비식별조치에 대한 익명성 검증방법
1. t-근접성: 전체데이터 집합의 정보분포와 특정 정보의 분포차를 t이하로 만듦<--- 민감한 정보의 분포를 낮추어 추론 가능성을 더욱 낮추는 기법
2. k-익명성: 일정확률수준 이상 비식별되돌고 하는 기법
3. l-다양성: 블록이 적어도 l개의 다양한 민감정보를 가지고 있어야 함
4. m-유일성: 원본데이터와 동일한 속성값의 비식별 결과 데이터에 최소 m개 있어야 재식별 위험이 낮아짐
비식별화 방법: 가명처리/총계처리/데이터범주화
탐색적데이터분석: 기초통계량과 분포를 확인해 데이터를 이해하고 의미있는 관계를 찾아내는 방법(데이터의 정합성 검토/데이터요약/특성을 파악한 모델링==> 데이터 자체의 특성과 통계적 특성을 파악하고 시각화를 통해 데이터를 파악한다)
통찰: 분석대상이 명확하지 않으나 분석 방법을 알고 있는 경우
개인정보
1. 정보주체 동의없이 수집가능한 경우: 병원/급하게(신체/재산)/통신사요금
2. .. 불가: 신임교원 범죄이력 (동의필요함)
정형데이터의 품질진단 방법: 메타데이터 수집 및 분석/칼럼속성분석/값의 허용범위분석/누락값 분석/허용값 목록분석/문자열 패턴분석/날짜 유형분석/기타 특수 도메인분석/유일 값 분석/구조분석
EDA: 모형을 선정하기 위한 과정이 아니라 모형에 적합한 데이터를 마련(가공)하는 과정이다. ---> 딷라서 분석을 위한 후보 모형들을 선정하는 과정이 아니다!!===> 모형보다 데이터 특성을 파악하는 것이 더 중요하다!! <모델링에 필요한 데이터 편성>
모형화: 데이터 분석절차에서 복잡한 문제의 단순화를 통해 현실 문제를 특정 변수/변수간의 관계로 정의
분석 종류
1. 진단분석: 원인?
2. 기술분석:무슨일?
3. 예측분석: 앞으로?
4. 처방분석: 어떻게 대처?
이상치: 편파성을 일으키는 문제나 타당도 문제를 발생시키는 값
DBMS는 DBtoDB방식으로 DBMS간 동기화나 데이터에 대한 전송을 할 수 있다.따라서 DBMS-FTP 데이터 수집방법은 적절하지 않다
데이터분석 성숙도 수준: 도입/활용/확산/최적화
개인정보수집시 정보주체에게 사전고지해야할 것: 수집목적 및 출처/이용기간/정보활용거부권 행사방법/ ====> '파기하는 내용!!' 이런것들은 해당 안됨
상향식 접근방식: 다량의 데이터분석을 통해 why? 그런 일이 생겼는지 역으로 추적하여 문제를 도출하거나 재정의하는방식/생각지도 못한 insight나 시행착오를 통한 개선 가능!!
정확성(데이터품질기준): 실세계에 존재하는 객체의 표현 값이 정확히 반영되어야 한다
데이터 거버넌스: 전사 차원의 모든 데이터에 대해 표준화된 관리 체계를 수립하는 것
박스플롯: 5가치 수치(최소/q1,q2,q3,최대)를 알 수 있고, 최대 최소를 통한 이상값도 알 수 있지만 분산을 어떻게 아냐고~ㅎㅋㅎㅋㅎ
단계적 선택법: 전진선택과 후진선택(래퍼기법)의 보완방법
파생변수: 기존변수의 조합/사용자가 특정 조건을 만족하거나 함수에 의핸 값을 만들어 의미 부여하기 때문에 주관적일 수 있으니깐 타당성을 갖출 필요가 있음/일반적이도록!!/세분화,고객행동 예측에 유용
샘플링
1. 오버샘플링: 소수클래스의 복사본을 만들어 대표클래스의 수만큼 데이터를 만들어주는 것/똑같은 데이터를 그대로 복사하기때문에 새로운 데이터는 기존 데이터와 같은 성질을 가짐
2. 언더샘플링: 대표클래스의 일부만 선택하고 소수클래스의 최대한 많은 데이터를 사용하는 방법/언더샘플링된 대표클래스의 데이터가 원본데이터와 비교해 대표성!! 이있어야한다
확률문제 Easy
확률문제 Easy
최대우도 모수추정: 지수분포의 표본평균~~ | ML은 대부분 표본평균 쓰셈
피어슨 상관계수
스피어만 상관계수(순위:서열순서): 자료에 이상점이 있거나 표본이 작을 때 유용
1. 크론바흐 알파계수: 신뢰도 계수 알파는 검사의 내적 일관성 신뢰도를 나타내는 값/한 검사 내에서 변수들 간의 평균 상관관계에 근거해 검사 문항들이 동질적인 요소로 구성되어 있는지를 분석하는 것/동일한 개념이라면 서로 다른 독립된 측정방법으로 측정했을 때 결과가 비슷하게 나타날 것이라는 가정을 바탕으로한다.
스타차트: 여러변수값 비교하기 좋음/선의 색이나 모양을 달리해서 여러속성 표현가능
뻬이크: 모집단의 분산을 모르고 표본의 크기가 작은 경우 t-분포를 따르는 95%신뢰구간에서는 1.96이 아니라, 2.064를 적용해야 한단다.. 자유도는 n-1
기댓값: 불편추정량 & 분산의 효율성
가설검정: 제1,2종 오류
차원의 저주: 학습을 위해 차원이 증가하면서 학습데이터의 수가 차원의 수보다 적어져 성능저하/차원을 줄이거나 데이터를 늘리는 방법을 이용하자
skew
1. positive: 최빈값<중앙값<평균
2. negative: 평균<중앙값<최빈값
표본 배정법
1. 최적배분법: 추정량의 분산을 최소화시키거나 주어진 분산의 범위 하에서 비용을 최소화시키는 법
2. 비례배분법: 각 층의 추출단위 수에 비례해서 추출
3. 네이만: 각 층의 크기와 층변 변동!!의 정도를 동시에 고려한 표본 배정법
불균형 데이터 처리 |==> 단순이 우세한 클래스를 택하는 모델의 정확도가 높아지므로 성능판별이 어려워짐
1. 가중치균형법: 각 클래스별 특정 비율로 가중치 줘서 문제해결~
2. 언더샘플링
3. 오버샘플링
모집단과 표본의 통계량: 표본의 크기 커지면 표준오차 작아지쥬~
이항/연속분포
표본분포: 모집단이 정규분포여도 모분산의 값을 아냐 모르냐에 따라 다른데 여기선 모르는 상태===> 표본의 크기 중요!!
1. 30이상~ 정규
2. 30미만~T
후진선택/전진선택/차원축소/요인분석(상관관계를 분석해서 공통차원을 축소)
딥러닝
1. 드롭아웃: 신경망에서 은닉층의 뉴런을 임의삭제하며 학습
2. 오차역저파: 출력층에서 입력층으로 오차를 전달! 연쇄법칙을 통해 가중치와 편향 업데이트
3. 활성화함수: 입력신호의 총합을 출력신호로 변환
4. 손실함수: 신경망이 출력한 값과 실제값의 오차에 대한 함수
feature_map계산
회귀분석
1. 선형성
2. 잔차정규성
3. 잔차독립성: 오차만 독립적인 게 아니라 잔차도 독립이다!! 방구야~
4. 다중공선성: 2개이상의 독립변수간의 상관관계 문제가아니라!! 3개이상의 독립변수간의 상관관계로 인한 문제가 없어야 한다~~ 33333333333이라고~~
SVM: 선형/비선형분류로 이진분류만 가능하고 예측정확도가 높지만 데이터가 많으면 모델 학습 시간이 길다~~ 그래~~ 얘도 데이터가 많아지면 힘들어~~/지도학습/
다차원 척도법: 객체간 근접성을 시각화한 통계기법, 객체들 간 유사,비유사성을 측정해서 2,3차원의 공간상의 점으로 표현
규제
1. 라쏘: 손실함수(선형회귀모델)+L1
2. 릿지: .. +L2
3. 엘라스틱넷: L1+L2 정규화 혼합모델
SVM의 주요요소: 벡터/결정영역/초평면/서포트벡터/마진
분석방법(독립|종속)
1. 범주|범주: 빈도분석/카이제곱/로그선형!! => 지역별 정당선호도
2. 연속|범주: 로지스틱 => 소득에 따른 결혼의 선호도
3. 범주|연속: T검정(2그룹)/분산분석(2그룹이상) => 지역별 가계수입의 차이
4. 연속|연속: 상관분석/회귀분석
정확도/정밀도/재현율 --> 데이터 셋의 라벨값이 적은 경우 정확도만으로 성능평가가 어려움
앙상블 분석
1. 배깅: 부트스트랩/랜덤포레스트
2. 부스팅: GBM/Adaboost
확률문제
홀드아웃: 훈련/검증/테스트 ==> 일정비율로 정하고 훈련으로 학습하고 훈련데이터 내에서 일부 검증데이터로 검증 !!!! <K-폴드 교차검증이랑 헷갈리지 말기>
비지도학습: SNS기반 선호브랜드 그룹분석(비지도-군집분석)
지도학습-분류분석 예시문제
분석기법
1. 다층판별분석: 종속변수가 남/여와 같이 두개의 범주거나 상/중/하와 같이 두개 이상의 범주로 나뉠 경우 ==<종속변수가 비계량적인 변수인 경우 사용>
2. 요인분석: 많은 변수들 간 상호관련성을 분석/이들을 어떤 공통 요인들로 설명하기
3. 분산분석: 독립변수가 범주형이고 종속변수가 연속형인경우
시계열 모형(백색잡음): 화이트노이즈<무작위 패턴(아무런 패턴이 남아있지 않음)을 보여주는(진동) 데이터>
비정형데이터: 고정된 필드에 저장되지 않은 데이터(텍스트/이미지/동영상/음성/GPS데이터)
랜덤포레스트
1. 분류-회귀 모두 이용가능
2. 의사결정나무 쉽고 직관적인 특징 가짐
3. 예측의 변동성이 적고 과적합 방지
4. but!!!! 데이터의 수가 많아지면 일반 의사결정 나무보다 정확도는 높아지지만 수행속도 느려짐~
K-폴드 교차검증
1. 모든 데이터셋을 훈련,평가에 사용가능
2. 모델 훈련/평가 소요시간이 오래 걸릴 수 있다
3. 테스트 데이터에 과적합되는 현상을 방지할 수 있다~~이말이다~~
표본추출방법
1. SRS: 난수발생 무작위 추출: 편향제거
2. 계통추출: 추출간격, 처음거만 무작위 매번 k번째를 뽑는건데 해설이 잘못된듯!~
3. 군집추출: 모집단을 여러개로 나누고~그래서 표본의 크기가 같은 경우 단순 임의 추출에 비해 표본 오차가 증대할 가능성 있음
매개변수는 모델 내부에서 자동적으로 학습된다는 점에서 하이퍼파라미터와 다르다!
plot
1. 막대: 시간에 따른 값의 변화
2. 파이/도넛: 특정변수값의 비율
3. 산점도: 2개이상의 변수
plotting_chat: x-y축으로 값보여주고 이때 시간-값 축으로 바꿔서 사용할 수 있음
불균형 데이터 처리기법: 언더/오버/데이터증강!! <임계값 조정 이따위 거 없음>
ROC곡선== 이진분류기의 성능을 평가하는 지표로 주로 사용!
1. 0~1사이값
2. y: 민감도, x=1-특이도
3. AUC 면적!
분석모델 평가지표
1. 군집-실루엣
2. 회귀-MAPE
3. 분류-f1스코어
4. 연관분석-지지도/신뢰도/향상도
초매개변수: 학습률/배치크기/은닉층 뉴런개수/훈련반복횟수
K-평균 군집분석: 군집의 중심점(특정 임의지점)을 선택해서 가까운 데이터들을 찾아서 묶어주는 알고리즘= k개의 클러스터로 분할 군집하는 알고리즘으로 거리차이의 분산을 최소화한다!
F1점수구하기
다층의 퍼셉트론: 입력층과 출력층 사이에 하나 이상의 은닉층이 존재하는 신경망!!!!
1. 비선형 영역 표현도 가능
2. 활성화함수:계단함수 이용
적합도 검정: 데이터가 가정한 확률에 적합하게 따르는지 판단(데이터 분포가 특정 분포함수와 얼마나 맞는지 검정)
인포그래핏: 복잡한 데이터의 시각적 단순화
F1스코어 계산
F1스코어 계산
드롭아웃: 뉴런 임의삭제하면 뉴런의 특정 가중치에 덜 민감해지면서 과적합을 방지할 수 있다
분석결과 활용법
군집분석
1. 엘보우:K-평균군집분석에서 최적 k값을 찾기위해 분산간의 비율이 완곡하게 줄어드는 기법
2. 실루엣: 특정 객체와 속해있는 군집내 데이터들간의 비유사성을 계산해서 k값을 증가시키면서 평균 실루엣 값(비유사성값)이 최대가 되는 k를 선택
K-fold: 데이터셋 모든 부분을 사용하므로 홀드아웃에 비해 학습데이터셋의 분할에 덜 민감/k-값 클수록 과적합 줄고/홀드아웃은 데이터의 크기가 클 때 유용/반복회수가 많아지므로 훈련시간이 길다~
적합도: 표본의 실제값에 대한 회귀식의 설명력
1. 유의성: 회귀계수들이 유의한가~

728x90

저작자표시 비영리 변경금지

'[빅분기]' 카테고리의 다른 글

[빅분기 필기 합격후기] (0)	2023.10.31
[모의고사 2회차/오답노트] (0)	2023.10.31
[PART3 요약추가] (0)	2023.10.31
[빅데이터 모델링] (0)	2023.10.31
[PART1/PART2 오답노트] (0)	2023.10.31

통계일기

통계일기

태그

최근글

댓글

공지사항

아카이브

'[빅분기]' 카테고리의 다른 글

관련글

티스토리툴바