[모의고사 2회차/오답노트]

2023. 10. 31. 14:10[빅분기]

728x90
반응형

  1. 정성적 데이터: 함축적 의미내포/주관저내용/비정형데이터!!
    1. 정성(비정형)/ 정량(정형,반정형)
     
  2. 암무지와 형식지: 형식치는 표출화를 통해 구체화되어 외부로 표현됨
  3. OlTP(데이터를 수시로 갱신)/OLAP(비즈니스관점 의사결정 활용/분석)
  4. 빅데이터 특징: 단일데이터여도 가치가 큽니다!!
  5. 연관규칙분석: 변인들간 주목할만한 상관관계가 있는지 찾아내는 것!!
  6. 데이터권리시대: 마이데이터/보호와 통제/기업은 개인데이터 사용에 제약걸릴수도 그래서 고객접점 상실할수도~~
    1. 데이터리터러시는 데이터분석시대이다!!!
  7. 빅데이터수집기술
    1. 로그수집기: 웹서버나 시스템의 로그수집하는 기술
    2. 센스네트워크 유비쿼터스형 컴퓨팅 구현을 위한 초경량 저전력의 센서로 구성된 유무선 네트워크임!!!!
    3. 크롤링: 분산저장된 문서 수집해서 검색대상의 색인으로 포함시키자
  8. NoSql: 고전적인 관계형 데이터베이스의 주요 특성을 보장하는 ACID특성 중 일부만 지원하는 대신 성능과 확장성을 높이는 특성을 강조함===> 그래서 몇개는 포기하잖아~~
  9. NoSQL: 키-값(범위질의는 어렵지만 그냥 질의응답시간은 빠르다~~)/ACID 특성 중 일부만 지원한다고
  10. 데이터분석에서 문제에 대한 구체적 정의가 없다면 데이터 마이닝 써서 insight 도출할 수 있다
  11. 데이터분석방법
  12. 강화학습은 인공지능아니다~~행동심리학이다
  13. 개인정보
    1. 개인정보보호법: 당사자의 동의없는 개인정보수집및 활용 제3자제공 금지
    2. 개인정보처리위탁은 개인정보처리자의 업무를 처리할 목적으로 제 3자에게 이전
    3. 상대방의 동의없이 3자 제공하면 5년이하의 징역이나 5000만원 이하의 벌금
    4. 개인정보 제 3자제공은 고유 업무처리때문이지 개인정보 이전이나 공동처리는 개인정보 이전에 관한 내용
  14. 범주화(비식별화): 데이터값을 범주변환
  15. 탐데분: 데이터 정의서 쓰는 부분은 데이터 준비와 관련된 내용
  16. 데이터 거버넌스: 표준화활동(메타데이터,데이터사전구축)을 주기적으로 하는 것이 아니라 구축해두고 표준 준수 여부를 주기적으로 점검함
  17. 분석 성숙도
  18. 프로토타이핑 접근법: 분석 시도하며 결과를 확인하여 반복적으로 개선하는 것으로 진화적 프로토타입에 가깝다고 볼 수 있.
  19. 빅데이터 분석 방법론: 비즈니스 이해는 분석 기획 단계
  20. 분석프로젝트 속성: 활용하려면 정확도가 중요하고 안정성 측면에서는 정밀도가 중요하다, 정확도와 정밀도는 트레이드 오프인 경우가 많지만 항상 그런 것은 아님
  21. 결측대체
    1. 평균대치법: 효율성향상/통계량의 표준오차가 과소추정됨
    2. 최근방대치: 각 층에서 응답자료를 순서대로 정리한 후 결측값 바로 이전의 응답값으로 대치, 응답값이 여러번 사용될 수 있음
  22. 전진선택
  23. PCA
  24. 왜도
    1. positive skew==> Ln(x)변환,1/x, x
    2. negative skew==> 제곱
  25. 오버샘플링
  26. 계산
  27. 판단추출법(연구자가)
  28. 베이지안계산
  29. 확률밀도함수 계산
  30. 지수분포의 무기억성 계산
  31. t-분포: 자유도가1보다 클 때 스튜던트 t분포의 기댓값=0
  32. 표본
    1. 표본의 크기가 클수록 정규분포
    2. 표본의 크기가 작고 모분산 모르면 분포
    3. 표본의 크기가 작고 모분산 알면 정규분포
  33. 편향: 기대하는 추정량과 모수차이, 표본분산은 편의추정량
  34. 분포설명: t분포는 자유도 커지면 skewness감소하겠징
  35. 계산
  36. p=1/2로 두고 표본의 크기 결정하기
  37. 버블차트
  38. 스피어만상관계수(서열/두변수간의 상관관계가 비선형이어도 고려가능)
  39. 카이제곱; 분산비 검정
  40. 임계치는 p-value기준이 아니라 유의수준 alpha기준이다!!
  41. 분류-로지스틱회귀
  42. 준지도GAN(생성모델/판별모델)
  43. 강화학습(보상)
  44. 의사결정나무: 뿌리마디(나무가 시작되는 마디!!)
  45. 의사결정 나무에서 카이제곱검정 시 관측도수와 기대도수의 차이가 커질수록 순수도@!@!!가 높아진다
  46. 정보획득: 순도가 증가하고 불확실성이 감소
  47. 랜덤포레스트: 부트스트래핑(랜덤샘플링으로 여러개의 표본자료들을 생성하는 것으로 앙상블 학습의 기반이 됨)
  48. 의사결정나무의 장점: 연속형,범주형모두 가능/데이터 변형에 민감, 시장조사 예측에 활용가능하지만~~! 의사결정나무는 구조가 복잡해지면 해석이어려워요~~ 그렇지 않겠닝?? 그리고 데이터 변형에 민감하단다~~ 그럼 좋은 거 아니겠니 분류를 잘하지 않겠니~
  49. 인공신경망 요소: 뉴런(노드)/시냅스(가중치)
  50. 오차역전파
  51. 초매개변수: 배치크기, 훈련 반복횟수
  52. LSTM: 입력/출력/망각 게이트를 갖는다!!! ===> 복원게이트 같은 거 없음!!
  53. 오토인코더: 다차원데이터를 저차원으로 바꾸고, 저차원데이터를 다시 고차원으로 바꿔서 특징점을 찾아내는 비지도~~ 비지도비지도비지도학습!!
  54. 서포트벡터: 두 클래스를 구분하는 경계선으로 각 서포트 벡터를 지나는 초평면의 거리가 초평면의 마진!! 이다~~
  55. 맨해탄거리: 시가지거리, 두 점의 좌표값의 절대적 차이로 구함/사각형 격자/블록으로 이뤄진 도로~~ 개념에서 출발점에서 도착점까지 가로지르지 않고 도착하는 최단거리 개념!!/L1거리/군집분석의 척도
  56. 범주형자료==> 교차분석
  57. 시계열자료(자기상관성): 시차값 사이에 선형 상관관계를 보이는 것
  58. 나이브베이즈
  59. 배깅: 같은 알고리즘 내에서 다른 샘플 조합을 사용
    1. 보팅: 다른 알고리즘 내에서 결과물에 최종 투표하는 방식
    2. 부스팅: 가중치를 활용해 연속적인 약학습기생성--> 강학습기 만들기/순차적이므로 병렬처리 어렵고 그래서 다른 앙상블학습보다 시간이 오래걸림
  60. DBN(deep belief network): 심층 신뢰신경망/계층간의 연결은 있지만 계층내의 연결이 없다
  61. 분류모델: 재현율/정확도/정밀도
  62. 향상도/지지도/신뢰도
    1. 지지도: 교/전
    2. 신뢰도: 조건부
    3. 향상도(가능성!!!이라는 말이 들어가면 향상도임): 교/p(a)p(b)
  63. MSE
  64. K-평균군집분석
    1. 군집중심으로 원한는 수만큼 지정(초기값설정)
    2. 가장 가까운 중심에 할당
    3. 군집내 평균계산뒤 중심점 갱신
    4. 반복하여 최종 군집형성
  65. 교차검증 k-fold
  66. 드롭아웃: 훈련이 덜 될 수 있지만 과적합 방지
  67. L1 규제: 가중치 값이 커지지 않도록 규제/ 손실함수에 가중치의 절대값추가
  68. SGD(확률적 경사하강법): 손실함수의 기울기, 학습률,가중치 ==> 가중치 갱신과정, 편향과는 관계 없음
  69. 초매개변수 최적화: 가중치는 직접설정 아님/임의로 범위 선정 후 무작위로 초매개변수 값을 샘플링하여 모델 정확도 평가하면서 최적값의 범위를 줄여나가는 과정/딥런이 학습시간이 오래 소요되므로 학습 에폭을 작게 검증/평가시간을 단축하는 것이 중요
  70. 배깅은 부트스트랩 기반 각 샘플별로 모델 학습을 진행하고 결과물을 집계, 범주형 데이터의 경우 다수결, 연속형 데이터의 경우 평균으로 집계
  71. 플랏
  72. 평행좌표계
  73. 연관분석(장바구니분석)
  74. 산점도
  75. 선유형속성: 점선,이중점선 등 각각의 독립된 모양으로 연속형 데이터에 부적합
  76. 파이차트
  77. 다차원척도: 대상의 상대적인 거리를 표현하는 방법으로 관측대상의 x,y좌표값과는 다르다!! 상대적 거리라는 것에 유념!!,따라서 2차원에 표현하듯이 x,y좌표로 표시되는 것 아님
  78. 카토그램
  79. k-fold
  80. 분석리모델링: 성능모니터링/분서알고리즘개선/매개변수 최적화/
    1. ==> 신규분석과제 발굴: 분석수요조사 및 기획과정에서 실시~
728x90
반응형

'[빅분기]' 카테고리의 다른 글

[빅분기 필기 합격후기]  (0) 2023.10.31
[모의고사 1회차/오답노트]  (1) 2023.10.31
[PART3 요약추가]  (0) 2023.10.31
[빅데이터 모델링]  (0) 2023.10.31
[PART1/PART2 오답노트]  (0) 2023.10.31