상세 컨텐츠

본문 제목

ADSP - 3장 정형데이터마이닝

Developer

by gabriel.LIM 2020. 3. 14. 16:54

본문

■데이터마이닝

: 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법

■분석방법

- 지도학습(교사학습): 정답을 알려주고 풀이는 하는 방식

=> 의사결정나무, 인공신경망(ANN), 일반화선형모형, 회귀분석, 사례기반 추론, 최근접 이웃법(KNN)

- 비지도학습(비교사학습): 비슷한 데이터를 군집화하는 방식

=> OLAP, 연관성규칙발견, 군집분석, SOM

■추진단계

- 목적 설정 -> 데이터 준비 -> 가공 -> 기법 적용 -> 검증

■데이터마이닝을 위한 데이터 분할(사전준비)

: 모델 평가용 테스트 데이터와 구축용 데이터로 분할하여, 구축용 데이터로 모형을 생성하고 테스트 데이터로 모형이 얼마나 적합한지를 판단

- 구축용(50%), 검정용(30%), 시험용(20%)

■성과분석

(1) 오분류에 대한 추정치

-개요

Condition

Positive

Negative

Prediction

Positive

True Positive

False Negative

positive 정밀도(PPV)

:환자일 확률

Negative

False Negative

True Negative

negative 정밀도(NPV)

:비환자일 확률

민감도(TPR)

: 환자중에 예측 양성을 받은 사람

특이도(TNR)

: 비환자중에 예측 음성을 받은 사람

-예시

코로나 환자 여부

환자(positive)

비환자(Negative)

검사결과

예측

양성

10

90

정밀도(PPV):

10/100= 10%

음성

5

895

895/900 = 99.4%

민감도(TPR)

: 10/15 = 67%

특이도(TNR)

: 895/985 = 90.9%

*민감도 = 재현율(recall)

*정밀도

*정분류율: 환자중에 환자를 예측, 비환자중에 비환자를 예측한 비율.. TN + TP = TN + TP + FN + FP

*오분류율: 1 - 정분류율

* F1 score: 2 * (정확도 * 민감도) / 정확도 + 민감도

'Developer' 카테고리의 다른 글

vue Webpack 뜯어보기  (0) 2021.08.20
ADSP - 3장 통계분석의 이해  (0) 2020.03.14
ADSP - 3장 데이터 분석  (0) 2020.03.14
GMT, UTC, KST 등.. 세계 표준시계  (0) 2015.12.01

관련글 더보기