■데이터마이닝
: 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법
■분석방법
- 지도학습(교사학습): 정답을 알려주고 풀이는 하는 방식
=> 의사결정나무, 인공신경망(ANN), 일반화선형모형, 회귀분석, 사례기반 추론, 최근접 이웃법(KNN)
- 비지도학습(비교사학습): 비슷한 데이터를 군집화하는 방식
=> OLAP, 연관성규칙발견, 군집분석, SOM
■추진단계
- 목적 설정 -> 데이터 준비 -> 가공 -> 기법 적용 -> 검증
■데이터마이닝을 위한 데이터 분할(사전준비)
: 모델 평가용 테스트 데이터와 구축용 데이터로 분할하여, 구축용 데이터로 모형을 생성하고 테스트 데이터로 모형이 얼마나 적합한지를 판단
- 구축용(50%), 검정용(30%), 시험용(20%)
■성과분석
(1) 오분류에 대한 추정치
-개요
Condition |
||||
Positive |
Negative |
|||
Prediction |
Positive |
True Positive |
False Negative |
positive 정밀도(PPV) :환자일 확률 |
Negative |
False Negative |
True Negative |
negative 정밀도(NPV) :비환자일 확률 |
|
민감도(TPR) : 환자중에 예측 양성을 받은 사람 |
특이도(TNR) : 비환자중에 예측 음성을 받은 사람 |
-예시
코로나 환자 여부 |
||||
환자(positive) |
비환자(Negative) |
|||
검사결과 예측 |
양성 |
10 |
90 |
정밀도(PPV): 10/100= 10% |
음성 |
5 |
895 |
895/900 = 99.4% |
|
민감도(TPR) : 10/15 = 67% |
특이도(TNR) : 895/985 = 90.9% |
*민감도 = 재현율(recall)
*정밀도
*정분류율: 환자중에 환자를 예측, 비환자중에 비환자를 예측한 비율.. TN + TP = TN + TP + FN + FP
*오분류율: 1 - 정분류율
* F1 score: 2 * (정확도 * 민감도) / 정확도 + 민감도
vue Webpack 뜯어보기 (0) | 2021.08.20 |
---|---|
ADSP - 3장 통계분석의 이해 (0) | 2020.03.14 |
ADSP - 3장 데이터 분석 (0) | 2020.03.14 |
GMT, UTC, KST 등.. 세계 표준시계 (0) | 2015.12.01 |