TIL

TIL - 실무에 쓰는 머신러닝 기초 1-4

pys6341 2025. 3. 18. 15:09

로지스틱 회귀

선형 회귀처럼 입력값의 선형 결합을 취하지만, 결과를 0~1 사이의 확률로 변환하기 위해 로지스틱 함수를 사용

 

장점

  • 계산이 빠르고 구현이 간단
  • 결과 해석이 용이(회귀 계수로 각 변수의 영향도 해석 가능)

단점

  • 복잡한 비선형 패턴을 학습하기엔 한계가 있음

 

SVM

데이터를 가장 잘(안전 여유공간을 크게) 구분하는 경계를 찾는 알고리즘

 

장점

  • 차원이 높은 데이터에서도 좋은 성능을 보일 수 있음
  • 결정 경계를 명확하게 찾는 경우, 예측 성능이 우수함
    • 결정경계란? → SVM이 찾은 최적의 분류선

단점

  • 파라미터(C, 커널 종류 등)를 적절히 찾아야 하므로 튜닝 비용이 큼
  • 대규모 데이터 세트에 대해서는 학습 속도가 느릴 수 있음

 

산업별 적용 사례

금융

1. 사기 거래 탐지

2. 대출 상환 가능성 예측

 

헬스케어

1. 질병 진단

2. 임상 데이터와 의료 영상을 기반으로 머신러닝 모델 훈련

 

마케팅

1. 고객 이탈 예측

2. 캠페인 반응 예측

 

제조업

1. 불량 검출

2. 장비 이상 탐지

 

모델 평가 방법

혼동 행렬

  • 실제 클래스와 예측 클래스의 관계를 행렬 형태로 나타낸 것
    • True Positive(TP), False Positive(FP), False Negative(FN), True Negative(TN)

 

 

Precision, Recall, F1-score

 

  • Precision(정밀도): 예측을 Positive라고 한 사례 중, 실제로 Positive인 비율
    • “예측 정확도” 관점에서 중요. (예: 스팸 예측)
  • Recall(재현율): 실제 Positive 사례 중, 모델이 Positive로 맞춘 비율
    • “놓치지 않는 것”이 중요한 경우(예: 질병 진단) 강조.
  • F1-score: Precision과 Recall의 조화평균
    • 두 지표가 모두 중요한 경우를 종합적으로 평가하기 좋음

 

 ROC 곡선과 AUC

 

ROC곡선: 임계값(Threshold)을 변화시키며, TPR(True Positive Rate)과 FPR(False Positive Rate)의 변화를 시각화한 곡선

  • TPR(True Positive Rate)
    • 다른 말로 재현율(Recall) 또는 민감도(Sensitivity)
    • 실제 양성(Positive) 샘플 중 모델이 양성이라고 예측한 비율
    • 0~1 사이의 값을 가지며 1에 가까울 수록 좋음
  • FPR(False Positive Rate)
    • 실제 음성(Negative) 샘플 중 모델이 양성이라고 잘못 예측한 비율
    • 0~1 사이의 값을 가지며 0에 가까울 수록 좋음
  • TPR과 FPR은 트레이드 오프 관계 (한 쪽이 좋을 수록 한 쪽이 좋지 않음)
  • 이 지표도 클래스 불균형 상황에서 사용
  • 임계값을 조정해서 생기는 성능 변화 전체를 보여주기 때문에 단순히 성능 하나만 얘기하는 위의 지표들과는 다름

 

AUC 

  • ROC 곡선 아래 면적
  • 1에 가까울수록 모델이 우수함