TIL

TIL - 실무에 쓰는 머신러닝 기초 1-1

pys6341 2025. 3. 12. 19:52

1. 머신러닝이란?

컴퓨터가 인간의 개입없이 데이터를 학습해 패턴을 찾아내고, 새로운 데이터에 대해 예측이나 분류를 수행하는 기술

 

[3대요소]

1. 데이터

2. 알고리즘

3. 컴퓨팅 파워

 

2. 역할 및 중요성

  • 대규모 데이터를 빠르고 정확하게 분석하여, 복잡한 상관관계를 발견하고 예측
  • 기존 방식으로는 처리하기 어려웠던 빅데이터 활용 가능

 

[다양한 산업분야에서의 활용]

 

1. 제조업

  • 예측 유지보수
  • 품질 관리
  • 생산 공정 최적화
  • 수요 예측
  • 에너지 효율 최적화

2. 금융

  • 신용 평가
  • 위험 관리
  • 자산운용 및 투자전략
  • 고객 서비스 자동화
  • 보험 업무 고도화

3. 마케팅

  • 고객 세분화 & 페르소나 도출
  • 추천 시스템
  • 마케팅 캠페인 성과 예측
  • 고객 생애 가치 예측

4. 헬스케어

5. 자율주행

 

3. 머신러닝 VS 기존 통계 분석

가설 검증 vs 예측 성능

 

통계 분석

  • 가설 검증, 추론
  • 주로 "왜?"라는 질문에 집중

머신러닝

  • 예측
  • "얼마나 잘?"에 집중(정확도, 재현율 등)

 

 

데이터가 많아질수록

 

통계

  • 표본 수가 커지면 더 정교한 추론이 가능하지만, 일반적으로 가설 자체는 사람이 세움

머신러닝

  • 데이터가 많을수록 학습에 유리하며, 더 좋은 모델을 만들 수 있음

 

4. 머신러닝의 종류

 

지도학습

  • 우리가 맞다고 알고 있는 결과값을 정답값(레이블) -> 이러한 정답값이 있는 데이터를 학습하는 방식

1.분류

어느 그룹에 속하는지를 결정

 

2.회귀

숫자를 된 결과를 예측

 

 

비지도학습

  • 레이블없이 데이터 패턴을 스스로 찾음

1. 군집화

성향이 비슷한 사람이나 사물을 자동으로 묶어내는 기법

 

2. 차원 축소

데이터의 특징(변수)이 너무 많아서 복잡한 데이터를 핵심 정보만 남기고 압축하는 기법

 

 

강화학습

  • 에이전트가 환경과 상호작용하며 보상을 최대화하도록 학습

 

5. 모델링 프로세스

 

데이터 수집

  • 웹 크롤링, 센서 측정, 설문조사, DB 추출 등 다양한 방법
  • 양질의 데이터 확보가 프로젝트의 성패를 좌우

전처리

  • 결측치 처리
  • 이상치 처리
  • 스케일링
  • 범주형 변환

모델링

  • 지도학습의 경우 분류/회귀 알고리즘 선택(ex: 로지스틱 회귀, 랜덤 포레스트, XGBoost 등)
  • 비지도학습의 경우 클러스터링/차원 축소 알고리즘 선택(ex: K-Means, PCA 등)

'TIL' 카테고리의 다른 글

TIL - 실무에 쓰는 머신러닝 기초 1-3  (0) 2025.03.17
TIL - 실무에 쓰는 머신러닝 기초 1-2  (0) 2025.03.14
TIL - 실전 프로젝트  (0) 2025.03.07
TIL - 실전 프로젝트  (0) 2025.03.06
TIL - 실전 프로젝트  (0) 2025.03.05