TIL

[12/31] TIL - 데이터 전처리 & 시각화 (1,2주차)

pys6341 2024. 12. 31. 19:40

데이터 분석가 유형

1. 비즈니스 분석가

  • 주로 비즈니스 문제를 이해하고 해결하기 위해 데이터를 분석
  • 비즈니스 프로세스 및 요구 사항을 파악하고, 데이터 기반으로 의사 결정 지원
  • 업무 프로세스 개선, 비즈니스 모델 분석, 요구 사항 관리 등을 수행

2. 프로덕트 분석가

  • 제품이나 서비스의 성과를 평가하고 개선하기 위해 데이터를 분석
  • 사용자 행동 및 제품 성능과 관련된 데이터를 분석하여 제품 개선에 기여
  • 제품 경험과 사용자 행동에 대한 분석을 수행함

3. BI 분석가

  • 기업의 비즈니스 인텔리전스 플랫폼과 도구를 사용하여 데이터를 시각화하고 보고서를 작성
  • 주로 기업 내부 데이터를 시각화하고 의사 결정에 필요한 정보를 제공
  • BI 도구를 사용하여 대시보드를 구축하고, 데이터 시각화 및 보고서 작성을 담당

4. 데이터 분석가

  • 주로 정형 데이터를 분석해 기업의 의사 결정 지원
  • DB 등에서 데이터를 추출하고 데이터를 정제하여 보고서 및 시각화 생성
  • SQL, Excel, 데이터 시각화 등을 활용해 업무 수행

5. 데이터 사이언티스트

  • 주로 데이터를 활용해 예측, 패턴 발견, 복잡한 분석을 수행해 문제를 해결함
  • 통계, 머신러닝, 딥러닝 등의 기술을 사용해 데이터를 분석하고 모델을 구축
  • 데이터 수집, 전처리, 모델링, 평가 및 해석을 포함한 작업 수행

 

>> "설득하기 위해서"라는 목적을 가지고 데이터 전처리와 시각화를 해야함

 

 

 

데이터 전처리와 시각화를 배우기 전에,

어떤 목적을 가지고 데이터를 분석할 것인지를 먼저 정의하기

  • 무엇을 위해 ~이런 형태의 데이터가 필요하다는 것을 먼저 정의해야함
  • 착오를 예방하고 올바른 의사결정을 위한 데이터를 사전에 어떻게 분석할 것인지 미리 설계하는 습관 들이기

 

 

데이터 전처리란?

내가 원하는 데이터를 보기 위해 하는 모든 활동

 

데이터 전처리를 해야 하는 이유?

실제 데이터를 원하는 형태로 바꾸어야하기 때문

 

 


 

Pandas 특징

  • 자동화와 프로그래밍 기능
  • 대용량 데이터 처리
  • 복잡한 데이터 처리 및 분석
  • 확장성과 유연성
  • 버전 관리 및 자동화

 

pandas란?

Python에서 데이터를 조작하고 쉽게 분석할 수 있게 도와주는 라이브러리

 

 

 

pandas 불러오기

import pandas as pd

 

데이터 불러오기

# 엑셀 불러오기
pd.read_excel('./파일명.xlsx') # ./ ==> 현재 내가 있는 위치라는 의미

# csv 파일 불러오기
pd.read_csv('./파일명.xlsx'