본문 바로가기
IT

[코드잇] 오늘도 코드잇: 4월 2주 차(1)

by 민트린 2023. 4. 11.
728x90


데이터 분석과 시각화
막대그래프
카테고리 비교를 위해 사용

%matplotlib inline
import pandas as pd
df = pd.read_csv(‘data/sports.csv’, index_col=0)

df.plot(kind=‘bar’) #막대 그래프



Ch.3 통계 기본 상식
01. 평균값
평균: 데이터들의 합/ 데이터의 개수

03. 중간값(Median)
데이터셋에서 딱 중간에 있는 값
짝수 개수면 가운데 두 값의 평균

04. 평균값 vs 중간값
평균값은 잘못됐거나 특이한 값의 영향을 크게 받는다.

06. Q1, Q3와 이상값
이상값: Q1과 Q3 사이를 IQR(Interquartile Range)이라고 하는데 Q1 지점에서 아래로 1.5 IQR 더 떨어져 있거나 Q3 지점에서 위로 1.5 IQR 더 떨어져 있는 값

07. 상관계수
상관계수는 데이터에서 두 변수가 얼마나 연관성이 있는지 보여주는 값이다.
피어슨 상관계수: 1에 가까울 수록 양의 관계, -1에 가까울수록 음의 관계, 0은 아무런 관계가 없다.

09. 상관계수 시각화
DataFrame의 corr() 메소드를 사용하면 상관계수가 DataFrame 형태로 출력
상관계수 결과를 Seaborn의 heatmap 메소드에 넘겨주면 시각화 가능
색이 밝을수록 상관계수가 높다는 뜻
annot = True 옵션을 추가해주면, 색상뿐만 아니라 숫자도 함께 보여준다




05. k-NN 알고리즘(k-최근접 이웃 알고리즘)
k-NN 알고리즘

06. 머신 러닝의 수학
머신 러닝은 컴퓨터과학이자 수학 분야
수학(선형대수, 미분, 확률과 통계)
선형대수학: 행렬(많은 데이터를 묶을 수 있음, 효율적인 계산)
미적분학: 머신러닝에서 최적화할 때
확률과 통계
선형대수학과 미적분학은 공통으로 쓰는 개념 몇 개만 알면 된다

728x90