pandas 의 장점
- Allows the use of labels for rows and columns
- 기본적인 통계데이터 제공
- NaN values 를 알아서 처리함.
- 숫자 문자열을 알아서 로드함.
- 데이터셋들을 merge 할 수 있음.
- It integrates with NumPy and Matplotl
pandas 라이브러리를 불러오기
- import pandas as pd => pandas가 타이핑하기 길기 때문에 pd로 변환한다.
pands Series 데이터 생성하기
- 판다스의 1차원 데이터를 시리즈(Series)라고 부른다.
- 판다스 배우기 전까지는.
- 인덱스는 ?? => 컴퓨터가 자동으로 매기는 0부터 시작하는 숫자
- 판다스에서는 인덱스라는 용어가 따로 존재한다.
- 따라서, 이제부터 판다스를 다루면서, 인덱스라는 용어를 사용하면, 판다스의 인덱스라고 생각한다.
- '컴퓨터가 매기는 인덱스' vs '인덱스'(판다스의 인덱스)
# 판다스의 인덱스는. 왼쪽에 행부분에 붙어있는 글자
이런 리스트가 있을 때,
x = pd.Series(data = 변수 , index = 변수) 형식으로 입력한다.
ex )
Series의 데이터를 억세스하는 방법
데이터 가공
index = ['apples', 'oranges', 'bananas']
data = [10, 6, 3,]
일때
fruits = pd.Series(index= index, data= data)
으로 fruits이란 변수에 Series를 저장해준다.
fruits
apples 15
oranges 11
bananas 8
dtype: int64
이 데이터를 가지고 가공을 한다.
ex ) 오렌지가 2개 팔렸다.
fruits['oranges'] = fruits['oranges'] -2
fruits
apples 15
oranges 9
bananas 8
dtype: int64
ex ) 사과랑 바나나가 3개씩 팔렸다
fruits = fruits[['apples', 'bananas']] - 3
fruits
apples 12
bananas 5
dtype: int64
실습 )
distance_from_sun = [149.6, 1433.5, 227.9, 108.2, 778.6]
planets = ['Earth','Saturn', 'Mars','Venus', 'Jupiter']
dist_planets = pd.Series(data= distance_from_sun, index= planets)
dist_planets
Earth 149.6
Saturn 1433.5
Mars 227.9
Venus 108.2
Jupiter 778.6
dtype: float64
time_light = dist_planets / 18
time_light
Earth 8.311111
Saturn 79.638889
Mars 12.661111
Venus 6.011111
Jupiter 43.255556
dtype: float64
close_planets = time_light[time_light < 40]
close_planets
Earth 8.311111
Mars 12.661111
Venus 6.011111
dtype: float64
'python > pandas' 카테고리의 다른 글
pandas - column의 값을 index로 만들기와 인덱스 초기화 (0) | 2022.11.24 |
---|---|
pandas - index 변경 (0) | 2022.11.24 |
pandas - 행렬의 데이터 삭제 (0) | 2022.11.24 |
pandas - Dateframe에서 컬럼 만드는 방법 (0) | 2022.11.24 |
pandas - DataFrame 생성하기와 DataFrame에서 데이터 가져오기(.loc , .iloc) (0) | 2022.11.23 |