본문 바로가기
python/pandas

pandas - Series 데이터 생성, 데이터 가공

by leo104 2022. 11. 23.
728x90

pandas 의 장점

-  Allows the use of labels for rows and columns

-  기본적인 통계데이터 제공

-  NaN values 를 알아서 처리함.

-  숫자 문자열을 알아서 로드함.

-  데이터셋들을 merge 할 수 있음.

-  It integrates with NumPy and Matplotl

 

pandas 라이브러리를 불러오기

- import pandas as pd => pandas가 타이핑하기 길기 때문에 pd로 변환한다.

 

pands Series 데이터 생성하기

 

- 판다스의 1차원 데이터를 시리즈(Series)라고 부른다.

- 판다스 배우기 전까지는.
- 인덱스는 ?? => 컴퓨터가 자동으로 매기는 0부터 시작하는 숫자

 - 판다스에서는 인덱스라는 용어가 따로 존재한다.
 - 따라서, 이제부터 판다스를 다루면서, 인덱스라는 용어를 사용하면, 판다스의 인덱스라고 생각한다.
 - '컴퓨터가 매기는 인덱스' vs '인덱스'(판다스의 인덱스)

# 판다스의 인덱스는. 왼쪽에 행부분에 붙어있는 글자

이런 리스트가 있을 때,

x = pd.Series(data = 변수 , index = 변수) 형식으로 입력한다.

 

ex )

Series 데이터 생성

 

Series 확인하는 방법

 

Series의 데이터를 억세스하는 방법

 

이처럼 Series를 저장한 변수에서 인덱스의 데이터를 알고 싶다면 변수['인덱스']
여러개의 데이터를 보고싶다면 변수[['인덱스','bread']]

 

데이터 가공

 

index = ['apples', 'oranges', 'bananas']
data = [10, 6, 3,]

일때

fruits = pd.Series(index= index, data= data)

으로 fruits이란  변수에 Series를 저장해준다.

fruits
apples     15
oranges    11
bananas     8
dtype: int64

이 데이터를 가지고 가공을 한다.

ex ) 오렌지가 2개 팔렸다.
fruits['oranges'] = fruits['oranges'] -2

fruits

apples     15
oranges     9
bananas     8
dtype: int64
ex ) 사과랑 바나나가 3개씩 팔렸다
fruits = fruits[['apples', 'bananas']] - 3

fruits

apples     12
bananas     5
dtype: int64

실습 )

distance_from_sun = [149.6, 1433.5, 227.9, 108.2, 778.6]
planets = ['Earth','Saturn', 'Mars','Venus', 'Jupiter']

dist_planets = pd.Series(data= distance_from_sun, index= planets)

dist_planets
Earth       149.6
Saturn     1433.5
Mars        227.9
Venus       108.2
Jupiter     778.6
dtype: float64

time_light = dist_planets / 18

time_light

Earth       8.311111
Saturn     79.638889
Mars       12.661111
Venus       6.011111
Jupiter    43.255556
dtype: float64
close_planets = time_light[time_light < 40]

close_planets

Earth     8.311111
Mars     12.661111
Venus     6.011111
dtype: float64

 

 

728x90