2.1. Pandas#

pandas is een python module die speciaal gemaakt is voor het inlezen, verwerken en onderzoeken van data. Hiervoor maakt pandas gebruik van zijn eigen types variabelen: DataFrames en Series.

We kunnen gebruik maken van pandas door het eerst met behulp van pip te installeren en de module vervolgens te importeren met

import pandas as pd

# Importeer meteen ook matplotlib.pyplot --> zo kunnen we plotjes maken en aanpassen.
import matplotlib.pyplot as plt

We gebruiken hier opnieuw een verkorte naam voor de module (pd) om het onszelf wat typwerk te besparen, net als dat we eerder al numpy als np importeerden.

2.1.1. DataFrames#

In DataFrames wordt data opgeslagen zoals in een tabel: elke kolom heeft een naam en elke rij heeft een index. Dit maakt het makkelijk om data te filteren en precies te vinden wat je zoekt.

Een voorbeeldje:

(index)

Naam

Leeftijd

0

Pietje

23

1

Greetje

22

2

Daan

25

import pandas as pd

# We schrijven een 'dict' met alle informatie:
invoer = {'Naam': ['Pietje', 'Greetje', 'Daan'], 'Leeftijd': [23, 22, 25]}

# Vervolgens converteren we deze 'dict' naar een DataFrame object:
data = pd.DataFrame(invoer)

# Een DataFrame variabele kun je netjes laten printen:
print("Print van het DataFrame:\n")
print(data)

# Dat is al een stuk beter dan de dict printen!
print("\nVergelijk dit met het printen van de dict zelf:\n")
print(invoer)
Print van het DataFrame:

      Naam  Leeftijd
0   Pietje        23
1  Greetje        22
2     Daan        25

Vergelijk dit met het printen van de dict zelf:

{'Naam': ['Pietje', 'Greetje', 'Daan'], 'Leeftijd': [23, 22, 25]}

Je kunt als vanouds checken of een variabele van het type DataFrame is:

print(type(data))
<class 'pandas.core.frame.DataFrame'>

2.1.2. Series#

Series is het variabele type van de kolommen uit het DataFrame. Dit type variabele maakt het makkelijk om één kolom uit een groot databestand te halen en daarmee verder te rekenen.

print(data['Naam'])
0     Pietje
1    Greetje
2       Daan
Name: Naam, dtype: object
print(type(data['Naam']))
<class 'pandas.core.series.Series'>

2.1.3. Plotten#

Met pandas kan je eenvoudig data visualiseren. Als je snel een idee wilt krijgen van hoe je data eruit ziet kan dat als volgt:

data.plot.bar('Naam', 'Leeftijd')

# (plt.show() is in IDLE/Spyder meestal niet nodig)
plt.show()
_images/05_1_pandas_11_0.png

Hier bijvoorbeeld wordt een staaf- (bar-) grafiek getekend. Zoals je ziet hadden we hier maar één regel voor nodig. Echter hebben we dan niet zo veel invloed op hoe de grafiek eruit komt te zien.

Later, in Data filteren en plotten, gaan we hier wat verder op in en zie je hoe je met behulp van Matplotlib meer invloed op de figuur kan hebben.