Hogyan lehet fájlokat betölteni a Pythonba a pandas read_csv() segítségével?
A Python pandas read_csv() az egyik leggyakrabban használt módszer a CSV fájlok pandasba való beolvasására és DataFrames formátumban való tárolására. A CSV fájlok (vesszővel elválasztott értékek) széles körben használt formátumok táblázatos adatok tárolására, és számos alkalmazás támogatja őket.
Mi a Python pandas read_csv() szintaxisa?
pandas.read_csv() egy CSV fájlból létrehoz egy pandas DataFrame-et. A függvény alapvető szintaxisa így néz ki:
import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)pythonMelyek a legfontosabb paraméterek pandas.read_csv() esetében?
pandas.read_csv() számos paramétert képes elfogadni. Az egyszerűség kedvéért a legfontosabb argumentumokra koncentrálunk. Íme egy áttekintés a legfontosabb paraméterekről, amelyekkel megadhatja, hogyan viselkedjen a függvény:
| Paraméter | Jelentés | Alapértelmezett érték |
|---|---|---|
filepath_or_buffer
|
Ez egy Python karakterlánc, amely a CSV fájl vagy egy adatpuffer elérési útját jelöli, például egy URL-t. | |
sep
|
Ez határozza meg az értékek közötti elválasztót. | ,
|
header
|
Megadja, melyik sort kell fejlécnek használni. | infer (első sor)
|
names
|
Ha header=None be van állítva, akkor names segítségével megadhatja az oszlopnevek Python listáját.
|
|
index_col
|
Meghatározza, melyik oszlopot használja indexként. | None
|
usecols
|
Ezzel a paraméterrel kiválaszthatja, mely oszlopokat szeretné betölteni a DataFrame-be. | None
|
dtype
|
Meghatározza az oszlopok adattípusát. | None
|
A funkció paramétereinek teljes listáját a pandas dokumentációjában találja.
Hogyan lehet lépésről lépésre hozzáférni a CSV fájlokhoz
pandas.read_csv() segítségével néhány egyszerű lépésben könnyedén átvihet adatokat CSV fájlokból Pythonba.
A következő példákban egy ilyen felépítésű CSV fájllal fogunk dolgozni:
1,John Avery,35,Nottingham,50000
2,Adelaide Smith,29,London,62000
3,Michael Rivera,41,Cardiff,40000
4,Grace Kim,33,Hull,35000
5,Tyler Johnson,28,Kent,520001. lépés: Pandák importálása
Először importálja a pandas könyvtárat a Python szkriptjébe.
import pandas as pdpython2. lépés: Töltse be a CSV fájlt
Most már betöltheti CSV fájlját a Python pandas programba a read_csv() függvény segítségével. Egyszerűen adja meg a fájl elérési útját a függvénynek. A következő kódban egy data.csv nevű fájlt fogunk használni, amely a szkripttel azonos könyvtárban van elmentve:
df = pd.read_csv('data.csv')pythonA fenti kód a fájlt egy DataFrame objektumban (df) tárolja, amellyel később dolgozhatunk. A Pandas automatikusan az első sort oszlopfejlécként értelmezi, hacsak másképp nem adjuk meg.
3. lépés: A CSV fájl megjelenítése
Jó ötlet megnézni a DataFrame első néhány sorát, hogy megbizonyosodjunk arról, hogy a fájl megfelelően lett betöltve. Ehhez használhatjuk a DataFrame.head() függvényt. Alapértelmezés szerint ez a DataFrame első öt sorát jeleníti meg, így gyorsan áttekinthetjük az adatok szerkezetét:
print(df.head())pythonA kimenet így néz ki:
0 1 John Avery 35 Nottingham 50000
1 2 Adelaide Smith 29 London 62000
2 3 Michael Rivera 41 Cardiff 40000
3 4 Grace Kim 33 Hull 35000
4 5 Tyler Johnson 28 Kent 520004. lépés: Az oszlopnevek megváltoztatása (opcionális)
Ha a CSV fájl nem tartalmaz fejlécsort, akkor az oszlopneveket manuálisan is megadhatja:
df = pd.read_csv('data.csv', header=None, names=['ID', 'Name', 'Age', 'City', 'Salary'])pythonEbben a példában az oszlopokat ID, Név, Életkor, Város és Fizetés névvel neveztük el. Az eredmény így néz ki:
ID Name Age City Salary
0 1 John Avery 35 Nottingham 50000
1 2 Adelaide Smith 29 London 62000
2 3 Michael Rivera 41 Cardiff 40000
3 4 Grace Kim 33 Hull 35000
4 5 Tyler Johnson 28 Kent 52000