Hogyan lehet azonosítani a hiányzó értékeket a pandas isna() függvénnyel?
A Python pandas függvény DataFrame.isna() segít a felhasználóknak azonosítani a hiányzó adatokat (NaN vagy None) egy DataFrame-ben. Ez különösen hasznos lehet annak megállapításához, hogy az adatok tisztításra szorulnak-e az elemzés megkezdése előtt.
Mi a pandas isna() szintaxisa?
Mivel a pandas isna() nem fogad paramétereket, szintaxisa meglehetősen egyszerű:
DataFrame.isna()pythonA pandas isna() függvény használata
Amikor isna() egy DataFrame-re alkalmazzuk, egy új DataFrame-et hoz létre booli értékekkel. Ha az eredeti DataFrame-ben hiányzik egy érték (pl. NaN vagy None van megjelölve), akkor isna() True jeleníti meg az érték helyén. Ellenkező esetben a függvény False jeleníti meg.
Ha NaN vagy None érték azonosítása mellett azokat el is szeretné távolítani, akkor nézze meg a pandas dropna() függvényt. Ha nem szeretné eltávolítani ezeket az értékeket, hanem szisztematikusan kicserélni őket, akkor a fillna() függvény hasznos eszköz erre a célra.
Hiányzó értékek azonosítása egy DataFrame-ben
Az alábbi példában egy DataFrame-et használunk, amely különböző személyekről tartalmaz adatokat, és amelyből néhány információ hiányzik.
import pandas as pd
# Create DataFrame example
data = {
'Name': ['Alice', 'Bob', None, 'David'],
'Age': [25, None, 35, 40],
'City': ['Nottingham', 'London', 'Cardiff', None]
}
df = pd.DataFrame(data)
print(df)pythonA DataFrame így néz ki:
Name Age City
0 Alice 25.0 Nottingham
1 Bob NaN London
2 None 35.0 Cardiff
3 David 40.0 NoneA hiányzó információk None vagy NaN jelöléssel vannak megjelölve. A hiányzó értékek pontos megtekintéséhez hívja meg isna() a DataFrame-en.
# Applying pandas isna()
missing_values = df.isna()
print(missing_values)pythonA függvényhívás egy új DataFrame-et ad vissza, ahol az eredeti adatokból hiányzó értékek True jelöléssel, a meglévő értékek pedig False jelöléssel vannak megjelölve. Íme a kimenet:
Name Age City
0 False False False
1 False True False
2 True False False
3 False False TrueAz oszloponként hiányzó értékek számának számlálása
Hasznos lehet tudni, hogy hány érték hiányzik az egyes oszlopokból, hogy eldöntsd, hogyan kezeled őket. isna() és a Python sum() függvényével megszámolhatod a hiányzó értékek számát az egyes oszlopokban.
# Count missing values per column
missing_count = df.isna().sum()
print(missing_count)pythonEz megmutatja az egyes oszlopokban hiányzó értékek számát:
Name 1
Age 1
City 1
dtype: int64