Hogyan szűrhetünk ki egyedi értékeket a pandas DataFrame[].unique() segítségével?
A Python pandasban az unique() függvény segítségével azonosíthatja az egyedi értékeket egy DataFrame oszlopában. Ez megkönnyíti az adatkészletben található különböző értékek gyors áttekintését.
Mi a pandas DataFrame[].unique() szintaxisa?
A pandas unique() használatának alapvető szintaxisa egyszerű. Ez azért van, mert a függvény nem fogad paramétereket:
DataFrame['column_name'].unique()pythonNe feledje, hogy unique() csak egy oszlopra alkalmazható. A függvény meghívása előtt meg kell jelölnie, melyik oszlopot szeretné kiértékelni. A unique() függvény egy numpy tömböt ad vissza, amely tartalmazza az összes különböző értéket megjelenésük sorrendjében, az oszlopban található ismétlődő értékek eltávolításával. Az értékeket azonban nem rendezi.
Ha már egy ideje Pythonnal dolgozik, akkor valószínűleg ismeri a pandas unique() megfelelő numpy-t. Hatékonysági okokból általában a pandas verzió használata előnyösebb.
A pandas DataFrame[].unique() használata
Ahhoz, hogy unique() egy pandas DataFrame-ben használhassa, először meg kell adnia az ellenőrizni kívánt oszlopot. A következő példában egy DataFrame-et fogunk használni, amely egy csoport tagjainak életkorára és lakóhelyére vonatkozó információkat tartalmaz.
import pandas as pd
# Create a sample DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Edward'],
'Age': [24, 27, 22, 32, 29],
'City': ['Newcastle', 'London', 'Newcastle', 'Cardiff', 'London']
}
df = pd.DataFrame(data)
print(df)pythonAz eredményül kapott DataFrame így néz ki:
Name Age City
0 Alice 24 Newcastle
1 Bob 27 London
2 Charlie 22 Newcastle
3 David 32 Cardiff
4 Edward 29 LondonTegyük fel, hogy szeretnénk létrehozni egy listát azokról a városokról, ahol a DataFrame-ben szereplő emberek élnek. A pandas unique() függvényt alkalmazhatjuk azokra az oszlopokra, amelyek a városokat tartalmazzák.
# Find different cities
unique_cities = df['City'].unique()
print(unique_cities)pythonA kimenet egy numpy tömb, amely minden várost egyszer sorol fel, jelezve, hogy a DataFrame-ben szereplő személyek összesen három városból származnak: Newcastle-ből, Londonból és Cardiffból.
['Newcastle' 'London' 'Cardiff']