Mi az a pandas DataFrame describe() metódus?
A Python pandas DataFrame.describe() függvényt a DataFrame numerikus oszlopainak statisztikai összefoglalásának létrehozására használják. Ez az összefoglaló olyan fontos statisztikai mutatókat tartalmaz, mint az átlag, a szórás, a minimum, a maximum és a különböző percentilisek.
Mi a pandas describe() függvény szintaxisa?
A DataFrames describe() alapvető szintaxisa egyszerű. Így néz ki:
DataFrame.describe(percentiles=None, include=None, exclude=None)pythonFontos paraméterek a pandák számára DataFrame.describe()
A következő paraméterek segítségével beállíthatja a describe() kimenetet:
| Paraméter | Leírás | Alapértelmezett érték |
|---|---|---|
percentiles
|
Az összefoglalásban szereplő percentilisek listája | [.25, .5, .75]
|
include
|
Meghatározza, hogy mely adattípusokat kell belevenni a leírásba; lehetséges értékek: numpy.number, numpy.object, all vagy None.
|
None
|
exclude
|
Meghatározza, hogy mely adattípusokat kell kizárni a leírásból; a include paraméterhez hasonlóan működik.
|
None
|
Példák a pandas describe() használatára
Ha gyors áttekintésre van szüksége egy adatkészlet legfontosabb statisztikai mutatóiról, a pandas DataFrame.describe() függvény rendkívül hasznos lehet.
1. példa: Numerikus adatok statisztikai összefoglalása
A következő példában megvizsgáljuk a DataFrame df, amely különböző típusú értékesítési adatokat tartalmaz.
import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
'Product': ['A', 'B', 'C', 'D', 'E'],
'Quantity': [10, 20, 15, 5, 30],
'Price': [100, 150, 200, 80, 120],
'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)pythonMost a pandas describe() segítségével statisztikai összefoglalót készíthet az oszlopokban található numerikus adatokról:
summary = df.describe()
print(summary)pythonA pandas DataFrame.describe() függvény kimenete a következő:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
25% 10.000000 100.000000 1000.000000
50% 15.000000 120.000000 3000.000000
75% 20.000000 150.000000 3000.000000
max 30.000000 200.000000 3600.000000A kimenetben megjelenő legfontosabb mutatók:
count: Nem NaN (nem szám) bejegyzések számamean: Az értékek átlaga ( DataFrame.mean() segítségével is elérhető)std: Az értékek szórásamin,25%,50%,75%,max: Minimum, 25. percentilis, medián (50. percentilis), 75. percentilis és maximum értékek
2. példa: A percentilisek testreszabása
A pandas DataFrame.describe() kimenetben a percentiliseket a percentiles paraméterrel lehet testreszabni:
# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)pythonEz a függvényhívás a következő kimenetet adja:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
10% 7.000000 88.000000 640.000000
50% 15.000000 120.000000 3000.000000
90% 26.000000 180.000000 3360.000000
max 30.000000 200.000000 3600.000000A kimenetben a korábbi példában szereplő standard percentilisek helyett 10%, 50% és 90% szerepel.