Mi az a pandas DataFrame describe() metódus?

Tartalomjegyzék

A Python pandas DataFrame.describe() függvényt a DataFrame numerikus oszlopainak statisztikai összefoglalásának létrehozására használják. Ez az összefoglaló olyan fontos statisztikai mutatókat tartalmaz, mint az átlag, a szórás, a minimum, a maximum és a különböző percentilisek.

Mi a pandas `describe()` függvény szintaxisa?

A DataFrames describe() alapvető szintaxisa egyszerű. Így néz ki:

DataFrame.describe(percentiles=None, include=None, exclude=None)

python

Fontos paraméterek a pandák számára `DataFrame.describe()`

A következő paraméterek segítségével beállíthatja a describe() kimenetet:

Paraméter	Leírás	Alapértelmezett érték
`percentiles`	Az összefoglalásban szereplő percentilisek listája	`[.25, .5, .75]`
`include`	Meghatározza, hogy mely adattípusokat kell belevenni a leírásba; lehetséges értékek: `numpy.number`, `numpy.object`, `all` vagy `None`.	`None`
`exclude`	Meghatározza, hogy mely adattípusokat kell kizárni a leírásból; a `include` paraméterhez hasonlóan működik.	`None`

Példák a pandas `describe()` használatára

Ha gyors áttekintésre van szüksége egy adatkészlet legfontosabb statisztikai mutatóiról, a pandas DataFrame.describe() függvény rendkívül hasznos lehet.

1. példa: Numerikus adatok statisztikai összefoglalása

A következő példában megvizsgáljuk a DataFrame df, amely különböző típusú értékesítési adatokat tartalmaz.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)

python

Most a pandas describe() segítségével statisztikai összefoglalót készíthet az oszlopokban található numerikus adatokról:

summary = df.describe()
print(summary)

python

A pandas DataFrame.describe() függvény kimenete a következő:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

A kimenetben megjelenő legfontosabb mutatók:

count: Nem NaN (nem szám) bejegyzések száma
mean: Az értékek átlaga ( DataFrame.mean() segítségével is elérhető)
std: Az értékek szórása
min, 25%, 50%, 75%, max: Minimum, 25. percentilis, medián (50. percentilis), 75. percentilis és maximum értékek

2. példa: A percentilisek testreszabása

A pandas DataFrame.describe() kimenetben a percentiliseket a percentiles paraméterrel lehet testreszabni:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)

python

Ez a függvényhívás a következő kimenetet adja:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

A kimenetben a korábbi példában szereplő standard percentilisek helyett 10%, 50% és 90% szerepel.

Kapcsolódó cikkek

Hogyan lehet fájlokat betölteni a Pythonba a pandas read_csv() segítségével?

A Python pandas read_csv() egy hatékony függvény, amely lehetővé teszi a CSV fájlok tartalmának gyors és hatékony elérését Pythonban. A függvény rugalmas és számos paramétert kínál, így a betöltési folyamatot az Ön igényeinek megfelelően testreszabhatja. A pandas read_csv()…

Tovább

Mr. Kosalshutterstock

Hogyan indexeljük a pandas DataFrames-eket?

A Pandas DataFrame indexelés hatékony eszköz a hatékony és eredményes adatkezeléshez. Különböző módszerekkel megcélozhatja a DataFrame konkrét adatait és alhalmazait. Ebben a cikkben megvizsgáljuk, mi is az a pandas DataFrame index, hogyan lehet címkék segítségével hozzáférni az…

Tovább

BEST-BACKGROUNDSShutterstock

Hogyan tisztítsuk meg az adatokat a pandasban a dropna() segítségével?

A pandas DataFrame.dropna() függvény egy hatékony eszköz az adatkészletek tisztításához. A függvény hatékonyan eltávolítja a hiányzó értékeket, és különböző paraméterekkel használható, lehetővé téve a programozók számára, hogy különböző követelményeket határozzanak meg az adatok…

Tovább

ESB Professionalshutterstock

Hogyan lehet a Pandas DataFrame segítségével gyorsan manipulálni táblázatokat Pythonban?

A Pandas modul az egyik leghatékonyabb eszköz az adatok manipulálásához Pythonban. A Pandas egyik központi adatstruktúrája a DataFrame. A DataFrame-ek segítségével hatékonyan manipulálhatók a kétdimenziós, strukturált adatok. Könnyen követhető kódpéldák segítségével magyarázzuk…

Tovább

BEST-BACKGROUNDSShutterstock

Hogyan lehet végigfutni a DataFrames-eken a pandas iterrows() segítségével?

A Pandas DataFrame.iterrows() egy hasznos funkció a DataFrame sorainak végigfutásához, különösen akkor, ha az adatokat soronként kell feldolgozni. Ez különösen hasznos számítások vagy feltételes logika esetén. Ebben a cikkben bemutatjuk a panda iterrows() szintaxisát, és…

Tovább

Mi az a Python pandas tulajdonság iloc[]?

A Python pandas DataFrame-ekkel való munkavégzés során nem minden DataFrame sor vagy oszlop releváns az adatelemzés szempontjából. A pandas DataFrame iloc[] tulajdonsága hasznos eszköz a sorok vagy oszlopok indexeik alapján történő kiválasztásához. Ebben a cikkben megvizsgáljuk…

Tovább

Mi az a pandas DataFrame describe() metódus?

Mi a pandas describe() függvény szintaxisa?

Fontos paraméterek a pandák számára DataFrame.describe()

Példák a pandas describe() használatára

1. példa: Numerikus adatok statisztikai összefoglalása

2. példa: A percentilisek testreszabása

Mi a pandas `describe()` függvény szintaxisa?

Fontos paraméterek a pandák számára `DataFrame.describe()`

Példák a pandas `describe()` használatára