Pandor

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 16 maj 2022; verifiering kräver 1 redigering .

pandor
Sorts Python-bibliotek [d] och program för numerisk analys [d]
Författare Wes McKinney [d] [1]
Utvecklaren Wes McKinney [d]
Skrivet i Python [2]
Operativ system plattformsoberoende
Första upplagan 11 januari 2008
senaste versionen
Licens BSD
Hemsida pandas.pydata.org
 Mediafiler på Wikimedia Commons

pandas  är ett Python -databehandlings- och analysbibliotek . Pandas datamanipulation byggs ovanpå NumPy- biblioteket , som är ett verktyg på lägre nivå. Tillhandahåller speciella datastrukturer och operationer för att manipulera numeriska tabeller och tidsserier . Namnet på biblioteket kommer från den ekonometriska termen "paneldata" som används för att beskriva flerdimensionella strukturerade uppsättningar av information. pandas distribueras under den nya BSD-licensen .

Omfattning

Det huvudsakliga applikationsområdet är att tillhandahålla arbete inom Python-miljön inte bara för datainsamling och rensning, utan för dataanalys och modelleringsuppgifter, utan att byta till mer specifika språk för statistisk bearbetning (som R och oktav ).

Arbete pågår också för att implementera "inhemska" kategoriska datatyper.

Paketet är i första hand avsett för rengöring och primär utvärdering av data om allmänna indikatorer, såsom medelvärde, kvantiler och så vidare; det är inte ett statistiskt paket i full mening, men DataFrame- och Series-datauppsättningar används som indata i de flesta dataanalys- och maskininlärningsmoduler ( SciPy , Scikit-Learn och andra).

Funktioner

Huvudfunktionerna i biblioteket:

Biblioteket är optimerat för hög prestanda, de viktigaste delarna av koden är skrivna i Cython och C.

Historik

Paketutveckling startade 2008 av AQR Capital Management [ ] Wes McKinney .  Innan han lämnade AQR lyckades han övertyga ledningen att låta bibliotekets källkod släppas under en gratis licens.

En annan AQR-anställd, Chang She, gick med i projektet 2012 och blev bibliotekets andra chefsutvecklare. Ungefär samtidigt blev biblioteket populärt bland Python-utvecklare, och många nya bidragsgivare anslöt sig till projektet. [5]

Användningsexempel

Kurvor

importera pandor som pd importera matplotlib.pyplot som plt importera numpy som np df = pd . DataFrame ( np . random . randn ( 100 , 5 ), kolumner = lista ( 'ABCDE' )) df = df . cumsum () # Returnera kumulativ summa över en DataFrame- eller serieaxel df . tomt () plt . visa ()

Diagram

df = pd . DataFrame ( np . random . rand ( 10 , 5 ), kolumner = lista ( 'ABCDE' )) df . tomt . bar ( staplad = True ) plt . visa ()

Schema

df = pd . DataFrame ( np . random . rand ( 7 , 5 ), kolumner = lista ( 'ABCDE' )) df . tomt . box () plt . visa ()

stapeldiagram

data = pd . Seriedata ( np . slumpmässig . normal ( storlek = 100 ) ) . hist ( rutnät = Falskt ) plt . visa ()

Anteckningar

  1. https://wesmckinney.com/pages/about.html
  2. py-pandas Open Source Project på Open Hub: Languages-sidan - 2006.
  3. Utgåva 1.5.1 - 2022.
  4. Pandas återställningsindex (30 augusti 2021). Hämtad 30 augusti 2021. Arkiverad från originalet 30 augusti 2021.
  5. Daniel Chen. Pandas för alla: Python Data Analysis . - Addison-Wesley Professional, 2017. - ISBN 978-0134546933 . Arkiverad 6 september 2021 på Wayback Machine

Litteratur

  • McKinney W. Python och dataanalys = Python för dataanalys. - DMK Press , 2015. - 482 sid. - ISBN 978-5-97060-315-4 , 978-1-449-31979-3.
  • Brink H., Richards D., Feverolf M. Machine learning. - Peter , 2018. - 336 sid. - ISBN 978-5-496-02989-6 .
  • Vander Plas J. Python för komplexa uppgifter. Data Science and Machine Learning = Python Data Science Handbook: Essential Tools for Working with Data. - Peter, 2017. - 576 sid. — ISBN 978-5-496-03068-7 .
  • Heidt M. Lärande pandor = Lärande pandor. - DMK Press, 2018. - 432 sid. - ISBN 978-5-97060-625-4 .