Pandas 1.0 setzt auf Semantic Versioning

- 30. Januar 2020

Pandas, die beliebte Python-Bibliothek zur Datenanalyse, hat ein Update auf Version 1.0 erhalten. Im Zuge dessen entfernen die Entwickler veralteten Kram, bringen aber auch Verbesserungen ein.

Laut einer Warnmeldung gleich zu Beginn der Release Notes wirft die Version 1.0 eine Menge Features über Bord, die in den vorherigen Versionen als veraltet markiert wurden. Entwickler, die Pandas bereits länger einsetzen, sollten daher zunächst auf die letzte Version 0.25 erhöhen, ihre Programme testen und dann weiter auf Pandas 1.0 aktualisieren. Der Sprung von der 0.25 auf die 1.0 hat auch Versionierungsgründe: Das Projekt adoptiert Semantic Versioning. Minor-Versionen (1.1.0, 1.2.0…) sollen künftig veraltete Features ankündigen, in Major-Versionen (1.0.0, 2.0.0…) fliegen diese Features dann aus der Codebasis.

Ein experimentelles neues Features ist der Umgang mit fehlenden Werten. Vermisste ein Pandas-Nutzer bestimmte Werte, setzte er bislang “np.nan” (für Fließkomma- und Objekt-Datentyp-Daten), “None” (für Objekt-Datentyp-Daten) und “pd.NaT” (für “datetime”-artige Daten) ein. Alle drei kann nun “pd.NA” ersetzen, das über mehrere Datentypen hinweg funktioniert. Aktuell kommt es für Integer-Objekt-Datentypen inklusive Null, für Boolsche und den neuen String-Objekt-Datentyp zum Einsatz, wobei es abhängig von der arithmetischen Operation unterschiedliche Werte zurück liefert.

Neue Datentypen

Mit fehlenden Werten kommt auch ein neu eingeführter Boolscher Datentyp (“BooleanDtype” oder “BooleanArray”) zurecht. Anders als der Boolsche Standardtyp, der auf einem Numpy-Array vom Typ Bool-Objekt-Datentyp basiert, kommt der neue erweiterte Typ auch mit fehlenden Werten zurecht. Ebenfalls neu und experimentell ist “StringDtype”, der eben erwähnte String-Objekt-Datentyp, ein erweiterter Type für String-Daten. Diese wurden bislang typischerweise in NumPy-Arrays als Objekt-Datentypen gespeichert. Die Kennzeichnung als experimentell bedeutet für die neuen String- und Bool-Typen sowie “pd.NA”, dass sich die Implementierung und das API dafür noch ändern können. Entwickler sollten beim frühen Einsatz also Vorsicht walten lassen.

Verbesserungen

Auch einige Verbesserungen heben die Entwickler hervor. So lassen sich “rolling.apply()” und “expanding.apply()” nun über ein Engine-Schlagwort mit der Numba-Engine verwenden anstelle von Cython. Das soll für Performance-Gewinne sorgen, wenn die “apply()”-Funktion auf Numpy-Arrays operiert und das Datenset mehr als eine Million Zeilen umfasst. Über die Klasse “pandas.api.indexers.BaseIndexer()” legen Entwickler die Window-Grenzen bei “rolling”-Operationen fest. Nicht zuletzt erzeugt “.to_markdown()” aus bestimmten Daten eine Markdown-Tabelle, wie es das Beispiel aus der Ankündigung zeigt:

In [1]: df = pd.DataFrame({"A": [1, 2, 3], "B": [1, 2, 3]}, index=['a', 'a', 'b'])

In [2]: print(df.to_markdown())
| | A | B |
|:---|----:|----:|
| a | 1 | 1 |
| a | 2 | 2 |
| b | 3 | 3 |

Neben den hier genannten Highlights gibt es noch eine ganze Reihe weiterer Änderungen, welche die Ankündigung aufzählt. Wer Pandas 1.0 ausprobieren möchte, findet hier eine Installationsanleitung.

IPFire mustert DNS-Resolver Unbound aus

Die schlanke und flexible Firewall-Distribution IPFire ersetzt in ihrer neuen Version Unbound durch den Knot Resolver. Darüber hinaus unterstützt der integrierte WLAN Access Point das 6 GHz-Band.

OpenAI beobachtet Ausbruchsversuche in lange laufenden KI-Modellen

Für KI-Modelle, die lange Zeit autonom an einer Aufgabe arbeiten sollen, sind die üblichen Abwehrmaßnahmen gegen schädliches Verhalten nicht ausreichend. Forscher bei OpenAI mussten Tests pausieren, weil die Modelle aktiv nach Wegen suchten, ihnen auferlegte Beschränkungen zu umgehen.

OpenSSL-Lücke: 11 Bytes bringen Server an die Speichergrenze

Eine neu entdeckte Schwachstelle in OpenSSL kann Angreifern ermöglichen, Server mit einer manipulierten Netzwerkverbindung schrittweise an die Speichergrenze zu bringen.

Richter genehmigt milliardenschweren Vergleich im Urheberrechtsstreit

Ein Bundesrichter in San Francisco billigte jetzt einen wegweisenden Vergleich im Wert von 1,5 Milliarden Dollar zwischen dem KI-Unternehmen Anthropic und einer Gruppe von Autoren, die dem Unternehmen vorgeworfen hatten, ihre Bücher unrechtmäßig für das Training seines KI-Chatbots Claude...

Bafin verhängt 240.000 Euro-Strafe gegen Teamviewer

Die Finanzaufsicht Bafin hat eine Geldbuße in Höhe von 240.000 Euro gegen das deutsche Softwareunternehmen Teamviewer festgesetzt. Quelle: Bafin/Jens Erbeck

Weil Teamviewer einen Angriff durch russische Hacker nicht sofort an die Börse meldete, greift die Finanzaufsicht Bafin nun durch.

Ermittler legen weltweite Phishing-Plattform Kratos lahm

Die Generalstaatsanwaltschaft Frankfurt am Main, das Bundeskriminalamt und US-amerikanische Strafverfolgungsbehörden haben die Infrastruktur des Phishing-Dienstes Kratos abgeschaltet. Die indonesischen Behörden nahmen den Entwickler und technischen Administrator der Plattform fest.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung

Was ist die beliebteste Linux-Distro? Zum Einstieg nehmen wir das DistroWatch-Ranking auseinander und erklären, warum Seitenaufrufe keine Popularität messen. Im Hauptthema geht es um Open Source Funding: Wie im XKCD 2347 ruht unsere digitale Infrastruktur auf Komponenten, die oft von Einzelnen...