Von der Vorhersage der Kundenwanderung bis hin zur Aufdeckung von Finanzbetrug – tabellarische Regressions- und Klassifizierungsaufgaben sind im Unternehmenskontext allgegenwärtig. Nun hat Google mit TabFM ein auf tabellarische Daten spezialisiertes KI-Modell vorgestellt.
Seit Jahren benutzen Anwender überwachte Algorithmen auf der Basis von mathematischen Bäumen – etwa AdaBoost, XGBoost oder Random Forests – für die Analyse strukturiertrer Daten. Zwar liefern diese Algorithmen eine gute Performance, ihre Einstellung auf einen neuen Datensatz erfordert aber ausnahmslos zeitaufwendige und mühsame manuelle Arbeit. Auf der anderen Seite haben große Sprachmodelle (LLMs) die bemerkenswerte Leistungsfähigkeit der Zero-Shot-Vorhersagen durch kontextbasiertes Lernen (ICL) unter Beweis gestellt. Diese Technik ermöglicht es einem vortrainierten Modell, eine neue Aufgabe zu erlernen, indem Beispiele und Anweisungen im Eingabekontext bereitgestellt werden, ohne dass die zugrunde liegenden Modellgewichte aktualisiert werden müssen.
Das jetzt vorgestellte neue Foundation-Modell TabFM für Regression und Klassifikation von Tabellendaten, formuliert die tabellarische Vorhersage als ICL-Problem. Dadurch entfallen das manuelle Modelltraining, die Hyperparameter-Optimierung und das komplexe Feature-Engineering. Dieser Ansatz ermöglicht es Anwendern, in einem einzigen Vorwärtsdurchlauf hochwertige Vorhersagen für bisher unbekannte Tabellen zu generieren.
TabFM ist ab sofort in den Repositories auf Hugging Face und GitHub verfügbar.





