Aus Linux-Magazin 07/2026

Notizen von der Stackconf 2026

Ein breites Themenspektrum, das viele Referenten in der Tiefe ausloteten. Das bildete die Mischung für eine gelungene Konferenz zu Fragen der Open-Source-Infrastruktur.

Abbildung 1: Jeff Fan, der zweite Vortragende mit einem Referat zu llm-d, dem Load Balancer für Sprachmodelle unter Kubernetes. Quelle: Netways

Abbildung 1: Jeff Fan, der zweite Vortragende mit einem Referat zu llm-d, dem Load Balancer für Sprachmodelle unter Kubernetes. Quelle: Netways

Lässt sich ein Sprachmodell in einem Kubernetes-Cluster betreiben? Die Antwort könnte ausfallen wie bei den Radio-Eriwan-Witzen: “Im Prinzip ja, aber …” Auf der Open Source Infrastructure Conference Stackconf in München, ausgerichtet von der Event-Sparte des Nürnberger IT-Lösungsanbieters Netways, lieferte die Fragestellung Stoff für gleich zwei Vorträge.

Prinzipiell würde es funktionieren, aber ohne besondere Vorkehrungen müsste man sich mit einer ungenügenden Performance zufriedengeben. Das Problem: Der standardmäßig verfügbare Load Balancer, der die Last nach dem einfachen Round-Robin-Verfahren auf die Pods verteilt, die noch freie Kapazitäten haben, ist für zustandslose Web-Applikationen gedacht. Dort sind die Anfragen jeweils in sich abgeschlossen und nicht von einander abhängig. Die Anfragen an ein LLM sind aber nicht unabhängig von einander. So kann es hier eine große Rolle spielen, welche Informationen wo bereits im Cache vorhanden sind. Zudem haben die beiden Phasen des Inferencing, die Verarbeitung der Eingabedaten in der Prefill-Phase, die eher Rechenpower braucht, und die Erzeugung der Ausgabetoken in der Decode-Phase, die mehr vom Memory abhängt, sehr unterschiedliche Ressourcenprofile. Daher ist es günstig, wenn sie der Load Balancer auf verchiedene Maschinen verteilt (Prefil/Decode Disaggregation).

Die Lösung für ein intelligentes Loadbalancing für Sprachmodelle ist llm-d, ein Kubernetes-natives Open-Source-Framework für verteilte LLM-Inferenz, das auf hohe Skalierung, intelligentes Routing und disaggregiertes Serving ausgerichtet ist. Vorgestellt wurde es von Antonio Cardace von Red Hat. Red Hat ist neben Partnern wie Google, NVIDIA oder IBM Research eng in die Entwicklung von llm-d eingebunden.

Der zweite Vortrag zum Thema unter dem Titel “Stop treating LLMs like REST-Apis” kam von Jeff Fan (Digital Ocean, Abbildung 1). Er behandelte llm-d eher unter praktischen Gesichtspunkten und demonstrierte seine Inbetriebnahme in unter 15 Minuten.

Das ein Problem beim Betrieb der heutzutage allgegenwärtigen generativen KI so prominent auf der Konferenz vertreten war, wundert nicht. Das Themenspektrum war aber viel breiter. Ein zweiter mehrmals diskutierter Gegenstand war Security. So sprach Mofesola Babalola (Tempo.io) über “Securing Microservices with Istio’s Zero-Trust-Model” und Daniel Bodky (Netways Managed Services GmbH) beleuchtete “Real Time Threat Detection with Falco”. Daneben drehten sich Vorträge um so unterschiedliche Fragen wie Kubernetes auf Risc-Vhardware oder die Zukunft von Git.

Das Referat zu Git hielt übrigens PJ Hagerty, seines Zeichens Head of Developer and Community Relations bei GitButler, Hersteller eines Git-Clients. Das er Gründe dafür fand “Why git still matters” war nicht überraschend. Zuweilen wirkte eine solche Vorhersehbarkeit auch störend. Etwa bei Dmytro Kozlov (Victoria Metrics), der über darüber sprach, wie man mit Victoria Metrics und Open Telemetry einen Open-Source-Observability-Stack bauen könne. Was konnte er dabei über das Produkt seines Arbeitgebers anderes sagen, als es zu loben? Auch wenn das an die Grenze zu Werbung führte.

DIESEN ARTIKEL ALS PDF KAUFEN
EXPRESS-KAUF ALS PDFUmfang: 1 HeftseitePreis €0,99
(inkl. 19% MwSt.)
LINUX-MAGAZIN KAUFEN
EINZELNE AUSGABE Print-Ausgaben Digitale Ausgaben
ABONNEMENTS Print-Abos Digitales Abo
TABLET & SMARTPHONE APPS Readly Logo
E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben