Das chinesische Startup MiniMax, bekannt vor allem durch seinen KI-Videogenerator Hailuo, hat nun mit MiniMax-M1 ein großes Sprachmodell unter der Apache-2-Lizenz veröffentlicht, das über ein Kontextfenster von 1 Million Input-Tokens und bis zu 80 000 Output-Tokens verfügt.
Das Kontextfenster in großen Sprachmodellen (LLMs) bezeichnet die maximale Anzahl von Token, die das Modell gleichzeitig verarbeiten kann. Token sind die Grundeinheiten eines Textes, die ganze Wörter, Teile von Wörtern, Satzzeichen oder Codesymbole umfassen können. Diese Token werden in numerische Vektoren umgewandelt, die das Modell verwendet, um die Bedeutung von Aussagen darzustellen und zu manipulieren.
Ein Vergleich verdeutlich die außerordentliche Größe des hier verwendeten Kontextfensters: OpenAIs GPT-4o hat ein Kontextwindow von nur 128 000 Token, was ausreichen würde, um dem Modell textliche Informationen etwa im Umfang eines Romans zu übermitteln. Mit einer Million Token kann MiniMax-M1 dagegen eine ganze Büchersammlung entgegennehmen. Bei seinen Berechnungen soll es nur 25 Prozent der Gleitkommaoperationen benötigen, die DeepSeek-R1 für jeweils 100 000 Token braucht.
Das Modell ist in zwei Varianten erhältlich: MiniMax-M1-40k und MiniMax-M1-80k, die sich durch ihre unterchiedlichen Budgets für die Ausgaben unterscheiden. Die Architektur basiert auf dem früheren MiniMax-Text-01 des Unternehmens und umfasst 456 Milliarden Parameter. Ein herausragendes Merkmal der neuen Version sind die Ausbildungskosten des Modells. MiniMax berichtet, dass das M1-Modell mithilfe von Large-Scale Reinforcement Learning mit einer in diesem Bereich selten gesehenen Effizienz trainiert wurde, bei der die Gesamtkosten “nur” 534 700 US-Dollar betrugen.




