Neues Open-Source-LLM aus China mit sehr großem Kontextfenster

- 17. Juni 2025

Das chinesische Startup MiniMax, bekannt vor allem durch seinen KI-Videogenerator Hailuo, hat nun mit MiniMax-M1 ein großes Sprachmodell unter der Apache-2-Lizenz veröffentlicht, das über ein Kontextfenster von 1 Million Input-Tokens und bis zu 80 000 Output-Tokens verfügt.

Das Kontextfenster in großen Sprachmodellen (LLMs) bezeichnet die maximale Anzahl von Token, die das Modell gleichzeitig verarbeiten kann. Token sind die Grundeinheiten eines Textes, die ganze Wörter, Teile von Wörtern, Satzzeichen oder Codesymbole umfassen können. Diese Token werden in numerische Vektoren umgewandelt, die das Modell verwendet, um die Bedeutung von Aussagen darzustellen und zu manipulieren.

Ein Vergleich verdeutlich die außerordentliche Größe des hier verwendeten Kontextfensters: OpenAIs GPT-4o hat ein Kontextwindow von nur 128 000 Token, was ausreichen würde, um dem Modell textliche Informationen etwa im Umfang eines Romans zu übermitteln. Mit einer Million Token kann MiniMax-M1 dagegen eine ganze Büchersammlung entgegennehmen. Bei seinen Berechnungen soll es nur 25 Prozent der Gleitkommaoperationen benötigen, die DeepSeek-R1 für jeweils 100 000 Token braucht.

Das Modell ist in zwei Varianten erhältlich: MiniMax-M1-40k und MiniMax-M1-80k, die sich durch ihre unterchiedlichen Budgets für die Ausgaben unterscheiden. Die Architektur basiert auf dem früheren MiniMax-Text-01 des Unternehmens und umfasst 456 Milliarden Parameter. Ein herausragendes Merkmal der neuen Version sind die Ausbildungskosten des Modells. MiniMax berichtet, dass das M1-Modell mithilfe von Large-Scale Reinforcement Learning mit einer in diesem Bereich selten gesehenen Effizienz trainiert wurde, bei der die Gesamtkosten “nur” 534 700 US-Dollar betrugen.

US-Regierung gibt auch das aktuellste ChatGPT nur für ausgewählte Kunden frei

Nach dem Exportverbot für Anthropics Spitzenmodelle Mythos 5 und Fable 5 weist die US-Regierung nun auch den Konkurrenten OpenAI an, sein neuestes Modell ChatGPT-5.6 vorerst nur handverlesenen Kunden zugänglich zu machen.

Suse und Openchip planen europäischen Technologie-Stack mit RISC-V

Der Linux-Anbieter Suse und das spanische Unternehmen Openchip & Software Technologies haben eine Absichtserklärung zur Entwicklung eines europäischen Technologie-Stacks unterzeichnet.

IBM-Forscher wollen Miniaturisierungstrend bei Chips noch zehn Jahre fortsetzen

Manche Wissenschaftler glaubten nicht mehr daran, dass sich der Trend zu immer weiterer Verkleinerung der Bauelemente auf Computerchips noch länger aufrechterhalten ließe. Nun aber stellten Forscher von IBM, das zwar selbst keine Chips mehr herstellt, aber weiter an der Technologie forscht,...

Red Hat macht Ansible fit für KI-Agenten

Red Hat baut die Red Hat Ansible Automation Platform zum zentralen „Trusted Execution Layer“ für KI-gestützte Prozesse aus. Damit können KI-Agenten kontrolliert und skalierbar in vorhandene Workflows und Infrastrukturen integriert werden.

Operation Endgame: Behörden zerschlagen Schadsoftware-Netzwerken**

m Rahmen der internationalen Operation Endgame haben Strafverfolgungs- und Cybersicherheitsbehörden mehrere Schadsoftware-Familien vom Netz genommen.

Im Rahmen der internationalen Operation Endgame haben Strafverfolgungs- und Cybersicherheitsbehörden mehrere Schadsoftware-Familien vom Netz genommen.

Cloud Tag: KI als Partner im Gruppenchat

Anthropic hat seine jüngste Entwicklung Claude Tag vorgestellt, die sich in einen Slack-Gruppenchat einbinden lässt und dann von Teammitgliedern via @Claude Aufgaben übertragen bekommt. Claude Tag soll sich dabei Kontext-Informationen aus den Channels besorgen, in denen es eingebunden ist.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung