Der TikTok-Mutterkonzern ByteDance hat mit Seed-OSS-36B ein weiteres chinesisches LLM als Open Source veröffentlicht. Es erschien unter der Apache-2.0-Lizenz.
LLM
Eine neue Studie von Google und dem University College London untersucht, warum große Sprachmodelle einerseits felsenfest von einer einmal gefundenen Antwort überzeugt sind, sich dann aber sehr leicht durch ein Gegenargument verunsichern lassen, auch wenn das falsch ist.
Die Forscher verschiedener führender Institute, darunter der Shanghai Jiao Tong University oder des Institute for Advanced Algorithms Research, Shanghai, konstatieren, dass das Fehlen einer gut organisierten Speicherverwaltung, eines Gedächtnisses der KI, heutige Systeme daran hindere,...
Ein Sprachmodell unterstützt Programmierer besser, ein anderes ist ein Mathe-Ass, ein drittes läuft beim kreativen Schreiben zur Hochform auf - jedes hat seine Stärken und Schwächen. Forscher des japanischen Unternehmens Sakana AI wollen aus diesem Umstand nun einen Vorteil ziehen, indem sie mit...
Das chinesische Startup MiniMax, bekannt vor allem durch seinen KI-Videogenerator Hailuo, hat nun mit MiniMax-M1 ein großes Sprachmodell unter der Apache-2-Lizenz veröffentlicht, das über ein Kontextfenster von 1 Million Input-Tokens und bis zu 80 000 Output-Tokens verfügt.
Im Vorfeld seiner Entwicklerkonferenz WWDC veröffentliche Apple eine Studie unter dem Titel "The Illusion of Thinking", die prinzipielle Zweifel an der "Denkfähigkeit" moderner Reasoning Modelle begründet.
Mit aktueller KI-Technik lässt sich ein Murder-Mystery-Game entwerfen, in dem der Spieler der Detektiv ist und ChatGPT die Rolle aller Verdächtigen übernimmt. Selbst einen Kriminalfall generierte das Large Language Model (LLM). Python und Streamlit machen daraus ein Webspiel.
Themis AI, eine Ausgründung aus dem MIT, hat Software entwickelt, die es beliebigen Sprachmodellen ermöglichen soll, zu erkennen, was sie nicht wissen oder wo sie zumindest unsicher sind. Das ist wichtig, weil LLMs dazu tendieren, auf jeden Fall eine Antwort zu generieren, egal ob sie über die...
Wissenschaftler der Princeton Universität und von Google DeepMind haben nun in einem Forschungsbericht gezeigt, warum sich viele Sprachmodelle dazu bringen lassen, gefährliche Inhalte zu generieren: Ihre Sicherheitschecks beziehen sich nur auf die ersten paar Ausgabe-Token. Der Bericht wurde im...
Greenly, ein französisches Unternehmen, das auf die Berechnung von CO2-Bilanzen spezialisiert ist, hat ChatGPT und DeepSeek hinsichtlich ihres ökologischen Fußabdrucks verglichen.
Forscher des MIT haben einen neuen Ansatz dafür entwickelt, großen Sprachmodellen das Lösen komplizierter Probleme zu ermöglichen.
Nach und nach hält künstliche Intelligenz in Form nativer Werkzeuge bei Betriebssystemen Einzug. Wir haben uns angesehen, wie weit die Entwicklung von KI-Assistenten unter Linux gediehen ist.
Ganz ohne Ankündigung und Marketing Tamtam hat DeepSeek sein neues Modell DeepSeek-V3-0324 veröffentlicht, dass auf einem einzelnen Mac Studio performant läuft und zudem unter einer MIT-Lizenz steht, also auch kommerziell kostenlos verwendet werden kann, was Mitbewerber wie OpenAI unter Druck setzt.
Das französische KI-Unternehmen Mistral AI hat ein neues Sprachmodell namens Mistral Small 3.1 vorgestellt, dass mit einem Bruchteil an Parametern (24 Milliarden) die amerikanischen Konkurrenten höherer Gewichtsklassen von Google und OpenAI schlagen soll.


