Künstliche allgemeine Intelligenz
Inflection-2.5: Das leistungsstarke LLM, das GPT-4 und Gemini konkurriert
Flexion AI hat auf dem Gebiet Wellen geschlagen große Sprachmodelle (LLMs) mit der kürzlichen Vorstellung von Inflection-2.5, einem Modell, das mit den weltweit führenden LLMs konkurriert, darunter GPT-4 von OpenAI und Gemini von Google.
Der rasante Aufstieg der KI in Fluktuation wurde zusätzlich durch eine massive Finanzierungsrunde in Höhe von 1.3 Milliarden US-Dollar, angeführt von Branchenriesen wie Microsoft, NVIDIA und renommierten Investoren wie Reid Hoffman, Bill Gates und Eric Schmidt. Durch diese bedeutende Investition beläuft sich die Gesamtfinanzierung des Unternehmens auf 1.525 Milliarden US-Dollar.
In Zusammenarbeit mit den Partnern CoreWeave und NVIDIA baut Inflection AI den größten KI-Cluster der Welt auf, der beispiellose 22,000 NVIDIA H100 Tensor Core GPUs umfasst. Diese kolossale Rechenleistung wird das Training und den Einsatz einer neuen Generation groß angelegter KI-Modelle unterstützen und es Inflection AI ermöglichen, die Grenzen dessen zu erweitern, was im Bereich der persönlichen KI möglich ist.
Die bahnbrechende Arbeit des Unternehmens hat bereits bemerkenswerte Ergebnisse hervorgebracht: Der Inflection AI-Cluster, der aktuell über 3,500 NVIDIA H100 Tensor Core GPUs umfasst, liefert im Open-Source-Benchmark MLPerf Spitzenleistung. In einer gemeinsamen Einreichung mit CoreWeave und NVIDIA schloss der Cluster die Referenztrainingsaufgabe für große Sprachmodelle in nur 11 Minuten ab und festigte damit seine Position als schnellster Cluster in diesem Benchmark.
Dieser Erfolg folgt auf die Vorstellung von Inflection-1, dem hauseigenen Large Language Model (LLM) von Inflection AI, das als bestes Modell seiner Rechenklasse gilt. Inflection-3.5 übertrifft Branchengrößen wie GPT-540, LLaMA, Chinchilla und PaLM-1B bei einer Vielzahl von Benchmarks, die üblicherweise zum Vergleich von LLMs verwendet werden. Es ermöglicht Benutzern, auf einfache und natürliche Weise mit Pi, der persönlichen KI von Inflection AI, zu interagieren und schnell relevante und hilfreiche Informationen und Ratschläge zu erhalten.
Das Engagement von Inflection AI für Transparenz und Reproduzierbarkeit zeigt sich in der Veröffentlichung eines technischen Memos, das die Bewertung und Leistung von Inflection-1 anhand verschiedener Benchmarks detailliert beschreibt. Das Memo zeigt, dass Inflection-1 Modelle derselben Rechenklasse übertrifft. Diese sind definiert als Modelle, die mit höchstens den FLOPs (Gleitkommaoperationen) von PaLM-540B trainiert wurden.
Der Erfolg von Inflection-1 und die schnelle Skalierung der Computerinfrastruktur des Unternehmens, die durch die umfangreiche Finanzierungsrunde vorangetrieben wurde, unterstreichen das unermüdliche Engagement von Inflection AI bei der Umsetzung seiner Mission, eine persönliche KI für jedermann zu schaffen. Mit der Integration von Inflection-1 in Pi können Nutzer nun die Leistungsfähigkeit einer persönlichen KI erleben und von ihrer empathischen Persönlichkeit, Nützlichkeit und ihren Sicherheitsstandards profitieren.
Flexion-2.5
Flexion-2.5 ist jetzt für alle Nutzer von Pi, dem persönlichen KI-Assistenten von Inflection AI, auf mehreren Plattformen verfügbar, darunter im Web (pi.ai), iOS, Android und einer neuen Desktop-App. Diese Integration markiert einen wichtigen Meilenstein in der Mission von Inflection AI, eine persönliche KI für jedermann zu schaffen, die grundlegende Fähigkeiten mit der für sie typischen empathischen Persönlichkeit und den entsprechenden Sicherheitsstandards kombiniert.
Ein Leistungssprung: Das Vorgängermodell von Inflection AI, Inflection-1, nutzte etwa 4 % der Trainings-FLOPs (Gleitkommaoperationen) von GPT-4 und zeigte bei verschiedenen IQ-orientierten Aufgaben eine durchschnittliche Leistung von etwa 72 % im Vergleich zu GPT-4. Mit Inflection-2.5 hat Inflection AI die intellektuellen Fähigkeiten von Pi deutlich gesteigert, mit Schwerpunkt auf Codierung und Mathematik.
Die Leistung des Modells bei wichtigen Branchen-Benchmarks unterstreicht seine Leistungsfähigkeit und erreicht über 94 % der durchschnittlichen Leistung von GPT-4 bei verschiedenen Aufgaben, wobei der Schwerpunkt auf herausragenden Leistungen in MINT-Fächern liegt. Diese bemerkenswerte Leistung ist ein Beweis für das Engagement von Inflection AI, die technologischen Grenzen zu erweitern und gleichzeitig den Fokus auf Benutzererfahrung und Sicherheit zu legen.
Inflection-2.5 glänzt in den Bereichen Programmierung und Mathematik und zeigt bei BIG-Bench-Hard, einer Teilmenge anspruchsvoller Probleme für große Sprachmodelle, eine Verbesserung von über 10 % gegenüber Inflection-1. Zwei Programmier-Benchmarks, MBPP+ und HumanEval+, zeigen massive Verbesserungen gegenüber Inflection-1 und festigen damit die Position von Inflection-2.5 als eine Kraft, mit der man im Programmierbereich rechnen muss.
Beim MBPP+-Benchmark übertrifft Inflection-2.5 seinen Vorgänger deutlich und weist ein Leistungsniveau auf, das mit dem von GPT-4 vergleichbar ist, wie von DeepSeek Coder berichtet. In ähnlicher Weise zeigt Inflection-2.5 beim HumanEval+-Benchmark bemerkenswerte Fortschritte, übertrifft die Leistung von Inflection-1 und nähert sich dem Niveau von GPT-4, wie in der EvalPlus-Bestenliste berichtet.
Branchen-Benchmark-Dominanz
Inflection-2.5 sticht in Branchen-Benchmarks hervor und weist im Vergleich zu Inflection-1 im MMLU-Benchmark und im GPQA Diamond-Benchmark, der für seinen hohen Schwierigkeitsgrad auf Expertenniveau bekannt ist, erhebliche Verbesserungen auf. Die Leistung des Modells in diesen Benchmarks unterstreicht seine Fähigkeit, ein breites Spektrum an Aufgaben zu bewältigen, von Problemen auf Highschool-Niveau bis hin zu Herausforderungen auf professionellem Niveau.
Hervorragend in MINT-Prüfungen Die Leistungsfähigkeit des Modells erstreckt sich auch auf MINT-Prüfungen und zeigt herausragende Leistungen in der ungarischen Mathematikprüfung und im GRE-Physiktest. In der ungarischen Mathematikprüfung demonstriert Inflection-2.5 seine mathematischen Fähigkeiten durch die Nutzung der bereitgestellten Eingabeaufforderung mit wenigen Beispielen und die Formatierung, was eine einfache Reproduzierbarkeit ermöglicht.
Im Physics GRE, einer Aufnahmeprüfung für Hochschulabsolventen in Physik, erreicht Inflection-2.5 das 85. Perzentil der menschlichen Testteilnehmer im maj@8 (Mehrheitsvotum bei 8) und festigt damit seine Position als hervorragender Konkurrent im Bereich der physikalischen Problemlösung . Darüber hinaus erreicht das Modell in maj@32 die Höchstpunktzahl und stellt damit seine Fähigkeit unter Beweis, komplexe physikalische Probleme mit bemerkenswerter Genauigkeit zu lösen.
Verbessertes Benutzererlebnis: Inflection-2.5 behält nicht nur die charakteristische Persönlichkeit und die Sicherheitsstandards von Pi bei, sondern steigert auch seinen Status als vielseitige und unschätzbar wertvolle persönliche KI für verschiedene Themen. Von der Diskussion aktueller Ereignisse über die Suche nach lokalen Empfehlungen, das Lernen für Prüfungen, das Programmieren bis hin zu zwanglosen Gesprächen – Pi powered by Inflection-2.5 verspricht ein bereicherndes Benutzererlebnis.
Dank der leistungsstarken Funktionen von Inflection-2.5 können Benutzer Pi mit einem breiteren Themenspektrum als je zuvor nutzen. Die Fähigkeit des Modells, komplexe Aufgaben zu bewältigen, kombiniert mit seiner empathischen Persönlichkeit und Echtzeit-Websuchfunktionen, stellt sicher, dass Benutzer hochwertige und aktuelle Informationen und Anleitungen erhalten.
Benutzerakzeptanz und Engagement: Die Auswirkungen der Integration von Inflection-2.5 in Pi zeigen sich bereits in der Benutzerstimmung, dem Engagement und den Bindungskennzahlen. Inflection AI verzeichnet eine deutliche Beschleunigung des organischen Benutzerwachstums: Eine Million täglich und sechs Millionen monatlich aktive Benutzer tauschen mehr als vier Milliarden Nachrichten mit Pi aus.
Im Durchschnitt dauern Gespräche mit Pi 33 Minuten, wobei jedes zehnte Gespräch jeden Tag über eine Stunde dauert. Darüber hinaus kehren etwa 60 % der Menschen, die in einer Woche mit Pi interagieren, in der darauffolgenden Woche zurück und weisen eine höhere monatliche Bindung auf als führende Konkurrenten auf diesem Gebiet.
Technische Details und Benchmark-Transparenz
Im Einklang mit dem Engagement von Inflection AI für Transparenz und Reproduzierbarkeit hat das Unternehmen umfassende technische Ergebnisse und Details zur Leistung von Inflection-2.5 anhand verschiedener Branchen-Benchmarks bereitgestellt.
Beispielsweise zeigt Inflection-2.5 in der korrigierten Version des MT-Bench-Datensatzes, der Probleme mit falschen Referenzlösungen und fehlerhaften Prämissen im Originaldatensatz angeht, eine Leistung, die den Erwartungen entspricht, die auf anderen Benchmarks basieren.
Inflection AI hat Inflection-2.5 auch auf HellaSwag und ARC-C, gesunden Menschenverstand und wissenschaftlichen Benchmarks bewertet, die von einer Vielzahl von Modellen gemeldet wurden, und die Ergebnisse zeigen eine starke Leistung bei diesen sättigenden Benchmarks.
Es ist wichtig zu beachten, dass die bereitgestellten Bewertungen zwar das Modell darstellen, das Pi antreibt, die Benutzererfahrung jedoch aufgrund von Faktoren wie der Auswirkung des Webabrufs (in den Benchmarks nicht verwendet), der Struktur der Wenig-Schuss-Eingabeaufforderung und anderen leicht variieren kann produktionsseitige Unterschiede.
Fazit
Inflection-2.5 stellt einen bedeutenden Fortschritt im Bereich großer Sprachmodelle dar, da es mit den Fähigkeiten von Branchenführern wie GPT-4 und Gemini mithalten kann und dabei nur einen Bruchteil der Rechenressourcen beansprucht. Mit seiner beeindruckenden Leistung in einer Vielzahl von Benchmarks, insbesondere in den MINT-Bereichen, Codierung und Mathematik, hat sich Inflection-2.5 als herausragender Konkurrent in der KI-Landschaft positioniert.
Die Integration von Inflection-2.5 in Pi, den persönlichen KI-Assistenten von Inflection AI, verspricht ein verbessertes Benutzererlebnis, das rohe Leistungsfähigkeit mit empathischer Persönlichkeit und Sicherheitsstandards verbindet. Während Inflection AI die Grenzen des Möglichen mit LLMs immer weiter verschiebt, erwartet die KI-Community gespannt die nächste Welle an Innovationen und Durchbrüchen dieses bahnbrechenden Unternehmens.














