Europäische KI-Modelle 2026: Mistral, Aleph Alpha und Z.AI ehrlich verglichen

"Wir hätten das schon gerne in Europa." Diesen Satz höre ich in fast jedem Erstgespräch, oft schon vor dem AVV-Thema. Geschäftsführung und IT-Leitung wissen, dass die Inferenz das eigentliche Drittland-Thema ist, wenn das Hosting in Deutschland liegt. Und sie wissen auch, dass die Antwort darauf "Mistral oder so etwas" nicht reicht.

Dieser Artikel ist der Versuch, die Lage 2026 ehrlich darzustellen. Welche europäischen Modelle sind reif für den produktiven Einsatz? Wo schwächeln sie, wo halten sie mit? Und an welcher Stelle braucht man weiter ein US-Modell, weil es schlicht keine vergleichbare europäische Option gibt? Ich gehe das aus Sicht von jemandem an, der täglich Agenten betreibt, nicht aus Sicht eines KI-Bloggers, der eine Tabelle aus Benchmarks zusammenkopiert.

Wer eine Liste mit fünfzig Modellen sucht, ist hier falsch. Ich bespreche die vier, die in der Praxis eine Rolle spielen, plus zwei, die strategisch interessant sind, aber noch nicht trägt. Und ich sage am Ende, wann ein 100-Prozent-EU-Stack wirklich Sinn ergibt und wann er teurer Aktionismus ist.

Warum die Frage nach europäischen Modellen 2026 anders steht als 2024

Vor zwei Jahren war die Antwort auf "Gibt es ein europäisches Modell, das mit GPT-4 mithält?" ein vorsichtiges Nein. Mistral war jung, Aleph Alpha eher Forschung, Open-Source-Modelle aus der EU eine Versammlung kleinerer Versuche.

Das hat sich verschoben. Nicht so weit, dass Europa technisch vorne wäre, aber so weit, dass es für viele Aufgaben einen produktionsreifen Pfad ohne US-Inferenz gibt. Mistral Large 2 ist erwachsen geworden, Z.AI hat mit der GLM-Familie ein konkurrenzfähiges Modell mit EU-Hosting-Option, und das deutsche OpenGPT-X-Konsortium hat mit Teuken-7B zumindest gezeigt, dass die EU eigene Grundlagenmodelle bauen kann, auch wenn das Ergebnis derzeit eher politisches Signal als technische Empfehlung ist.

Gleichzeitig gilt: Für Reasoning-lastige Aufgaben, also alles, was strukturiertes Nachdenken über mehrere Schritte erfordert, sind die US-Modelle Claude und GPT immer noch deutlich vorn. Wer das ignoriert, baut Agenten, die in einer Demo glänzen und im echten Mandantengespräch durchfallen.

Mistral Large 2: Der Default für die meisten EU-Use-Cases

Mistral aus Paris ist 2026 das einzige europäische Modell, das ich ohne Einschränkung für den produktiven Einsatz empfehle. Nicht weil es das stärkste Modell der Welt wäre, sondern weil es eine Lücke besetzt, die kein anderer EU-Anbieter so sauber abdeckt.

Mistral Large 2 hat ein Kontextfenster von 128.000 Tokens, das reicht für die meisten Geschäftsprozesse. Es kann Tools aufrufen, also Funktionen ausführen, APIs anfragen, Daten aus anderen Systemen lesen. Das ist die technische Mindestvoraussetzung, damit ein Agent überhaupt mehr ist als ein Chatbot. Mistral Small und Large 2 unterstützen das inzwischen zuverlässig, was vor einem Jahr noch nicht selbstverständlich war.

Mistral betreibt seine Modelle entweder direkt über die eigene Cloud in Frankreich oder, für viele Kunden interessanter, über AWS Bedrock in der Region Paris oder Frankfurt. Beides ist EU-Hosting im rechtlichen Sinne. Mistral schließt einen eigenen AVV ab. Eine Steuerberaterkanzlei in München hat das durchgeprüft und für tauglich befunden.

Preislich liegt Mistral Large 2 bei rund 2 € pro Million Input-Tokens und 6 € pro Million Output-Tokens, ungefähr ein Drittel günstiger als GPT-5.5 in vergleichbarer Klasse. Mistral Small ist mit 0,20 €/0,60 € pro Million Tokens für einfache Triage-Aufgaben kaum zu schlagen.

Die ehrliche Schwäche ist die Reasoning-Tiefe. Wenn ein Agent eine komplexe Vertragsklausel auf rechtliche Risiken prüfen soll, Schritt für Schritt durch eine mehrteilige juristische Argumentation, dann hängt Mistral Large 2 hinter Claude Opus 4.7 und GPT-5.5 zurück. Das merkt man bei den ersten beiden Mandanten nicht, beim dritten schon. Auch im Tool-Calling ist es eine Liga tiefer: Die Auswahl der richtigen Funktion bei mehreren Optionen klappt zuverlässig, das Verketten von fünf, sechs Tool-Aufrufen mit Zwischen-Reasoning weniger.

Bei mir ist Mistral Large 2 der Default für Backoffice mit EU-only-Anforderung, für Marketing-Recherche und für Customer-Success-Agenten in regulierten Branchen. Sobald der Anwendungsfall strukturiertes Reasoning braucht, wechsle ich auf ein US-Modell und kläre die SCC-Frage explizit.

Z.AI und die GLM-Familie: Preis-Leistung gut, mit einem Asterisk

Z.AI ist bei uns im Repo als EU-Hosting-Option geführt, und ich nutze GLM 5.1 produktiv für preissensitive Use-Cases. Hier muss ich allerdings offen sein, sonst passiert genau das, was ich anderen Anbietern vorwerfe: ein Detail unter den Teppich kehren.

Z.AI ist ursprünglich ein chinesisches Unternehmen, Spin-off der Tsinghua-Universität, mit der GLM-Modellfamilie aus dem dortigen Forschungsumfeld. GLM-Modelle sind Open Source, die Gewichte sind frei verfügbar, und es gibt Anbieter in Europa, die sie auf eigener Infrastruktur in Deutschland oder Frankreich betreiben. Wenn ich von "GLM 5.1 mit EU-Hosting" rede, meine ich das: das offene Modell, gehostet bei einem EU-Provider, der einen normalen AVV abschließt, ohne dass irgendwelche Daten in China landen.

Trotzdem ist es für manche Compliance-Verantwortliche ein Thema. Ihre Logik: Auch wenn die Gewichte Open Source sind und das Hosting in Frankfurt steht, bleibt der Ursprung chinesisch, und das macht die interne Verteidigung schwer. Ich halte das für eine zu weite Auslegung, weil das Modell nach dem Download technisch dasselbe ist wie jedes andere Open-Source-Modell. Aber ich respektiere die Position. Sie ist nicht völlig unsinnig.

GLM 5.1 hält in Benchmarks erstaunlich gut mit GPT-5.5 mit, vor allem bei strukturierter Textverarbeitung und Übersetzung. Tool-Calling ist solide, das Kontextfenster beträgt 128.000 Tokens. Die Inferenz-Kosten beim EU-Provider liegen bei rund 0,80 € pro Million Input-Tokens, je nach Anbieter, also deutlich unter Mistral Large 2.

Die Schwäche ist die Sprache. Deutsch ist nicht die Erstsprache des Modells. Es spricht gutes Deutsch, aber wenn idiomatische Feinheiten oder branchenspezifische Termini eine Rolle spielen, Versicherungstexte etwa, dann produziert es eher Glättungen statt fachlich präziser Formulierungen. Für interne Recherche oder Triage ist das egal, für Mandantenkommunikation nicht.

Ich setze GLM dort ein, wo Geschwindigkeit und Kosten wichtiger sind als sprachliche Feinheit: Datenextraktion aus E-Mails, Klassifikation, Backoffice-Agenten, deren Output ohnehin noch ein Mensch durchsieht. Für Kunden, die das chinesische Ursprungsthema nicht akzeptieren, wechsle ich auf Mistral Small, was etwa doppelt so viel kostet.

Aleph Alpha aus Heidelberg: Industrieller Fokus, schmale Wirkung im Mittelstand

Aleph Alpha ist seit 2024 strategisch umgestellt. Statt eigener Foundation-Modelle, die mit GPT konkurrieren, baut das Unternehmen jetzt auf einen industriellen Stack mit Plattform und Tools für regulierte Branchen, Schwerpunkt öffentliche Verwaltung, Gesundheit und Industrie. Die Modelle selbst, Luminous in seinen verschiedenen Größen, gibt es weiterhin, aber sie sind nicht mehr das Hauptprodukt.

Was das praktisch heißt. Wenn Sie eine Behörde, ein Krankenhaus oder ein DAX-Konzern sind, ist Aleph Alpha eine ernstzunehmende Option mit guter politischer Unterstützung und tiefer Integration ins deutsche Beschaffungsumfeld. Wenn Sie ein Mittelständler mit 80 Mitarbeitenden sind, der einen Backoffice-Agenten möchte, ist Aleph Alpha aktuell die falsche Adresse.

Stärken: EU-Hosting per Default, oft in einer dedizierten Umgebung. AVV ist Standardprozess. Für Use-Cases mit Erklärbarkeitspflicht der KI-Ausgaben, etwa bei Bewertungen in der Verwaltung, hat Aleph Alpha eigene Tooling-Ansätze, die andere Anbieter so nicht haben.

Schwächen: Die Modelle hängen in offenen Benchmarks zurück, vor allem bei Reasoning und Tool-Calling. Das Preisniveau ist hoch, weil das Geschäftsmodell auf Enterprise ausgerichtet ist. Self-Service über eine schlanke API ist möglich, aber nicht der typische Vertriebsweg.

Bei mir war Aleph Alpha bisher nicht im Einsatz. Wenn ein Mittelständler mit einem Use-Case kommt, in dem der Anbieter wirklich der bessere Pfad wäre, also industrielle Erklärbarkeit unter regulatorischem Druck, prüfe ich das. In der Praxis kam dieser Fall noch nicht.

Teuken-7B und OpenGPT-X: Strategisch interessant, produktiv noch nicht

Das OpenGPT-X-Projekt ist ein Konsortium deutscher Forschungseinrichtungen, Industrieunternehmen und Cloud-Provider, das ein mehrsprachiges Foundation-Modell für die EU entwickelt. Teuken-7B ist das erste publizierte Modell aus dem Projekt, trainiert auf allen 24 EU-Amtssprachen, als Open Source verfügbar.

Technisch ist es ein 7-Milliarden-Parameter-Modell mit Mehrsprachen-Fokus. Es kann Texte in seltenen EU-Sprachen, etwa Maltesisch oder Slowakisch, ohne die typischen Schwächen, die englisch-dominierte Modelle dort haben.

Es ist kein Modell, mit dem man heute einen produktiven Agenten baut. 7 Milliarden Parameter sind 2026 zu wenig für einen Geschäftsprozess-Agenten mit Tool-Calling und Reasoning. Die Performance liegt unter Mistral Small, und die nächste größere Variante ist angekündigt, aber noch nicht verfügbar.

Ich erwähne es, weil es zeigt, dass EU-Foundation-Modelle entstehen, dass die Trainingsdaten transparent dokumentiert sind und dass das Konsortium mittel- bis langfristig eine Alternative zu chinesischen Open-Source-Modellen aufbaut. Wer in einer Branche mit politischem Druck Richtung "europäische Souveränität" arbeitet, sollte Teuken kennen, ohne ihn heute einzusetzen.

Moonshot Kimi: Warum wir es nicht nutzen

Kurz, weil es in Gesprächen regelmäßig vorkommt: Moonshot ist ein chinesisches KI-Unternehmen, Kimi ist deren Modell, technisch beeindruckend, vor allem beim Kontextfenster, das bei zwei Millionen Tokens liegt. Es gibt Agent-Anbieter in Europa, die Kimi einsetzen.

Wir tun das nicht. Die Entscheidung ist im Repo dokumentiert: Der Aufwand, jedem Kunden zu erklären, warum ein chinesisches Modell in seinem AVV als Sub-Auftragsverarbeiter auftaucht, warum SCC und TIA dafür gemacht werden müssen, warum die rechtliche Situation komplizierter ist als bei US-Modellen, übersteigt den Nutzen. China ist ein unsicheres Drittland ohne Angemessenheitsbeschluss der EU-Kommission, und das ist juristisch eine andere Liga als das US-EU Data Privacy Framework.

Wer das Kontextfenster wirklich braucht, hat mit Claude Opus 4.7 (1 Million Tokens) eine Alternative im US-Stack. Wer EU-only will, lebt mit 128.000 Tokens, und das reicht für 95 Prozent der Geschäftsprozesse.

Vergleichsmatrix

| Modell | Hoster | Hosting-Ort | Tool-Calling | Kontextfenster | Schwächen | DSGVO-Setup-Aufwand | |---|---|---|---|---|---|---| | Mistral Large 2 | Mistral Cloud / AWS Bedrock | Paris, Frankfurt | Gut | 128k | Reasoning-Tiefe unter Claude/GPT | Niedrig (EU-AVV) | | Mistral Small | Mistral Cloud / AWS Bedrock | Paris, Frankfurt | Solide | 128k | Reasoning, komplexe Aufgaben | Niedrig (EU-AVV) | | Z.AI / GLM 5.1 | EU-Provider (offenes Gewicht) | Frankfurt, Paris | Solide | 128k | Deutsch idiomatisch eher Mittelklasse, chinesischer Modell-Ursprung | Niedrig (AVV mit EU-Hoster) | | Aleph Alpha Luminous | Aleph Alpha | Heidelberg | Eingeschränkt | 32k | Allgemein-Benchmark schwach, hoher Preis | Niedrig (DE-AVV) | | Teuken-7B | beliebig (Open Source) | EU per Wahl | Schwach | 32k | Zu klein für produktive Agenten | Niedrig | | GPT-5.5 (US) | OpenAI | USA | Sehr gut | 256k | US-Drittlandtransfer | Mittel (SCC + TIA + DPF) | | Claude Opus 4.7 (US) | Anthropic | USA | Sehr gut | 1.000k | US-Drittlandtransfer, hoher Preis | Mittel (SCC + TIA) |

Die Spalte "DSGVO-Setup-Aufwand" ist relativ. Niedrig heißt: Standard-AVV mit dem Anbieter, fertig. Mittel heißt: zusätzlich SCC, TIA, Eintrag der Sub-Auftragsverarbeiter im Tenant-AVV, Erklärung gegenüber dem Kunden im Onboarding. Es ist machbar, ich mache es täglich, aber es ist Arbeit, die der EU-Stack einspart.

Praxis-Empfehlung für den Mittelstand

Wenn ich auf die Agenten schaue, die ich 2026 für DACH-Mittelständler einrichte, sortiert sich die Modellwahl in der Regel so.

Für Backoffice-Agenten, Marketing-Recherche oder einfache Customer-Success-Triage reicht EU-Default. Ich setze GLM 5.1 oder Mistral Small ein, je nachdem, ob der Kunde mit dem chinesischen Ursprung von GLM leben kann. Kein US-Stack nötig, der AVV läuft mit dem EU-Hoster, und im Pitch lässt sich klar sagen, dass Daten die EU nicht verlassen.

Bei Sales-Agenten mit komplexer Lead-Recherche, Operations-Agenten mit Multi-Tool-Workflows oder Recruiting mit Aktiv-Sourcing kippt das Bild. Mistral Large 2 funktioniert hier, aber GPT-5.5 ist nach meiner Erfahrung 20 bis 30 Prozent treffsicherer im Tool-Calling und liefert flüssigere Texte. Es hängt am Kunden. Ein Versicherer in München, der einen BaFin-Audit auf der Liste hat, bekommt Mistral. Ein normaler B2B-Mittelständler, der bereits Microsoft 365 mit US-Inferenz nutzt, ist mit GPT-5.5 und ordentlichem SCC-Setup besser bedient.

Für Legal-Research mit langen Akten, den Senior-Developer-Agent oder Custom-Cases mit komplexem Reasoning bleibt nur der US-Pfad. Claude Opus 4.7 ist hier alternativlos. Wer 600-Seiten-Mandantenakten als Kontext durchanalysieren lässt, der nimmt 1 Million Tokens und akzeptiert die US-Inferenz, oder er macht es manuell. Eine EU-Alternative in dieser Liga existiert 2026 nicht.

Wann ein 100-Prozent-EU-Stack wirklich sinnvoll ist

Ich halte den Reflex "Hauptsache EU" für problematisch. Manchmal stimmt er, manchmal kostet er nur Geld.

Sinnvoll wird er bei Auftraggebern in der öffentlichen Hand, kommunalen Versorgern, Kantonen in der Schweiz. Die EU-only-Anforderung ist dort oft in Ausschreibungen verankert, und ein US-Modell mit SCC reicht nicht, weil die Vergaberichtlinien strenger sind als die DSGVO. Auch bei Versicherern und Banken mit eigenen Lieferanten-Audits ist ein EU-Stack die einfachere Verteidigung. Dasselbe gilt für deutsche Zulieferer, deren französische Großkunden eigene Cloud-Souveränitäts-Richtlinien durchsetzen.

Nicht sinnvoll wird er bei einem typischen Mittelständler mit 150 Mitarbeitenden, B2B-Kundenstamm und normalem CRM. Hier ist die US-Inferenz mit ordentlicher SCC, dokumentiertem TIA und Sub-Auftragsverarbeiter-Liste im AVV tragbar. Der Aufpreis für 100 Prozent EU liegt entweder in höheren Inferenz-Kosten oder in spürbar schwächerer Agent-Performance, ohne juristischen oder wirtschaftlichen Gegenwert. "Wir wollen EU" ist dort ein Reflex, kein Argument.

Was ich im Onboarding frage: Wer prüft Ihre Lieferantenkette? Wer würde Sie zu Hosting und Modellwahl befragen? Wenn die Antwort "niemand" oder "vielleicht der Wirtschaftsprüfer einmal jährlich" lautet, ist der US-Stack mit sauberem AVV die pragmatische Wahl. Wenn die Antwort lautet "drei Compliance-Stellen, ein Auditor und unser größter Kunde", lohnt sich der EU-Aufwand.

Was 2027 anders sein könnte

Ich halte zwei Verschiebungen für realistisch. Mistral wird 2027 wahrscheinlich ein Modell auf Opus-Niveau liefern, also mit vergleichbarer Reasoning-Tiefe und Tool-Use. Wenn das eintritt, ist der US-Pfad für komplexe Agenten nicht mehr alternativlos.

Außerdem werden EU-Hoster für offene Modelle wie GLM oder Llama-Nachfolger weiter günstiger. Open Source plus EU-Hosting plus EU-AVV ist 2026 schon eine valide Variante für preissensitive Use-Cases, und 2027 wird das die Standard-Antwort für Backoffice-Agenten.

Was unklar ist: Ob OpenGPT-X ein größeres Modell liefert, sagen wir 30 oder 70 Milliarden Parameter, mit dem sich produktiv arbeiten lässt. Wenn das Konsortium das schafft, hat Europa zum ersten Mal ein eigenes Foundation-Modell mit echter politischer Schubkraft. Wenn nicht, bleibt es bei einer Forschungs-Demonstration. Ich tippe vorsichtig auf Letzteres, aber ich hoffe, dass ich falsch liege.

Spekulation hin oder her: Ich baue Agenten auf dem, was heute funktioniert.

Wie wir die Modellwahl bei jedem Kunden treffen

"Europäische KI oder US-KI" ist die falsche Zuspitzung. Die nutzbare Frage lautet, welches Modell der konkrete Anwendungsfall braucht und welche Compliance-Position dieser Kunde tatsächlich vertreten muss. Aus diesen beiden Antworten fällt die Wahl, nicht aus einer pauschalen Präferenz für eine Region.

Bei mir läuft das so: Im Discovery-Gespräch schaue ich auf den Use-Case, den Kundenkreis und die Audit-Realität. Pro Agent schlage ich ein Default-Modell vor, mit Begründung. Wenn der Kunde "lieber alles EU" sagt, rechne ich den Aufpreis und den Performance-Unterschied vor, ehrlich, und er entscheidet. Wenn er sagt "wir nehmen einfach das beste Modell", dann läuft es typischerweise auf GPT-5.5 oder Opus hinaus, mit sauberer SCC.

Wenn Sie wissen wollen, welche Modelle bei Ihrem konkreten Vorhaben passen, sprechen wir das im 30-Tage-Pilot durch. AVV ab Tag eins, und ich lege offen, welches Modell pro Agent läuft und warum. Wer DSGVO-Grundlagen erst sortieren will, findet sie im Artikel zu KI-Agenten DSGVO-konform einsetzen.