Claude Code Sprachmodus: wie er funktioniert und wann du ihn verwenden solltest
Claude Code hat jetzt native Spracheingabe über /voice. So funktioniert Push-to-Talk, diese Sprachen werden unterstützt, und wann Sprechen besser ist als Tippen.
Claude Code hat native Spracheingabe eingeführt. Keine Drittanbieter-Tools, keine Browser-Erweiterungen — einfach /voice, die Leertaste und dein Mikrofon. Anthropic startete den Rollout am 3. März 2026, zunächst für etwa 5 % der Nutzer, seitdem schrittweise erweitert. Wenn dein Account Zugang hat, siehst du einen Hinweis auf dem Claude Code Willkommensbildschirm.
Was der Sprachmodus ist (und was nicht)
Der Sprachmodus ist Sprache-zu-Text-Eingabe. Claude antwortet nicht per Audio. Es gibt keine Audioausgabe, kein gesprochenes Hin und Her. Du sprichst, die Transkription landet in deinem Eingabefeld, und Claude verarbeitet sie wie jeden anderen Text-Prompt. Die Terminal-Ausgabe bleibt gleich.
Die Änderung betrifft ausschließlich die Eingabeseite. Du hältst eine Taste, sprichst natürlich, lässt los und überprüfst das Transkript vor dem Absenden. Du kannst Sprache und Tastatur in derselben Nachricht mischen — einen Dateipfad mit den Fingern einfügen, während du den Kontext laut beschreibst.
Anthropic verwandelt das Terminal nicht in einen Sprachassistenten. Sie entfernen die Reibung zwischen Denken und Tippen. Völlig unterschiedliche Ziele.
So aktivierst du den Sprachmodus
Der Sprachmodus erfordert Claude Code v2.1.69 oder neuer. Aktualisiere zuerst:
npm update -g @anthropic-ai/claude-code
claude --version
Dann in einer beliebigen Claude Code Session:
/voice
Claude Code fordert Mikrofonzugriff von deinem Betriebssystem an. Erteile die Berechtigung.
Der Sprachmodus funktioniert nur bei Authentifizierung über einen Claude.ai Account. Er ist nicht verfügbar mit einem direkten Anthropic API Key oder über Amazon Bedrock, Google Vertex AI oder Microsoft Foundry. Wenn du eine dieser Integrationen nutzt, gibt /voice einen Fehler zurück.
Push-to-Talk
Das Interaktionsmodell ist Push-to-Talk:
- Halte die Leertaste — die Aufnahme startet, ein Indikator erscheint in deinem Terminal
- Sprich deinen Prompt natürlich
- Loslassen — die Transkription erscheint in deinem Eingabefeld
- Überprüfen und senden, oder zusätzlichen Kontext tippen, oder abbrechen und neu aufnehmen
Es gibt kein dauerhaft aktives Mikrofon. Claude Code hört weder deine Gespräche noch deine Teammitglieder oder deine Umgebungsgeräusche ab. Du kontrollierst genau, wann aufgenommen wird.
Die Push-to-Talk-Taste ist standardmäßig Leertaste, aber anpassbar über ~/.claude/keybindings.json:
{
"bindings": [
{
"context": "Chat",
"bindings": {
"meta+k": "voice:pushToTalk",
"space": null
}
}
]
}
Das Setzen von "space": null entfernt die Standard-Belegung. Wenn du beide Tasten aktiv haben willst, lass diese Zeile weg. Anthropic empfiehlt Modifier-Kombinationen wie meta+k — sie aktivieren beim ersten Tastendruck, statt ein kurzes Halten zur Erkennung zu erfordern.
Vermeide die Belegung einer einzelnen Buchstabentaste wie v. Einzelne Buchstaben lösen während der Hold-Detection-Aufwärmphase aus und tippen in deinen Prompt-Buffer. Bleib bei der Leertaste oder Modifier-Kombinationen.
Zwanzig Sprachen seit März 2026
Der Sprachmodus startete mit 10 Sprachen und verdoppelte sich im März 2026:
Seit dem Launch: Englisch, Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch, Japanisch, Koreanisch, Chinesisch, Hindi
Hinzugefügt März 2026: Russisch, Polnisch, Türkisch, Niederländisch, Ukrainisch, Griechisch, Tschechisch, Dänisch, Schwedisch, Norwegisch
Die Transkription ist für technische Begriffe optimiert — Repository-Namen, Bibliotheksnamen, gängiges Entwickler-Vokabular. Generische Spracherkennung scheitert an useState, tRPC, drizzle-orm oder kubectl. Ein für Entwicklersprache trainiertes Modell bewältigt diese besser, auch wenn die Genauigkeit je nach Begriff und Akzent variiert.
Wann Spracheingabe wirklich hilft
Der Sprachmodus ist nicht universell besser als Tippen. Er ist in bestimmten Situationen besser.
Sprich, wenn du:
- Übergeordneten Kontext setzt. „Ich möchte das Auth-Modul auf JWT statt Sessions umstellen — lass uns erst verstehen, was aktuell vorhanden ist." Diese Art von Rahmenbeschreibung ist anstrengend zu tippen und leicht auszusprechen.
- Bugs beschreibst. Erzähle, was du beobachtet hast, was du erwartet hast, was die Fehlermeldung sagt. Entwickler kürzen beim Tippen von Fehlerbeschreibungen ab. Beim Sprechen werden sie tendenziell vollständiger.
- Architektur durchdenkst. Abwägungen, Struktur, Herangehensweise. Gesprochene Eingabe kommt näher an die Art, wie Entwickler tatsächlich über Designprobleme nachdenken.
- Erkundest. Wenn du noch nicht sicher weißt, was du willst, und das Problem erst durchsprechen musst, bevor du dich auf eine bestimmte Anweisung festlegst.
- Ergonomie priorisierst. Entwickler mit RSI, Ermüdung oder körperlichen Einschränkungen profitieren hier spürbar. Stundenlange Terminal-Arbeit ohne Tastaturbelastung ist keine Kleinigkeit.
Tippe, wenn du:
- Präzise technische Strings schreibst. Exakte Dateinamen, Funktionsnamen, Konfigurationswerte. Transkriptionsfehler bei präzisen Strings schicken Claude in die falsche Richtung.
- Code einfügst. Code zu sprechen ist fast immer ungenauer als ihn einzufügen.
- In einer lauten Umgebung bist. Push-to-Talk hilft, aber Hintergrundgeräusche dringen trotzdem durch.
- Kurze Befehle sendest.
/testoder/clearzu tippen ist schneller als den Sprachmodus zu nutzen.
Der effektivste Workflow kombiniert beides. Sprich den Kontext und die Absicht, tippe oder füge die präzisen Details ein.
Was unter der Haube passiert
Die Sprach-Pipeline läuft in drei Stufen:
Audio-Aufnahme. Wenn du die Push-to-Talk-Taste hältst, nimmt das Terminal Audio von deinem Standard-Systemmikrofon mit 16kHz Mono auf. Ein Aufnahme-Indikator erscheint.
Transkription. Ein auf Entwickler-Vokabular spezialisiertes Spracherkennungsmodell verarbeitet das Audio. Das Transkript erscheint zur Überprüfung in deinem Terminal — du siehst es, bevor Claude darauf reagiert.
Prompt-Übermittlung. Sobald du zufrieden bist, wird das Transkript als Standard-Text-Prompt übermittelt. Ab diesem Punkt verhält sich alles identisch zur getippten Eingabe — Dateizugriff, Tool-Nutzung, Git-Operationen, Multi-Agent-Workflows, alles.
Claude Code verwaltet Mikrofonberechtigungen auf Betriebssystemebene. Unter macOS erteile deiner Terminal-Anwendung (Terminal, iTerm2, Warp usw.) Mikrofonzugriff in den Systemeinstellungen. Unter Linux benötigt dein Terminal Zugriff über PulseAudio oder PipeWire. Der Sprachmodus aktiviert sich nicht ohne die nötigen Berechtigungen.
Der Sprachmodus funktioniert nicht in SSH-Sessions oder Claude Code im Web. Er erfordert lokalen Mikrofonzugriff.
Pläne und Verfügbarkeit
Der Sprachmodus ist ohne Zusatzkosten in den Plänen Pro, Max, Team und Enterprise enthalten. Seit Mitte März 2026 wird der Zugang durch schrittweisen Rollout erweitert. Es gibt kein Opt-in-Formular und keine Warteliste — wenn dein Account freigeschaltet ist, zeigt dir der Willkommensbildschirm das an.
Warum das Terminal wichtig ist
Die Sprachfunktion von GitHub Copilot lebt innerhalb von VS Code. Cursor und Windsurf haben teilweise Sprachunterstützung, die an ihre Editoren gebunden ist. Der Sprachmodus von Claude Code funktioniert auf Terminal-Ebene, unabhängig von jedem Editor oder jeder IDE. Das bedeutet: Spracheingabe ist überall verfügbar, wo Claude Code läuft, in jedem Workflow, den du darum herum gebaut hast.
Einige Zahlen von Anfang 2026 als Kontext: Claude Code generiert 2,5 Milliarden Dollar annualisierten Umsatz, bei einer Verdopplung der wöchentlich aktiven Nutzer seit Januar. Laut SemiAnalysis verfasst Claude Code mittlerweile etwa 4 % aller öffentlichen GitHub-Commits — eine Zahl, die bis Ende 2026 voraussichtlich 20 % erreichen wird.
Die Entwickler, die am meisten vom Sprachmodus profitieren, sind diejenigen, die ihn als weitere Eingabemethode behandeln. Greif darauf zurück, wenn Sprechen schneller ist. Kehre zur Tastatur zurück, wenn Präzision zählt. Die Reibung, die verschwindet, ist die Übersetzungsschicht zwischen Denken und Tippen. Dieser Engpass ist wichtiger, als die meisten erwarten — bis sie ihn eine Woche lang genutzt haben.
Erste Schritte
# Claude Code aktualisieren
npm update -g @anthropic-ai/claude-code
# Session starten und Sprachmodus aktivieren
claude
/voice
Leertaste halten. Sprechen. Loslassen. Transkript überprüfen. Senden.
Für Keybinding-Anpassungen und eine vollständige Einstellungsreferenz siehe die offizielle Dokumentation unter code.claude.com/docs/en/voice-dictation.
Wenn /voice noch nicht erkannt wird, ist dein Account noch in der Warteschlange. Aktualisiere weiterhin auf die neueste Version.
Wenn du ein angenehmeres Diktier-Erlebnis außerhalb des Terminals suchst — beim Verfassen von Dokumenten, Schreiben von E-Mails oder Diktieren von Notizen — ist Wispr Flow einen Blick wert. Es ist ein systemweites Voice-to-Text-Tool für etwa 12 $/Monat, mit einem kostenlosen Monat Pro über diesen Link.
Du kannst die URL dieses Beitrags in Claude Code oder einen beliebigen KI-Assistenten einfügen, wenn du Probleme beim Einrichten des Sprachmodus hast.
Wo du das betreiben kannst
Dieser Beitrag wird präsentiert von Hetzner, deren Dedicated Root Server uns das bare Metal liefern, auf dem wir diese Benchmarks tatsächlich ausführen, und von Tailscale, das unseren Node-zu-Node-Traffic verschlüsselt, ohne dass wir darüber nachdenken müssen. Wenn du das nützlich findest, schau sie dir an.
Du brauchst eine Maschine mit lokalem Mikrofon, was die meisten Remote-VPS-Setups speziell für den Sprachmodus ausschließt — aber Claude Code selbst läuft überall. Hetzner bietet dir einen CX23 ab 4,85 €/Monat mit 10 € Startguthaben, und dort betreiben wir diesen Blog. Für Entwicklungsserver ist das schwer zu schlagen.
Wenn du Claude Code lieber gar nicht selbst verwalten willst, bietet xCloud Managed OpenClaw Hosting — Auswählen, deployen, fertig.
(Affiliate-Links — wir erhalten eine kleine Provision, wenn du dich anmeldest, ohne Mehrkosten für dich.)