Claude Code en modo de voz: cómo funciona y cuándo usarlo

Claude Code ahora tiene entrada de voz nativa a través de /voice. Aquí te explicamos cómo funciona el modo pulsar para hablar, qué idiomas son compatibles y cuándo hablar supera a escribir.

Claude Code en modo de voz: cómo funciona y cuándo usarlo
También disponible en English, Deutsch, Français, Nederlands.

Claude Code lanzó entrada de voz nativa. Sin herramientas de terceros, sin extensiones de navegador — solo /voice, la barra espaciadora y tu micrófono. Anthropic comenzó el despliegue el 3 de marzo de 2026, inicialmente disponible para aproximadamente el 5% de los usuarios, expandiéndose progresivamente desde entonces. Si tu cuenta tiene acceso, verás un aviso en la pantalla de bienvenida de Claude Code.

Qué es (y qué no es) el modo de voz

El modo de voz es entrada de voz a texto. Claude no responde con audio. No hay salida de audio, no hay conversación bidireccional. Tú hablas, la transcripción aparece en tu campo de entrada y Claude la procesa como cualquier otro prompt de texto. La salida del terminal sigue igual.

El cambio es enteramente en el lado de la entrada. Mantienes pulsada una tecla, hablas de forma natural, sueltas y revisas la transcripción antes de enviar. Puedes mezclar voz y teclado en el mismo mensaje — pega una ruta de archivo con los dedos mientras describes el contexto en voz alta.

Anthropic no está convirtiendo el terminal en un asistente de voz. Están eliminando la fricción entre pensar y escribir. Objetivos completamente distintos.

Cómo activarlo

El modo de voz requiere Claude Code v2.1.69 o posterior. Actualiza primero:

npm update -g @anthropic-ai/claude-code
claude --version

Luego, dentro de cualquier sesión de Claude Code:

/voice

Claude Code solicitará acceso al micrófono a tu sistema operativo. Concédelo.

El modo de voz solo funciona cuando te autentificas con una cuenta de Claude.ai. No está disponible con una API key directa de Anthropic, ni a través de Amazon Bedrock, Google Vertex AI o Microsoft Foundry. Si estás usando una de esas integraciones, /voice devuelve un error.

Push-to-talk

El modelo de interacción es push-to-talk:

  1. Mantén pulsada la barra espaciadora — la grabación comienza y aparece un indicador en tu terminal
  2. Di tu prompt de forma natural
  3. Suelta — la transcripción aparece en tu campo de entrada
  4. Revisa y envía, o escribe contexto adicional, o cancela y vuelve a grabar

No hay micrófono siempre activo. Claude Code no está escuchando tus conversaciones, a tus compañeros ni tu entorno. Tú controlas exactamente cuándo graba.

La tecla push-to-talk es Space por defecto, pero se puede personalizar mediante ~/.claude/keybindings.json:

{
  "bindings": [
    {
      "context": "Chat",
      "bindings": {
        "meta+k": "voice:pushToTalk",
        "space": null
      }
    }
  ]
}

Poner "space": null elimina la asignación por defecto. Si quieres ambas teclas activas, omite esa línea. Anthropic recomienda combinaciones con modificador como meta+k — se activan en la primera pulsación en lugar de requerir una breve pulsación prolongada para la detección.

Evita asignar una letra sola como v. Las letras individuales se activan durante el periodo de detección de pulsación prolongada y se escriben en tu buffer de prompt. Usa Space o combinaciones con modificador.

Veinte idiomas a marzo de 2026

El modo de voz se lanzó con 10 idiomas y se duplicó en marzo de 2026:

Desde el lanzamiento: inglés, español, francés, alemán, italiano, portugués, japonés, coreano, chino, hindi

Añadidos en marzo de 2026: ruso, polaco, turco, neerlandés, ucraniano, griego, checo, danés, sueco, noruego

La transcripción está optimizada para terminología técnica — nombres de repositorios, nombres de librerías, vocabulario común de desarrollador. El reconocimiento de voz genérico tropieza con useState, tRPC, drizzle-orm o kubectl. Un modelo ajustado para habla de desarrolladores los maneja mejor, aunque la precisión varía según el término y el acento.

Cuándo la voz realmente ayuda

El modo de voz no es universalmente mejor que escribir. Es mejor en situaciones específicas.

Habla cuando estés:

  • Dando contexto de alto nivel. "Quiero refactorizar el módulo de auth para usar JWT en lugar de sesiones — empecemos por entender qué hay actualmente." Este tipo de planteamiento es agotador de escribir y fácil de decir.
  • Describiendo bugs. Narrar lo que observaste, lo que esperabas, lo que dice el error. Los desarrolladores recortan cuando escriben descripciones de bugs. Hablarlas tiende a ser más completo.
  • Pensando en arquitectura. Tradeoffs, estructura, enfoque. La entrada hablada se acerca más a cómo los desarrolladores realmente razonan sobre problemas de diseño.
  • Explorando. Cuando no tienes claro lo que quieres y necesitas hablar sobre el problema antes de comprometerte con una instrucción específica.
  • Cuidando la ergonomía. Los desarrolladores que lidian con RSI, fatiga o limitaciones físicas obtienen un alivio real aquí. Horas de trabajo en terminal sin tensión en el teclado no es algo menor.

Escribe cuando estés:

  • Escribiendo cadenas técnicas precisas. Nombres exactos de archivos, nombres de funciones, valores de configuración. Los errores de transcripción en cadenas precisas envían a Claude en la dirección equivocada.
  • Pegando código. Dictar código es casi siempre menos preciso que pegarlo.
  • En un entorno ruidoso. Push-to-talk ayuda, pero el ruido de fondo se cuela igualmente.
  • Enviando comandos cortos. Escribir /test o /clear es más rápido que recurrir al modo de voz.

El flujo de trabajo más efectivo combina ambos. Habla el contexto y la intención, escribe o pega los detalles precisos.

Qué pasa por debajo

El pipeline de voz funciona en tres etapas:

Captura de audio. Cuando mantienes pulsada la tecla push-to-talk, el terminal captura audio de tu micrófono del sistema por defecto a 16kHz mono. Aparece un indicador de grabación.

Transcripción. Un modelo de reconocimiento de voz especializado en vocabulario de desarrollador procesa el audio. La transcripción aparece en tu terminal para revisión — la ves antes de que Claude actúe sobre ella.

Envío del prompt. Una vez que estés satisfecho, la transcripción se envía como un prompt de texto estándar. Todo a partir de ese punto se comporta de forma idéntica a la entrada por teclado — acceso a archivos, uso de herramientas, operaciones git, flujos multi-agente, todo.

Claude Code gestiona los permisos del micrófono a nivel de sistema operativo. En macOS, concede a tu aplicación de terminal (Terminal, iTerm2, Warp, etc.) acceso al micrófono en Ajustes del Sistema. En Linux, tu terminal necesita acceso a través de PulseAudio o PipeWire. El modo de voz no se activará sin los permisos necesarios.

El modo de voz no funciona en sesiones SSH ni en Claude Code en la web. Requiere acceso local al micrófono.

Planes y disponibilidad

El modo de voz está incluido sin coste adicional en los planes Pro, Max, Team y Enterprise. A mediados de marzo de 2026, el acceso se está expandiendo mediante despliegue progresivo. No hay formulario de inscripción ni lista de espera — cuando tu cuenta esté habilitada, la pantalla de bienvenida te lo indicará.

Por qué el terminal importa

La funcionalidad de voz de GitHub Copilot vive dentro de VS Code. Cursor y Windsurf tienen soporte parcial de voz vinculado a sus editores. El modo de voz de Claude Code funciona a nivel de terminal, independiente de cualquier editor o IDE. Eso significa que la entrada por voz está disponible donde sea que Claude Code se ejecute, en cualquier flujo de trabajo que hayas construido alrededor de él.

Algunos números de principios de 2026 para dar contexto: Claude Code genera 2.500 millones de dólares en ingresos anualizados, con usuarios activos semanales duplicándose desde enero. Según SemiAnalysis, Claude Code ahora es autor de aproximadamente el 4% de todos los commits públicos en GitHub — una cifra que se proyecta alcanzará el 20% a finales de 2026.

Los desarrolladores que más aprovecharán el modo de voz son los que lo traten como otro método de entrada. Úsalo cuando hablar sea más rápido, vuelve al teclado cuando la precisión importa. La fricción que desaparece es la capa de traducción entre pensar y escribir. Ese cuello de botella importa más de lo que la mayoría espera hasta que lo han usado durante una semana.

Primeros pasos

# Actualizar Claude Code
npm update -g @anthropic-ai/claude-code

# Iniciar una sesión y activar voz
claude
/voice

Mantén pulsado Space. Habla. Suelta. Revisa la transcripción. Envía.

Para personalización de atajos de teclado y una referencia completa de configuración, consulta la documentación oficial en code.claude.com/docs/en/voice-dictation.

Si /voice aún no se reconoce, tu cuenta sigue en la cola. Sigue actualizando a la última versión.

Si buscas una experiencia de dictado más fluida fuera del terminal — redactar documentos, escribir emails o narrar notas — merece la pena echar un vistazo a Wispr Flow. Es una herramienta de voz a texto a nivel de sistema por unos 12$/mes, con un mes gratis de Pro a través de ese enlace.

Puedes pegar la URL de este post en Claude Code o cualquier asistente de IA como contexto si tienes problemas configurando el modo de voz.


Dónde ejecutar esto

Este post es posible gracias a Hetzner, cuyos servidores dedicados root nos dan el metal en bruto donde ejecutamos estos benchmarks, y a Tailscale, que mantiene nuestro tráfico entre nodos cifrado sin tener que pensar en ello. Si te resulta útil, échalos un vistazo.

Necesitas una máquina con micrófono local, lo que descarta la mayoría de configuraciones VPS remotas para el modo de voz específicamente — pero Claude Code en sí funciona en cualquier sitio. Hetzner te da un CX23 a 4,85 €/mes con 10 € de crédito gratis, y es donde alojamos este blog. Para máquinas de desarrollo, es difícil de superar.

Si prefieres no gestionar Claude Code tú mismo, xCloud ofrece hosting gestionado de OpenClaw — apunta, despliega, listo.

(Enlaces de afiliado — nos llevamos una pequeña comisión si te registras, sin coste para ti.)