Buscar
Cerrar este cuadro de búsqueda.

API en tiempo real de OpenAI: Revolucionando la experiencia de voz en las aplicaciones

Picture of Nibaldo Pino Araya
Nibaldo Pino Araya
| 3 octubre, 2024

El mundo de la inteligencia artificial sigue evolucionando, y OpenAI acaba de presentar una nueva herramienta para los desarrolladores: la Realtime API. Esta API permite integrar experiencias de voz rápidas y naturales en las aplicaciones, mejorando la interacción y reduciendo la complejidad técnica. Con este lanzamiento, OpenAI facilita la construcción de aplicaciones que ofrecen conversaciones más fluidas, potenciando sectores como la atención al cliente, la educación y los asistentes virtuales.

¿Qué es la realtime API?

La Realtime API es una nueva incorporación en versión beta que permite a los desarrolladores crear experiencias de voz en tiempo real en sus aplicaciones, similar a las capacidades de «Advanced Voice Mode» en ChatGPT. Con esta API, es posible mantener conversaciones naturales de voz a voz, utilizando las seis voces predefinidas ya soportadas por OpenAI.Además de la Realtime API, OpenAI ha introducido entrada y salida de audio en la Chat Completions API, lo que amplía las opciones para desarrollar aplicaciones que no necesiten los beneficios de baja latencia que ofrece la Realtime API. De esta manera, los desarrolladores pueden pasar texto o audio a GPT-4o y recibir respuestas en texto, audio o ambos, adaptándose a diferentes necesidades.

Cómo simplifica la experiencia de voz

Anteriormente, crear un asistente de voz requería una cadena de procesos complejos: transcribir audio con modelos de reconocimiento de voz, procesar texto y luego convertir las respuestas a voz mediante modelos TTS (text-to-speech). Esta cadena resultaba en pérdidas de calidad, como falta de emoción y latencia notoria. La Realtime API resuelve este problema, permitiendo gestionar todo el proceso con una única llamada API. Además, mejora la experiencia de conversación al manejar interrupciones automáticamente, lo que brinda una interacción más natural con el usuario.

Bajo el capó: conexiones persistentes y funciones personalizadas

La API funciona estableciendo una conexión persistente mediante WebSocket para intercambiar mensajes con GPT-4o. Lo interesante es que soporta funciones personalizadas: los asistentes de voz pueden responder a las solicitudes del usuario activando acciones o buscando nuevo contexto. Por ejemplo, un asistente puede realizar pedidos o acceder a información relevante para personalizar sus respuestas.

Casos de uso: Potenciando aplicaciones con conversaciones naturales

El potencial de la Realtime API es amplio y ya se han visto aplicaciones prometedoras en diversos sectores. Por ejemplo:

  • Healthify, una app de nutrición y fitness, utiliza la Realtime API para brindar conversaciones naturales con su entrenador de IA, Ria, involucrando a dietistas humanos cuando se necesita apoyo personalizado.
  • Speak, una aplicación de aprendizaje de idiomas, potencia su función de role-play para animar a los usuarios a practicar conversaciones en nuevos idiomas, proporcionando un entorno de aprendizaje más inmersivo.

Tarifas y disponibilidad

La Realtime API está disponible en beta para desarrolladores de pago. Funciona con el modelo gpt-4o-realtime-preview y utiliza tokens tanto para texto como para audio. El precio varía según el tipo de entrada y salida: los tokens de texto tienen un costo de $5 por millón de tokens de entrada y $20 por millón de tokens de salida. Para audio, los precios son de $100 por millón de tokens de entrada y $200 por millón de tokens de salida, lo que equivale a unos $0.06 por minuto de entrada de audio y $0.24 por minuto de salida.

Seguridad y Privacidad: Un enfoque integral

La Realtime API incluye múltiples capas de seguridad para mitigar posibles abusos, con sistemas de monitoreo automatizado y revisiones humanas de las entradas y salidas del modelo. La API se basa en el mismo modelo GPT-4o que alimenta el Advanced Voice Mode de ChatGPT, y ha sido evaluada para garantizar que no introduzca riesgos significativos. Además, cumple con los compromisos de privacidad de OpenAI, y los datos utilizados en el servicio no se emplean para entrenar los modelos sin permiso explícito del usuario.

Próximos pasos: Más allá de la voz

OpenAI tiene grandes planes para la Realtime API. Próximamente, se añadirán nuevas modalidades como visión y video, se incrementarán los límites de sesiones simultáneas y se integrará el soporte oficial en los SDKs de Python y Node.js de OpenAI. Además, se implementará la función de Prompt Caching para reprocesar conversaciones previas a un costo reducido, y se ampliará el soporte para modelos, incluyendo GPT-4o mini en futuras versiones.Con estas mejoras, la Realtime API promete transformar la forma en que interactuamos con las aplicaciones, permitiendo experiencias más naturales y eficientes. ¡Sigue atento a nuestras próximas publicaciones para conocer más sobre cómo puedes implementar estas capacidades en tu negocio!



    Nibaldo Pino Araya

    Experto en IA y análisis de datos con 7+ años de experiencia en la industria y 9 en academia, apasionado por la innovación tecnológica y especializado en soluciones avanzadas de machine learning, NLP y visión por computador en Raona.

    Compartir en Redes Sociales

    ×