- 25 February 2025
- JasonBramble
- Noticias del Mundo de los Videojuegos
La inteligencia artificial está cambiando rápidamente el desarrollo de juegos, permitiendo nuevas formas de generar, validar y entregar contenido a gran escala. Si bien la IA se ha utilizado ampliamente para la generación de niveles procedurales, la dificultad adaptativa y el comportamiento de los NPC, ahora la estamos aplicando a algo mucho más dinámico: la narración automatizada y las experiencias narrativas impulsadas por el juego.
En Gig Game Corp, estamos desarrollando sistemas impulsados por IA que generan contenido de juego dinámico con actuación de voz en tiempo real. Uno de nuestros casos de prueba principales para esto es “¿Mentiría yo?”, un juego que utiliza IA para generar preguntas de trivia, validar su precisión y sintetizar voces realistas completas con efectos de sonido ambientales y postprocesamiento de audio. Este enfoque nos permite crear una tubería de contenido automatizada que elimina la necesidad de escribir manualmente preguntas, escribir diálogos de personajes y grabar voces en off, asegurando al mismo tiempo una experiencia de jugador de alta calidad constante.
Este artículo describe el enfoque técnico que adoptamos para construir este sistema, cómo validamos el contenido generado por IA y cómo aplicamos la IA a la ingeniería de sonido para crear experiencias de juego más inmersivas.
Paso 1: Creación de Preguntas y Narrativas Generadas por IA
El primer paso en la tubería es la generación de contenido. Para "¿Mentiría yo?", esto significa crear dinámicamente preguntas de trivia, posibles respuestas y diálogos del anfitrión del juego. En lugar de curar manualmente miles de preguntas, utilizamos GPT-4 para generar contenido estructurado en un formato JSON, que luego es procesado y filtrado por modelos de IA adicionales.
Para desglosarlo, seguimos estos pasos:
- Generación de Temas – La IA selecciona temas basados en niveles de dificultad y categorías predefinidos, generando tanto temas de trivia reales como falsos.
- Generación de Preguntas y Respuestas – La IA crea una pregunta de opción múltiple basada en un tema dado, asegurando que incluya una respuesta correcta y varias incorrectas plausibles.
- Formateo de Salida Estructurada – La IA estructura la pregunta generada en un esquema JSON que permite una integración perfecta en el motor del juego.
Ejemplo de Salida JSON Generada por IA para una Pregunta de Trivia
{
"question": "¿Qué evento histórico llevó a la primera 'guerra de bromas diplomáticas' del mundo?",
"answers": [
{ "text": "La Guerra Franco-India", "isCorrect": false },
{ "text": "La Guerra de Toledo de 1835", "isCorrect": true },
{ "text": "Las Guerras del Bacalao de Islandia de 1978", "isCorrect": false },
{ "text": "El Tratado de los Pingüinos de 1962", "isCorrect": false }
],
"difficulty": "media",
"category": "historia"
}
Al estructurar la salida en JSON, podemos almacenar, validar y recuperar preguntas de manera eficiente en tiempo real, permitiendo un gran conjunto de preguntas generadas dinámicamente que asegura variedad y rejugabilidad.
Paso 2: Validación y Filtrado Impulsados por IA
Uno de los desafíos más críticos en el contenido generado por IA es el control de calidad. Si bien los modelos de lenguaje son altamente capaces de generar preguntas atractivas, no siempre garantizan precisión factual, equilibrio o redacción adecuada. Para abordar esto, aplicamos un proceso de validación en varios pasos:
- Verificación de Hechos para Preguntas Reales – Las preguntas de trivia reales generadas por IA se validan contra un modelo de IA secundario entrenado para verificar la corrección factual. Si una pregunta no pasa un umbral de confianza, se marca para revisión o se descarta.
- Detección de Duplicados – Utilizamos algoritmos de similitud de Jaccard y distancia de Levenshtein para detectar y filtrar preguntas que son demasiado similares a las generadas previamente. Esto previene la redundancia y asegura un conjunto diverso de preguntas.
- Ajuste de Dificultad – La IA evalúa si la pregunta se alinea con el nivel de dificultad previsto. Por ejemplo, una pregunta "difícil" debería tener una menor probabilidad de ser respondida correctamente según los datos históricos de los jugadores.
Al implementar estas salvaguardas, aseguramos que solo preguntas validadas y de alta calidad lleguen al juego final.
Paso 3: Actuación de Voz Sintetizada por IA y Generación de Diálogos
Una vez que se genera y valida una pregunta, el siguiente paso es entregarla al jugador a través de voces generadas por IA. En lugar de usar audio pregrabado, empleamos tecnología de texto a voz (TTS), específicamente la síntesis de voz impulsada por IA de ElevenLabs, para dar vida a los anfitriones del juego.
Antes de llamar a ElevenLabs para generar el discurso real, primero realizamos un paso de IA separado usando OpenAI para crear diálogos estructurados tanto para la introducción de la pregunta como para la revelación de la respuesta. Este enfoque asegura que cada componente esté cuidadosamente controlado, evitando desviaciones no intencionadas, elaboraciones innecesarias o divulgación temprana de la respuesta correcta.
Instrucciones de IA Controladas para Prevenir Exceso y Alucinación
Para mantener precisión y estructura, proporcionamos instrucciones específicas en cada solicitud de IA, definiendo claramente:
- Cómo debe comenzar la IA – Asegurando que la respuesta comience en un formato claro y estructurado con una introducción predefinida que se alinee con el tono y estilo del juego.
- Cómo debe terminar la IA – Instruyendo explícitamente a la IA dónde detenerse, previniendo el "exceso", donde el modelo podría inventar información adicional o intentar anticipar las respuestas de los jugadores.
- Qué no debe incluirse – Restringiendo detalles innecesarios, como pistas tempranas de respuestas, comentarios no relacionados o diálogos especulativos.
Por ejemplo, al generar narración de preguntas, estructuramos la solicitud de IA de la siguiente manera:
- Comenzar con una introducción atractiva que establezca el tono para la pregunta de trivia.
- Presentar claramente las opciones de opción múltiple, asegurando que permanezcan neutrales.
- Terminar con una frase predefinida, como "¿Qué piensas?", para evitar que la IA especule sobre la respuesta correcta.
De manera similar, al generar narración de revelación de respuestas, nosotros:
- Comenzar reafirmando la elección del jugador y repitiendo la pregunta para mantener la continuidad.
- Anunciar claramente la respuesta correcta, asegurando que se entregue de manera factual.
- Terminar con una respuesta corta predefinida, como "¿Lo acertaste?", previniendo comentarios adicionales no deseados generados por IA.
Minimizando los Riesgos de Alucinación de IA
Al dividir la generación de preguntas y respuestas en pasos de IA separados y definir estrictamente puntos de inicio y parada, eliminamos las alucinaciones de IA que podrían revelar inadvertidamente respuestas o introducir información irrelevante. Si permitiéramos que la IA generara el diálogo completo en una sola solicitud, podría intentar "anticipar" el resultado, llevando a sesgos no deseados, inconsistencias o contenido de relleno innecesario.
Cada pregunta de trivia es narrada por dos personajes anfitriones generados por IA, cada uno con estilos vocales y personalidades distintas. Su diálogo se genera dinámicamente y sigue un formato estructurado.
Ejemplo de Diálogo Generado por IA
{
"Conversation": [
{ "VoiceId": "2", "Dialog": "¡Muy bien, amigos! Aquí está su próxima pregunta... ¿Qué evento histórico llevó a la primera 'guerra de bromas diplomáticas' del mundo?" },
{ "VoiceId": "3", "Dialog": "¡Ooooh, me encanta una buena guerra de bromas! Esto mejor involucra pollos de goma y tratados falsos." },
{ "VoiceId": "2", "Dialog": "Sus opciones son... A) La Guerra Franco-India, B) La Guerra de Toledo de 1835, C) Las Guerras del Bacalao de Islandia de 1978, o D) El Tratado de los Pingüinos de 1962." },
{ "VoiceId": "3", "Dialog": "Honestamente, quiero que sean los pingüinos. Esos pequeños son despiadados." }
]
}
Una vez que el diálogo estructurado se finaliza, lo enviamos a ElevenLabs para la síntesis de voz de alta calidad, asegurando una narración clara, atractiva y sin errores que da vida a los anfitriones generados por IA del juego mientras mantiene una estricta precisión de contenido. Al estructurar el diálogo generado por IA en este formato, eliminamos la necesidad de escribir guiones manualmente mientras mantenemos un flujo conversacional natural y dinámico.
Paso 4: Ingeniería de Sonido y Postprocesamiento Impulsados por IA
Un factor importante en la creación de experiencias narrativas inmersivas es el diseño de sonido. Para hacer que las voces generadas por IA se sientan más auténticas, aplicamos técnicas de procesamiento de audio usando NAudio, incluyendo:
- Superposición de ruido de fondo de multitudes – Agregando reacciones del público como aplausos, risas o murmullos de suspenso.
- Efectos de voz dinámicos – Aplicando reverberación, eco o distorsión para coincidir con diferentes entornos del juego.
- Filtrado estilo radio – Modificando rangos de frecuencia para simular transmisiones vintage.
- Automatización de mezcla de audio – Combinando múltiples voces y efectos de sonido en tiempo real.
Una Situación Especial: Manejo de Transiciones de Escena y Diálogo No Relacionado con Preguntas
Más allá de generar preguntas de trivia y revelaciones de respuestas, también usamos IA para crear transiciones de escena y diálogos no relacionados con preguntas para momentos clave del juego, como la introducción del juego, actualizaciones de puntuación, transiciones de ronda y el cierre final. Estos segmentos requieren un enfoque diferente porque no están estructurados en torno a un formato de pregunta y respuesta, sino que sirven para establecer el escenario, involucrar a los jugadores y proporcionar un flujo continuo entre los elementos del juego.
Para asegurar variedad y rejugabilidad, generamos múltiples versiones de cada escena usando OpenAI, permitiendo diferentes interacciones y cambios de tono cada vez que se juega el juego. Además, cambiamos programáticamente los personajes al azar para cada escena, asegurando que las interacciones se sientan frescas y dinámicas. Por ejemplo, en una partida, una actualización de puntuación podría ser entregada por el anfitrión principal y el coanfitrión, mientras que en otra, un personaje secundario, como un locutor peculiar, un productor entusiasta o incluso un interno, podría tomar el control, agregando humor e imprevisibilidad. Al aleatorizar las asignaciones de personajes, creamos una gama diversa de interacciones, previniendo que el diálogo se vuelva repetitivo y haciendo que cada sesión de juego sea única.
Para mantener la estructura y prevenir inconsistencias en el diálogo, definimos claramente el comienzo y el final de cada escena, asegurando que las transiciones entre diferentes segmentos sean fluidas. Cada guion generado por IA está diseñado para conectarse suavemente con las escenas de diálogo precedentes y siguientes, previniendo cambios bruscos o antinaturales en la conversación. Usamos una combinación de marcadores de introducción/conclusión predefinidos y restricciones específicas de escena para asegurar que el contenido generado por IA se mantenga dentro del alcance del flujo narrativo previsto.
Una vez que los guiones se finalizan, al igual que con el proceso de generación de preguntas, también se sintetizan usando tecnología de voz de ElevenLabs y se mezclan con efectos de sonido ambientales y transiciones de audio para mejorar la inmersión y diferenciar entre escenas. Por ejemplo, una secuencia de cierre tendrá una superposición de aplausos de la multitud para simular la energía de una audiencia en vivo, reforzando la conclusión del juego. Mientras tanto, una escena de backstage previa al espectáculo tendrá un filtro de teléfono aplicado al audio, distinguiendo audiblemente el diálogo previo a la introducción del propio programa principal. Estos efectos de sonido y técnicas de procesamiento ayudan a crear una experiencia más atractiva y cinematográfica, haciendo que cada escena se sienta distinta y reforzando la calidad general de la producción.
Nuestro Plan para Ampliar las Capacidades de Diseño de Sonido Impulsadas por IA en el Futuro
De cara al futuro, planeamos ampliar nuestras herramientas de diseño de sonido impulsadas por IA desarrollando una biblioteca de efectos de sonido más grande y filtros de audio adicionales que la IA pueda aplicar dinámicamente en tiempo real. Esto permitiría al sistema ajustar los efectos de audio según la escena, ya sea agregando eco en una habitación vacía o superponiendo sonidos de tormenta para un efecto dramático.
También planeamos lanzar un canal de narración de radio de estilo antiguo generado por IA, que utilizará estas herramientas para crear dramas de audio de terror y ciencia ficción automatizados. Estos servirán como una demostración técnica de nuestras capacidades de narración impulsadas por IA y una nueva forma de entretenimiento, mostrando cómo la IA puede generar dinámicamente historias, diálogos y paisajes sonoros completamente mezclados sin intervención humana.
Una Última Consideración: Uso de IA y Eficiencia de Costos
La IA es una herramienta poderosa para la narración dinámica y la generación de contenido, pero viene con costos reales, tanto en términos de recursos computacionales como de gastos financieros. Cada línea de voz generada por IA, interacción en tiempo real o escena construida dinámicamente requiere potencia de procesamiento y llamadas a la API, que escalan según el uso. A medida que la adopción de IA en los juegos crece, comprender y gestionar estos costos se convierte en una parte crítica del desarrollo.
Para equilibrar la inmersión impulsada por IA con la eficiencia de costos, estamos diseñando dos versiones de este juego, cada una optimizada para diferentes casos de uso.
La primera versión generará dinámicamente el diálogo de transición de escena en tiempo real, permitiendo que la IA interactúe directamente con los jugadores y equipos por nombre. Esta versión está destinada a transmisiones en vivo en plataformas como YouTube y Twitch, donde controlamos la sesión de juego como una experiencia singular y solitaria. Debido a que solo se ejecuta una vez por sesión, el costo del procesamiento de IA se mantiene manejable. Esta versión mejora el compromiso al permitir que los anfitriones generados por IA interactúen con la audiencia en tiempo real, ofreciendo una experiencia completamente dinámica que justifica el costo.
Sin embargo, generar diálogo impulsado por IA no es instantáneo. En promedio, toma entre 4 y 7 segundos generar y convertir una línea de diálogo en discurso, a un costo de $0.16 a $0.20 por llamada. Esto nos obligó a planificar cuidadosamente cuándo y cómo se crea el contenido generado por IA para evitar interrumpir la experiencia del jugador. Para minimizar los retrasos notables, diseñamos nuestro sistema para precargar contenido antes de que se necesite o para generarlo durante pausas naturales, como cuando se da tiempo a los jugadores para responder una pregunta. Esto asegura una experiencia fluida, previniendo interrupciones que podrían sacar a los jugadores del juego.
Para abordar las preocupaciones de costos, la segunda versión, presentada dentro de Gig.Game, está diseñada para juego privado y debe soportar un alto volumen de sesiones sin costos excesivos. En lugar de generar diálogo de IA en tiempo real para cada sesión, pre-generamos un conjunto de transiciones y segmentos de diálogo elaborados por IA, asegurando una experiencia consistente y de alta calidad mientras minimizamos el procesamiento de IA en el momento. Esto nos permite ofrecer juego escalable y rentable sin sacrificar la inmersión.
La clave aquí es que el uso de IA debe planificarse estratégicamente. Mientras que las experiencias impulsadas por IA en tiempo real proporcionan un compromiso sin igual, son más adecuadas para entornos controlados y de instancia única como las transmisiones en vivo. En contraste, el contenido pre-generado por IA permite juego escalable y repetible sin incurrir en costos continuos de procesamiento de IA. Al aprovechar ambos enfoques, aseguramos que la IA siga siendo un habilitador de innovación, en lugar de un cuello de botella de costos, mientras mantenemos la fluidez y el compromiso necesarios para una experiencia de jugador inmersiva.
AI4 2025: Mostrando la Narración Impulsada por IA en Acción
A medida que continuamos refinando nuestro motor de narración impulsado por IA, estamos explorando nuevas aplicaciones para experiencias narrativas generadas por IA más allá de los juegos de trivia, incluyendo:
- Ficción interactiva automatizada – Narrativas ramificadas generadas por IA que cambian según las elecciones del jugador.
- Voces en off dirigidas por IA en juegos – NPCs dinámicos que reaccionan en tiempo real al comportamiento del jugador.
- Eventos de juego en vivo impulsados por IA – Historias en el juego que evolucionan automáticamente con diálogo y audio generados por IA.
Estaré en AI4 2025 en Las Vegas, donde espero ver cómo otros están innovando en el desarrollo de juegos impulsado por IA. También estaré dando demostraciones en suite de nuestra tecnología de narración impulsada por IA, mostrando cómo la IA puede automatizar la generación de narrativas, actuación de voz e ingeniería de sonido de una manera que mejora los flujos de trabajo de desarrollo de juegos.
Si estás interesado en el futuro de la IA en los juegos, conectémonos. ¿Dónde ves que la IA tiene el mayor impacto en la narración? Discutamos.
Deutsch
English
Español
Français
Italiano
Português
Türkçe
русский
العربية
한국어
中文
日本語