Curso teórico-práctico sobre Inteligencia Artificial para Videojuegos (IAV) basado en el modelo de propone Ian Millington en su libro, impartido en la Universidad Complutense de Madrid.
2. ● Hoy día la domótica de muchos hogares
integra reconocimiento del habla
○ Ej. Altavoces inteligentes como Amazon Echo o
Google Home
○ Aunque antes hubo
respuesta de voz
interactiva (telefónica)…
y Siri o Cortana en el móvil
● El procesamiento del lenguaje natural
siempre ha sido un campo de la IA
○ Y desde 2017 estamos en plena revolución con los
chatbots como ChatGPT
Comunicación en lenguaje natural 2
Motivación
3. ● En los videojuegos no está demasiado
extendido, aunque existen algunos títulos
○ Voice Games, juegos para altavoces inteligentes
○ Videojuegos de silencios u órdenes por voz
○ Videojuegos adaptados a la voz para enseñanza
Comunicación en lenguaje natural 3
Motivación
4. ● Little Computer People (1985)
○ Usaba un modelo oculto de Markov, representaba
emociones y podías “dialogar” con el personaje
● Seaman (1999)
○ Una rareza de Dreamcast en la
que podías “charlar” por voz con
esta criatura artificial
● LifeLine (2003)
○ Publicado en PS2,
fallaba mucho pero fue
muy atrevido, pues
jugabas “hablando” con la protagonista
Comunicación en lenguaje natural 4
Hitos históricos
5. ● SingStar (2004)
○ La idea del Karaoke es muy antigua,
pero el éxito comercial de la
franquicia fue sorprendente
● Façade (2005)
○ Videojuego experimental
con fuerte carga de PLN,
planificación automática,
etc.
Comunicación en lenguaje natural 5
Hitos históricos
6. ● En IA multicapa donde el jugador es el top
○ En SOCOM (2002) ya se daban órdenes algo
interpretables (defender un sitio, fuego
de cobertura, etc.)
○ Bot Colony (2014)
■ Se basa íntegramente en
NPCs que reconocen
órdenes por texto y voz, se
habló de “remake” en UE4
○ Radio General (2020)
■ Puedes dar órdenes del tipo:
“X move to Y”
Comunicación en lenguaje natural 6
Hitos históricos
7. ● Event[0] (2016)
○ Chatbot razonablemente integrado con la narrativa
● Inworld Calradia MOD (2023)
○ Integrar GPT-4 en un RPG como Mount&Blade II
Comunicación en lenguaje natural 7
Hitos históricos
8. ● La primera tecnología que necesitamos, que
trata de identificar la palabra más parecida
a la señal de audio de entrada
● Para convertir la voz a texto hay 3 fases
○ Decodificador acústico-fonético
○ Entrenamiento
○ Reconocimiento
Comunicación en lenguaje natural 8
Reconocimiento del habla
10. ● Sirve para clasificar los sonidos
fonéticamente
○ La onda dibuja en el espectro de frecuencias una
serie de zonas con mayor intensidad. Son los
llamados formantes, lo que permite distinguir una
vocal de otra, una consonante de otra…
○ Varían mucho. Ej. los niños tienen la voz más
aguda, hay acentos y voces muy distintas…
○ La diferencia y relación entre las 3 frecuencias
predominantes, a pesar de las variaciones, es lo
que denota qué se está recibiendo
Comunicación en lenguaje natural 10
Decodificador acústico-fonético
11. ● Son la técnica base para predecir lo que
dirá el usuario, después de lo ya dicho (para
desambigüar palabras similares)
● Se puede aprender con
estas cadenas usando el
sistema estadístico del
modelo oculto de Markov
Comunicación en lenguaje natural 11
Cadenas de Markov
12. ● Usando alguna técnica de aprendizaje
máquina se entrena al sistema para que
asocie muestras de voz a ciertos textos
○ Es lo más pesado a nivel computacional y donde se
requiere más información para el sistema
● Se generan los llamados modelos acústicos y
del lenguaje
○ ¡Pueden ser individualizados!
○ Cuando más entrene, mejor distinguirá voces,
tendrá más léxico, comprenderá más
pronunciaciones, será más tolerante al ruido…
Comunicación en lenguaje natural 12
Entrenamiento
13. ● Se usan los modelos anteriores para
comparar entradas que van llegando y
obtener el texto resultante
Comunicación en lenguaje natural 13
Reconocimiento
14. ● ¿Cómo funcionaban las
cosas antes de los
Transformers?
Comunicación en lenguaje natural 14
GPT como herencia
de Markov…
15. ● Hay complejos algoritmos para entender al
usuario, trabajando las áreas de morfología,
sintaxis, semántica, pragmática y
mecanismos de tratamiento como métodos
de comparación, búsqueda, inferencia
aproximada, deducción, etc.
Comunicación en lenguaje natural 15
Procesamiento del lenguaje natural
16. ● La arquitectura típica para este
procesamiento está formada por 4 etapas
Comunicación en lenguaje natural 16
Procesamiento del lenguaje natural
17. ● El primer paso incluye dos niveles: análisis
morfológico y sintáctico
○ Nos devuelve si la oración proporcionada por el
usuario posee palabras correctas, descartando
palabras inventadas o no existentes en el idioma y
asegurándose una estructura sintáctica correcta
Comunicación en lenguaje natural 17
Análisis morfológico y sintáctico
18. ● A continuación, se realiza el análisis
semántico, para obtener el significado puro
de la oración, pudiendo ser testeada
mediante expresión booleana (cierto/falso)
● Finalmente, se realiza el nivel de análisis
pragmático
○ Este nivel alinea el análisis de la oración
introducida con el conjunto de oraciones, así como
la relación entre ellas, y la situación de las mismas
Comunicación en lenguaje natural 18
Análisis semántico y pragmático
19. ● Finalmente se suele llamar “comprensión” a
conseguir entender qué quiere realmente el
usuario, entender su necesidad, más allá de
cómo la exprese
○ Analizar no sólo las palabras, sino el contexto en el
cual son expresadas, dependiente no sólo del
lenguaje sino de la procedencia y cultura del
usuario
○ Ej. Ser capaz de captar las emociones, o poder
reconocer cuando se usa la ironía
Comunicación en lenguaje natural 19
Comprensión del lenguaje natural
21. ● Lo más fácil es usar plantillas, aunque la
generación compleja tiene 6 fases
○ Rara vez se usa voz sintetizada en videojuegos,
pues suena mejor grabar las opciones con actores
Comunicación en lenguaje natural 21
Generación de lenguaje natural
23. ● ¿Qué dificulta el reconocimiento del habla?
A. Dependencia del hablante, del contexto y el ruido
B. Variación, frecuencia y ruido
C. Dependencia del contexto y de los fonemas
D. Dependencia del contexto y de cadenas de Markov
● Desarrolla tu respuesta (en texto libre)
Comunicación en lenguaje natural 23
Participación
24. * Excepto el contenido multimedia de terceros autores
Federico Peinado (2019-2023)
www.federicopeinado.es
Críticas, dudas, sugerencias...