Tesis sobre Mahjong
En la Conferencia Mundial de Inteligencia Artificial (WaiC) celebrada en Shanghai el 29 de agosto, el vicepresidente ejecutivo global de Microsoft, Harry Shum, calificó oficialmente al Suphx ("Super Phoenix") de MSRA como "la IA de Mahjong más poderosa de la historia". .
Synced ha informado anteriormente sobre el trabajo de la IA en Mahjong, un juego de información imperfecta. Desde la perspectiva de la teoría de juegos, es completamente diferente de los juegos de información completa como el ajedrez y el Go. Los jugadores de Mahjong no pueden ver nada que pueda afectar el resultado del juego y deben adivinar fichas que sus oponentes no pueden ver al elegir movimientos.
Suphx aprende por sí mismo mahjong complejo asociándose con Tenhou, una plataforma de mahjong en línea mundialmente popular con más de 300.000 miembros en Japón. De marzo a junio de este año, Suphx jugó más de 5.000 juegos contra oponentes humanos y logró la clasificación más alta de 10 Dan. (El nivel más alto, 11 píldoras, solo está abierto a jugadores humanos. La clasificación estable Suphx de Tianhou es de alrededor de 8,7, más alta que el promedio humano más alto de 7,4.
El famoso avance de la IA en videojuegos de este año es un juego con Productos integrales de habilidades de juego, incluyendo estrategia y habilidades operativas y de ejecución. Los juegos puramente intelectuales y estratégicos como Mahjong presentan desafíos únicos, como dijo Liu Tieyan, vicepresidente de Microsoft Research Asia: "Juegos como Dota se parecen más a 'juegos', mientras que los juegos como Mahjong se parecen más a la 'IA'".
El artículo de investigación relevante aún no se ha publicado, pero MSRA reveló algunas propiedades del modelo Suphx en su blog (en chino y japonés), explicando que son Cómo abordar Mahjong a través del aprendizaje por refuerzo profundo:
Toma de decisiones adaptativa: para hacer frente al enorme espacio de estados, Suphx ajusta dinámicamente la diversidad del proceso de exploración, para poder probar diferentes posibilidades del juego. más eficaz que los algoritmos tradicionales.
Ex entrenador: para resolver el desafío de la información incompleta, Suphx utiliza la tecnología del "primer entrenador" para mejorar el efecto del aprendizaje por refuerzo. información para guiar el entrenamiento del modelo durante la fase de entrenamiento de autoaprendizaje, acercando la ruta de aprendizaje a la ruta óptima con información perfecta, lo que obliga al modelo de IA a aprender y comprender la información visible más profundamente, formando así. una base efectiva para la toma de decisiones.
Predicción integral: para mahjong, con un mecanismo de recompensa complejo, el equipo de investigación utiliza tecnología de predicción integral para cerrar la brecha entre cada juego y el resultado final. diferentes contribuciones que afectan el resultado final en cada juego, para distribuir razonablemente la señal de recompensa final en cada competencia, guiando así la autocompetición de manera más directa y efectiva y permitiendo a Suphx aprender desde la perspectiva técnica avanzada del panorama general.
Microsoft dijo que cree que la tecnología desarrollada en el proyecto Suphx se utiliza para navegar en la incertidumbre del "Mahjong". "El algoritmo de IA también se puede utilizar para resolver problemas con factores desconocidos y eventos aleatorios en el mundo real.