¿Qué tipo de inteligencia artificial supera a los jugadores profesionales de Go?
Las computadoras han superado anteriormente a los oponentes humanos en muchos otros juegos, como el ajedrez, Otelo y el programa de preguntas "Jeopardy!" Pero el Go es una habilidad antigua con una historia de más de 2.500 años y su complejidad es mucho mayor que la del ajedrez. Por lo tanto, los maestros humanos pueden superar incluso los sistemas informáticos más potentes casi sin esfuerzo. A principios de este mes, expertos en IA ajenos a Google habían planteado dudas sobre si los avances en IA en Go podrían lograrse rápidamente. Hasta el año pasado, la mayoría de la gente pensaba que una computadora tardaría 10 años en vencer a un jugador de ajedrez profesional.
Sin embargo, Google lo hizo. El investigador francés Remi Coulom desarrolló anteriormente el programa Go de inteligencia artificial más poderoso del mundo. Dijo: "Este día llegó antes de lo que esperaba".
En 2014, Google adquirió DeepMind, una empresa que se autodenomina "Proyecto Apolo en inteligencia artificial". En junio de 5438 + octubre del año pasado, el equipo de investigación de DeepMind celebró una competencia entre inteligencia artificial y jugadores humanos en su oficina de Londres. El sistema de DeepMind se llama AlphaGo y su oponente es el campeón europeo de Go Fan Hui. Bajo la supervisión de los editores de la revista Nature y árbitros de la Asociación Británica de Go, AlphaGo logró una abrumadora victoria de 5-0 en el juego de backgammon. "Este es uno de los momentos más emocionantes de mi carrera, como investigador y como editor", dijo el martes el editor de Nature, el Dr. Tanguy Chouard, en una llamada a los medios.
Un artículo publicado en la revista Nature describe el sistema de DeepMind, que utiliza una variedad de técnicas, incluida una técnica de inteligencia artificial cada vez más importante llamada aprendizaje profundo. Aproximadamente 30 millones), el equipo de investigación de DeepMind entrenó a AlphaGo para aprender Go por sí solo. En teoría, dicho entrenamiento solo puede producir inteligencia artificial. que es tan bueno como los mejores jugadores humanos, el equipo de investigación dejó que el sistema jugara contra sí mismo. Esto aportó nuevos datos que podrían usarse para entrenar nuevos sistemas de inteligencia artificial que finalmente superaron a los mejores expertos: "El El punto más importante es que AlphaGo no es sólo un sistema experto, sino que también sigue reglas establecidas por los humanos. De hecho, utiliza técnicas generales de aprendizaje automático para explorar cómo ganar el juego de Go. ”
Esta victoria de la inteligencia artificial no es nueva. Los servicios de Internet como Google, Facebook y Microsoft han utilizado durante mucho tiempo la tecnología de aprendizaje profundo para reconocer fotos y voces, o comprender el lenguaje natural. La tecnología DeepMind combina aprendizaje profundo y refuerzo. aprendizaje y otros métodos. Esto apunta a direcciones futuras sobre cómo los robots del mundo real aprenden a realizar tareas cotidianas y responder a su entorno, dijo Hassabis. "
También cree que estos métodos pueden acelerar la investigación científica y, al introducir sistemas de inteligencia artificial en su trabajo, los científicos podrán lograr más resultados. "Este sistema puede manejar conjuntos de datos más grandes y analizar información estructurada. y proporcionárselo a expertos humanos, aumentando así la eficiencia. El sistema puede incluso proporcionar a los expertos humanos sugerencias sobre formas y medios para ayudar a lograr avances. "
Sin embargo, por ahora, el Go sigue siendo su objetivo. Después de derrotar a un jugador profesional a puerta cerrada, Hassabis y su equipo fijaron su mirada en los mejores jugadores de Go del mundo. En marzo A mediados de año , AlphaGo desafiará públicamente a Lee Sedol. Lee Sedol ocupa el segundo lugar en el número de campeonatos internacionales, y Lee Sedol tiene la tasa de victorias más alta en los últimos 10 años. Kazajstán Bisce cree que Lee Sedol es el "Federer del Go". >
Más difícil que el ajedrez
A principios de 2014, el software Go de Cullom, Crazystone, desafió a Yoda Norimoto en el Tour de Japón y ganó. Sin embargo, la calidad de esta victoria no fue suficiente: Crazystone ganó la cuarta concesión. .
En ese momento, Cullom predijo que la inteligencia artificial tardaría 65.438+00 años en derrotar a los mejores jugadores de Go sin ser eliminado.
La dificultad de este desafío radica en el propio juego de Go. Anteriormente, ningún superordenador tenía suficiente potencia de procesamiento para predecir el resultado posterior de cada enfoque posible en un período de tiempo razonable. En 1997, IBM Deep Blue derrotó al maestro de ajedrez Garry Kasparov. En ese momento, esta supercomputadora adoptó un método de "cálculo de fuerza bruta". En esencia, Deep Blue analiza los posibles resultados de cada paso. Sin embargo, esto no funciona en el juego de Go. En una partida de ajedrez promedio, hay 35 movimientos posibles en una ronda. Pero el juego de Go utiliza un tablero de ajedrez de 19x19, con un promedio de 250 movimientos por ronda. Hassabis señaló que hay más tipos de piezas de ajedrez en el tablero de Go que átomos en total en el universo.
Utilizando un método llamado "búsqueda de árbol de Monte Carlo", un sistema similar a Crazystone puede completar más pasos de predicción. Combinadas con otras tecnologías, las computadoras pueden realizar el análisis de posibilidades necesario. Una computadora así podría vencer a algunos buenos jugadores de Go, pero aún estaba lejos de los mejores jugadores. Para un verdadero maestro, la intuición es una parte importante de la ecuación. Estos jugadores eligen cómo actuar basándose en los patrones del tablero, en lugar de analizar con precisión los posibles resultados de cada movimiento. El propio Hassabis también es jugador de Go. Dijo: "Una buena pieza de ajedrez tiene un aspecto hermoso. Parece seguir una determinada estética. Ésta es también la razón por la que este juego ha perdurado durante miles de años".
Sin embargo, después de entrar en 2015, algunos expertos en inteligencia artificial, incluidos investigadores de la Universidad de Edimburgo, Facebook y DeepMind, comenzaron a explorar el uso de tecnología de aprendizaje profundo para resolver el problema de Go. Imaginaron que las técnicas de aprendizaje profundo podrían simular la intuición humana necesaria en Go. Hassabis dijo: "Go tiene muchas sugerencias y la coincidencia de patrones es muy importante. El aprendizaje profundo puede hacer un buen trabajo".
Automejora
La base del aprendizaje profundo es un sistema neuronal. red. Esta red compuesta de software y hardware puede simular neuronas en el cerebro humano y su funcionamiento no depende de "cálculos de fuerza bruta" ni de reglas artificiales. Las redes neuronales analizan grandes cantidades de datos para "aprender" una tarea. Por ejemplo, si se introducen suficientes fotografías de wombats en una red neuronal, se pueden identificar wombats. Si alimenta a una red neuronal con suficientes pronunciaciones de palabras, podrá reconocer su pronunciación. Siempre que la red neuronal reciba suficientes juegos de Go, puede aprender a jugar Go.
En DeepMind de la Universidad de Edimburgo y la Universidad de Facebook, los investigadores esperan que al "observar" patrones de ajedrez, las redes neuronales puedan aprender a jugar Go. Como dijo Facebook en un artículo reciente, la tecnología funciona bien. Mediante una combinación de aprendizaje profundo y métodos de árbol de Monte Carlo, el sistema de Facebook ha superado a algunos jugadores humanos.
Sin embargo, DeepMind va un paso más allá. Después de aprender 30 millones de movimientos de ajedrecistas humanos, la red neuronal predijo el siguiente movimiento de los ajedrecistas humanos con una precisión del 57%, mucho más que el 44% anterior. Luego, Hassabis y su equipo modificaron ligeramente la red neuronal y la dejaron jugar contra sí misma, lo que se denomina aprendizaje por refuerzo. En el proceso, la red neuronal puede comprender qué estilo de caminar ofrece los mejores resultados.
El investigador de DeepMind, David Shivell, dijo: "Al jugar millones de juegos entre redes neuronales, AlphaGo aprendió a descubrir nuevas estrategias y mejorarlas gradualmente.
Shivell dijo que esto hace que AlphaGo sea superior a otros". Vaya al software, incluido Crazystone. Luego, los investigadores introdujeron los resultados en otra red neuronal. Después de determinar primero el siguiente movimiento del oponente, la red neuronal puede utilizar la misma técnica para predecir el resultado de cada movimiento. Esto es similar a sistemas más antiguos como Deep Blue, pero la diferencia es que AlphaGo puede aprender en el proceso y analizar más datos, en lugar de utilizar cálculos de fuerza bruta para juzgar todos los resultados posibles. De esta manera, AlphaGo no sólo puede superar los sistemas de inteligencia artificial actuales, sino también derrotar a los maestros humanos.
Chip especializado
Al igual que la mayoría de las redes neuronales avanzadas, el sistema de DeepMind se ejecuta en una computadora basada en una GPU (chip de procesamiento de gráficos).
Las GPU se diseñaron originalmente para la representación de gráficos en juegos y otras aplicaciones gráficas, pero investigaciones recientes muestran que este chip también es muy adecuado para la tecnología de aprendizaje profundo. Hassabis dijo que el sistema de DeepMind funcionó bastante bien en una sola computadora equipada con múltiples chips GPU, pero para desafiar a Fan Hui, los investigadores construyeron una red informática más grande que incluía 170 tarjetas GPU y 1200 procesadores de CPU estándar. Esta vasta red de computadoras entrenó a AlphaGo y compitió en competiciones.
Hassabis dijo que AlphaGo usará la misma configuración de hardware en el juego con Lee Sedol. Actualmente, están mejorando constantemente este sistema de inteligencia artificial. Para prepararse para el partido contra Lee Sedol, también necesitan una conexión a Internet. Hassabis dijo: "Estamos instalando nuestros propios cables ópticos".
Kulom y otros expertos señalaron que el partido contra Lee Sedol será más difícil. Sin embargo, Cullom ya ha apostado por DeepMind. Durante los últimos 10 años, ha esperado desarrollar un sistema que pueda superar a los mejores jugadores de Go. Él cree que el sistema ya está aquí. Dijo: "Estoy comprando algunas GPU".
El camino hacia el futuro
La importancia de AlphaGo es evidente. Esta tecnología se puede aplicar no sólo a la robótica y la investigación científica, sino también a muchas otras tareas, como los asistentes de voz móviles tipo Siri y las decisiones de inversión financiera. "Se puede utilizar para cualquier problema de confrontación, desde todo tipo de competiciones que requieren estrategia, hasta guerras y transacciones comerciales", dijo Chris Nicholson, fundador de la startup de aprendizaje profundo Skymind. Para algunos, esta situación es preocupante. , especialmente considerando que el sistema de DeepMind tiene la capacidad de aprender Go por sí mismo. Los materiales de aprendizaje de AlphaGo no provienen de humanos, pero pueden autoguiarse generando sus propios datos. En los últimos meses, el fundador de Tesla, Elon Musk, y otras celebridades han dicho que estos sistemas de inteligencia artificial eventualmente superarán la inteligencia humana y romperán el control humano.
Sin embargo, el sistema de DeepMind está estrictamente controlado por Hassabis y su equipo. AlphaGo se utiliza para los juegos de mesa más complejos, pero sigue siendo sólo un juego. De hecho, AlphaGo está lejos de alcanzar la verdadera inteligencia humana o superinteligencia.
“Esta sigue siendo una situación muy estructurada y no realmente humana”, afirmó Ryan Calo, profesor de derecho de la Universidad de Washington que se especializa en inteligencia artificial y fundador del Science and Technology Policy Lab Understand. ” Sin embargo, AlphaGo apunta hacia el futuro. Si el sistema de inteligencia artificial de DeepMind puede comprender Go, entonces podrá comprender más información. Carlo dijo: "El universo es sólo un juego de Go más grande".