La Red de Conocimientos Pedagógicos - Conocimientos universitarios - Se han publicado los mejores artículos de 2019.

Se han publicado los mejores artículos de 2019.

Se puede decir que 2019 es el año en que se popularizó el “modelo de preformación”. Desde que BERT inició la tendencia, la investigación sobre métodos relacionados no solo ganó el premio al mejor artículo en la conferencia EMNLP, sino que también lideró la tendencia en PNL e incluso en el campo de la imagen.

El año pasado, muchas IA de juegos alcanzaron niveles que superaron a los humanos. La inteligencia artificial no sólo ha jugado juegos complejos como Texas Hold'em, StarCraft y Dota2, sino que también ha sido reconocida por las principales revistas como Nature y Science.

Machine Heart ha recopilado siete de los estudios de investigación más populares en los campos de la inteligencia artificial y la computación cuántica el año pasado. Veámoslo cronológicamente:

El primer estudio importante se publicó en febrero. Después de lanzar el modelo de lenguaje BERT de 300 millones de parámetros, que actualizó 11 registros de tareas de PNL, Google OpenAI lanzó nuevamente un modelo más potente en febrero de 2019, esta vez con 1.500 millones de parámetros de modelo. Este es un modelo de lenguaje no supervisado a gran escala que puede producir párrafos de texto coherentes y lograr rendimiento SOTA en muchos puntos de referencia de modelado de lenguaje. Además, el modelo puede lograr comprensión de lectura preliminar, traducción automática, respuesta a preguntas y resúmenes automáticos sin capacitación específica para tareas.

Este modelo se llama GPT-2. Es un modelo de lenguaje a gran escala basado en Transformer. Contiene 65.438+050 millones de parámetros y está entrenado en 8 millones de conjuntos de datos de páginas web. El entrenamiento GPT-2 tiene un objetivo simple: dadas todas las palabras anteriores de un texto, predecir la siguiente palabra. GPT-2 es una extensión directa del modelo GPT. Está entrenado con más de 10 veces de datos y la cantidad de parámetros también es más de 10 veces.

GPT-2 demuestra una variedad de capacidades generales y poderosas, incluida la generación de texto sintético condicional de la más alta calidad disponible actualmente, donde podemos introducir datos en el modelo para generar un texto coherente muy largo. Además, GPT-2 supera a otros modelos de lenguaje entrenados en dominios específicos (como Wikipedia, noticias o libros) sin requerir el uso de estos datos de entrenamiento específicos de dominio. En tareas de respuesta de conocimiento, comprensión de lectura, resumen automático y traducción, GPT-2 puede aprender del texto original sin datos de entrenamiento específicos de la tarea. Si bien estas tareas posteriores están lejos del estado actual de la técnica, GPT-2 muestra que una variedad de tareas posteriores pueden beneficiarse de técnicas no supervisadas si se les proporcionan suficientes datos (sin etiquetar) y potencia computacional.

Finalmente, basándose en el modelo de lenguaje general a gran escala que puede tener un gran impacto social, y considerando que el modelo puede usarse con fines maliciosos, OpenAI adoptó la siguiente estrategia al lanzar GPT-2: solo lanzar GPT Una versión más pequeña y un código de muestra de -2, sin publicar el conjunto de datos, el código de entrenamiento y los pesos del modelo GPT-2.

Los mejores artículos de la Machine Learning Summit siempre suscitan un amplio debate. En la ICML 2019 (Conferencia Internacional sobre Aprendizaje Automático) celebrada en California en junio de este año, "Challenging Disappointment Representation without Disappointment", escrito en coautoría por ETH Zurich, Max Planck y Google Brain Supporting Common Assumptions in Learning, recibió uno de los mejores. papeles. En este artículo, los investigadores proponen una visión contraria a las predicciones académicas anteriores: sin supervisión, es imposible que cualquier dato tenga una representación independiente (representación desacoplada).

Enlace del artículo: une no coincide).

Basado en estas ventajas y desventajas, este estudio propone el modelo de preentrenamiento autorregresivo generalizado XLNet. XLNet puede: 1) aprender información contextual bidireccional maximizando la probabilidad logarítmica de todos los órdenes de factorización posibles; 2) utilizar características autorregresivas para superar las deficiencias de BERT. Además, XLNet también integra la idea de Transformer-XL, el mejor modelo autorregresivo actual.

Lectura ampliada:

2065438+En julio de 2009, Depo AI Pluribus derrotó con éxito a cinco jugadores humanos expertos en una partida de Texas Hold'em sin límite de seis personas. Pluribus fue desarrollado conjuntamente por Facebook y la Universidad Carnegie Mellon (CMU) ** para lograr las tareas que su predecesor Libratus (cold master) no pudo completar. La investigación ha sido publicada en el último número de la revista Science.

Según los informes, la competición diseñada por Facebook y la Universidad Carnegie Mellon se divide en dos modos: 1 IA+5 jugadores humanos y 5 IA+1 jugadores humanos. Pluribus salió victorioso en ambas modalidades. Si una ficha vale 65.438+0 dólares estadounidenses, Pluribus puede ganar un promedio de 5 dólares estadounidenses por juego y puede ganar 65.438+0.000 dólares estadounidenses contra 5 jugadores humanos en una hora. Los jugadores de póquer profesionales consideran que estos resultados son una ventaja decisiva para ganar. Esta es la primera vez que una IA vence a un jugador profesional de primer nivel en un gran partido de referencia con más de 2 personas (o equipos).

En este artículo, Pluribus integra un nuevo algoritmo de búsqueda online que puede evaluar eficazmente sus decisiones buscando pasos anteriores en lugar de simplemente buscar hasta el final del juego. Además, Pluribus también aprovecha nuevos algoritmos de juego de información imperfecta de reproducción automática más rápidos. En conjunto, estas mejoras hacen posible entrenar a Pluribus con muy poca potencia de procesamiento y memoria. El valor total de los recursos de computación en la nube utilizados para la capacitación es inferior a 150 dólares. Esta eficiencia contrasta marcadamente con otros proyectos recientes de IA, cuya capacitación a menudo requirió millones de dólares en recursos informáticos.

El resultado del autojuego de Pluribus se llama estrategia modelo. En los juegos reales, Pluribus utiliza algoritmos de búsqueda para mejorar esta estrategia de modelo. Pero Pluribus no ajusta su estrategia basándose en las tendencias que observa en sus oponentes.

En el campo de la computación cuántica, además de la inteligencia artificial, el año pasado también se produjeron importantes avances en la investigación. 2065438+ En septiembre de 2009, Google presentó un documento titulado "Ventajas cuánticas utilizando procesadores superconductores programables", que se subió desde el sitio web de la NASA. Los investigadores han demostrado por primera vez en experimentos la superioridad de los ordenadores cuánticos sobre los ordenadores de arquitectura tradicional: en un experimento que requirió cálculos durante 10.000 años en la primera cumbre mundial de superordenadores, el ordenador cuántico de Google sólo tardó 3 minutos y 20 segundos. Por tanto, Google pretende lograr una "ventaja cuántica". El artículo apareció más tarde en la portada de la edición del 150 aniversario de Nature.

Este logro surge del incansable esfuerzo de los científicos. Google lleva 13 años investigando la computación cuántica. En 2006, el científico de Google Hartmut Neven comenzó a explorar formas de acelerar el aprendizaje automático mediante la computación cuántica. Este trabajo condujo al establecimiento del equipo cuántico de IA de Google. En 2014, John Martinis y su equipo de la Universidad de California en Santa Bárbara (UCSB) se unieron a Google para comenzar a construir una computadora cuántica. Dos años más tarde, se publicó el artículo de Sergio Boiso y otros, y Google comenzó a centrarse en la tarea de lograr la superioridad de la computación cuántica.

Hoy, el equipo ha construido el primer sistema cuántico del mundo que supera las capacidades de las supercomputadoras convencionales y puede realizar cálculos de tareas específicas.

El experimento de la ventaja cuántica se ejecuta en un procesador totalmente programable de 54 qubits llamado Sycamore. El procesador consta de una cuadrícula bidimensional en la que cada qubit está conectado a otros cuatro qubits. El éxito del experimento de la ventaja cuántica se atribuyó a las mejoras de Google en las puertas de dos qubits mejoradas con paralelismo, que logran de manera confiable un rendimiento récord incluso cuando operan varias puertas simultáneamente. Google logró este rendimiento utilizando una nueva perilla de control que desactiva las interacciones entre qubits adyacentes. Esto reduce en gran medida los errores en estos sistemas de qubits multiconectados. Además, Google mejoró aún más el rendimiento al optimizar el diseño del chip para reducir la diafonía y desarrollar nuevas calibraciones de control para evitar defectos de qubit.

Aunque la IA no derrotó a Serral, el jugador humano más fuerte, su artículo de investigación se publicó en "Nature". En 2019, a finales de 2010, el artículo de DeepMind sobre AlphaStar se publicó en este número de la revista "Nature". Este es el último avance de la investigación del algoritmo de inteligencia artificial AlphaStar, que muestra que la IA ha alcanzado el nivel de StarCraft 2. sin restricciones de juego En el nivel superior, la clasificación en Battle.net ha superado el 99,8% de los jugadores activos.

Echando una mirada retrospectiva a la historia del desarrollo de AlphaStar, DeepMind anunció en 2017 que comenzaría una investigación sobre la inteligencia artificial - estrella alfa, que puede jugar al juego de estrategia en tiempo real "StarCraft 2".

El 10 de diciembre de 2018, AlphaStar derrotó a Dani Yogatama, el jugador más fuerte de DeepMind. 65438 + febrero 65438 + 02 de febrero, AlphaStar ha podido derrotar al jugador profesional TLO 5:0 (TLO es un jugador Zerg y, según los comentaristas del juego, su rendimiento en el juego puede rondar los 5000 puntos; ha pasado otra semana); 16,5438+El 9 de febrero de 2009, AlphaStar también derrotó al jugador profesional MaNa con un marcador de 5:0. En este punto, AlphaStar ha dado un paso más y alcanzó el nivel más alto de los principales juegos de deportes electrónicos.

Según una descripción en Nature, DeepMind utiliza técnicas generales de aprendizaje automático (incluidas redes neuronales, autojuego con aprendizaje reforzado, aprendizaje multiagente y aprendizaje por imitación) para aprender directamente de los datos del juego. La jugabilidad de AlphaStar es impresionante: el sistema es muy bueno para evaluar su propia posición estratégica y saber exactamente cuándo acercarse a un oponente y cuándo alejarse. Además, la idea central del artículo es extender el autojuego ficticio en un entorno de juego a un grupo de agentes, una "coalición".

En el centro del concepto de alianza está la idea de que simplemente ganar no es suficiente. En cambio, el experimento requiere que el agente principal derrote a todos los jugadores, y el objetivo principal del agente "explotador" es ayudar al agente principal a exponer los problemas y volverse más fuerte. Esto no requiere que estos agentes mejoren sus tasas de ganancias. Al utilizar este método de capacitación, toda la alianza de agentes aprendió todas las estrategias complejas de StarCraft 2 en un sistema totalmente automatizado de un extremo a otro.

En 2019, se están produciendo muchos avances tecnológicos en todas las direcciones en el campo de la IA. En el nuevo año, esperamos más avances.

Además, Machine Heart lanzó su nuevo producto modelo SOTA a finales de septiembre de 2019. Los lectores pueden encontrar artículos SOTA sobre los campos y tareas correspondientes del aprendizaje automático según sus propias necesidades. La plataforma proporcionará artículos, modelos, conjuntos de datos, puntos de referencia y otra información relacionada.