Comprensión de la tendencia de evolución de la tecnología del sistema de recomendación en 2020
El artículo "La tendencia evolutiva de la tecnología de sistemas recomendados: del retiro a la clasificación y el reordenamiento" El artículo habla principalmente sobre algunas tendencias obvias de desarrollo técnico en la tecnología de sistemas de recomendación en los últimos dos años. Partiendo principalmente de los siguientes aspectos:
La arquitectura general del sistema de recomendación
La tendencia de desarrollo de la tecnología de recuperación
La tendencia de desarrollo de la tecnología de modelos de secuenciación p>
Tendencia de desarrollo de la tecnología de reordenamiento
Arquitectura macro del sistema de recomendación:
Cuatro etapas de subdivisión:
1. la recuperación es equivalente a un resultado de clasificación de una sola característica)
2. Futuro: recuperación del modelo (introduciendo múltiples características y extendiendo la clasificación de una sola característica a un modelo de clasificación de múltiples características)
(1) Recuperación del modelo
De acuerdo con la incrustación de elementos del usuario, utilizamos una herramienta eficiente de recuperación de incrustaciones similar a Faiss para encontrar rápidamente elementos que coincidan con los intereses del usuario, lo que equivale a usar la fusión de múltiples funciones para construir un modelo de recuperación. .
En teoría, cualquier modelo supervisado que pueda ver se puede utilizar para crear este modelo de recuperación, como FM/FFM/DNN, etc. El llamado modelo de "torre gemela" a menudo se refiere a una estructura en la que el lado del usuario y el lado del artículo están integrados respectivamente, en lugar de un modelo específico.
Vale la pena señalar que si se utiliza la recuperación del modelo en la etapa de recuperación, teóricamente se deben adoptar al mismo tiempo los mismos objetivos de optimización que el modelo de clasificación, especialmente si se utiliza la optimización multiobjetivo en la clasificación. etapa, el modelo de recuperación también debe adoptarse en consecuencia la misma optimización multiobjetivo. De la misma manera, si todo el proceso incluye un módulo de clasificación aproximada, la clasificación aproximada también debe adoptar la misma optimización multiobjetivo que la clasificación fina, y los objetivos de optimización de varios enlaces deben ser consistentes. Debido a que la recuperación y la clasificación aproximada son procesos previos a la clasificación fina; de lo contrario, si los objetivos de optimización son inconsistentes, es probable que los objetivos de clasificación fina de alta calidad se filtren en la fase de preprocesamiento, lo que afectará el efecto general.
(2) Recuerdo de secuencia de comportamiento del usuario
El núcleo es: cómo definir esta función de agregación de elementos Diversión. Una cosa a tener en cuenta aquí es que los elementos de la secuencia de comportamiento del usuario están organizados en orden cronológico. Teóricamente, cualquier modelo que pueda reflejar características de series temporales o correlación local de características es adecuado para su aplicación aquí, como CNN, RNN, Transformer, GRU (modelo variante de RNN), etc. , Adecuado para integrar información de secuencia de comportamiento del usuario.
En la etapa de recuperación, cómo incrustar en función de la secuencia de comportamiento del usuario se puede utilizar un modelo supervisado, como el método de predicción de la siguiente predicción, también se puede utilizar un método no supervisado. Por ejemplo, siempre que el proyecto pueda integrarse, el contenido de la secuencia de comportamiento del usuario se puede integrar sin supervisión, como Sum Pooling.
(3) División de intereses múltiples del usuario (la práctica de incorporar los intereses del usuario utilizando secuencias de elementos de comportamiento del usuario)
(4) Recuperación de fusión de mapas de conocimiento
Según usuario Después de que las entidades de interés estén incrustadas y expresadas en el gráfico de conocimiento (o expandidas directamente en los nodos del gráfico de conocimiento), las entidades relacionadas se pueden expandir mediante la expansión del conocimiento o basándose en la incrustación de similitud.
(5) Recuperación del modelo de red neuronal de gráficos
El objetivo final de la red neuronal de gráficos es obtener la codificación incrustada de los nodos en el gráfico a través de ciertos medios técnicos. La herramienta de agregación incrustada más utilizada es CNN. Para un nodo de gráfico, su entrada puede tener dos tipos de información, uno es su propia información de atributos, como el ejemplo de Weibo citado anteriormente, el otro es información de estructura de gráfico, es decir, otros nodos que tienen asociaciones de borde directas con el nodo actual; . información. A través de CNN, se pueden codificar y agregar dos tipos de información para formar una integración de nodos gráficos. A través de agregadores de información como CNN, que calculan en los nodos del gráfico y actualizan repetidamente la incrustación de los nodos del gráfico, finalmente se puede obtener información confiable sobre la incrustación de los nodos del gráfico. Este proceso iterativo en realidad refleja el proceso en el que los nodos distantes transfieren información gradualmente a través de la estructura del gráfico, de modo que la estructura del gráfico puede transferir y complementar el conocimiento.
Podemos pensar más allá, dado que los nodos del gráfico pueden transportar información de atributos, como información del contenido del elemento, obviamente ayuda a resolver el problema del inicio en frío en el lado del elemento porque también permite que el conocimiento se transfiera a lo largo de mucho tiempo. las distancias en el gráfico, como los escenarios con menos comportamiento del usuario, pueden transferir y complementar el conocimiento, lo que indica que también es adecuado para escenarios de recomendación con datos escasos; por otro lado, los bordes en el gráfico a menudo están construidos por el comportamiento del usuario; El comportamiento del usuario es, estadísticamente hablando, esencialmente un mensaje colaborativo.
Por ejemplo, lo que solemos decir "el elemento A coopera con el elemento B" significa esencialmente que muchos usuarios actúan sobre el elemento A y luego actúan sobre el elemento B, por lo tanto, los gráficos tienen una buena ventaja: es conveniente combinar información de colaboración, información de comportamiento del usuario; Diversa información heterogénea, como la información de atributos de contenido, se integra en un marco unificado y se unifica y se caracteriza como incrustación. Esta es su ventaja única y es más natural de hacer. Otra ventaja única es la propagación de información en el gráfico, por lo que debería ser particularmente útil para los escenarios recomendados de arranque en frío y datos escasos.
Al principio, las redes neuronales de gráficos se utilizaban para hacer recomendaciones. Debido a que se necesitaba información global, la velocidad de cálculo era un problema y la escala del gráfico era a menudo pequeña y no tenía valor práctico. GraphSAGE utiliza algunos medios, como el muestreo de nodos cercanos, para reducir la escala de cálculo y acelerar el cálculo. De este trabajo se derivan muchos métodos para mejorar la eficiencia posterior al cálculo. Basado en GraphSAGE (completado por la misma persona), PinSage utiliza además la computación distribuida a gran escala para expandir la practicidad de la computación gráfica. Puede calcular el gráfico gigante de Pinterest de 3 mil millones de nodos y 65,438 + 0,8 mil millones de bordes, y generar un buen efecto de aterrizaje. . Entonces se puede aprender de estos dos trabajos.
En general, la recuperación de modelos gráficos es una dirección prometedora que vale la pena explorar.
Los objetivos de optimización del modelo reflejan lo que queremos que haga bien el sistema de recomendaciones, que suele estar relacionado con los objetivos comerciales. La discusión aquí es principalmente desde una perspectiva técnica, y la optimización de múltiples objetivos y la optimización de listas son actualmente las direcciones de evolución tecnológica más comunes. Los objetivos de optimización de tipo lista se pueden utilizar tanto en la etapa de clasificación como en la etapa de reordenamiento, por lo que los colocamos en la sección de reordenamiento. Aquí presentamos principalmente la optimización multiobjetivo;
La capacidad expresiva del modelo. si el modelo tiene una utilización completa La capacidad de funciones efectivas y combinaciones de funciones, incluidas combinaciones de funciones de visualización, nuevos extractores de funciones, la aplicación de tecnología de aprendizaje por refuerzo y la exploración automática de estructuras de modelos por parte de AutoML son direcciones obvias de evolución tecnológica.
Desde la perspectiva de las características y la información, cómo adoptar nuevos tipos de características más ricas, la expansión e integración de la información y las características son las principales direcciones de la evolución tecnológica, la separación de los intereses a largo y corto plazo. de los usuarios y la secuencia del comportamiento del usuario. La utilización de datos, las redes neuronales gráficas y la fusión multimodal son las principales tendencias tecnológicas en esta área.
1.1 Objetivo de optimización del modelo: optimización multiobjetivo
Estrictamente hablando, la optimización multiobjetivo de los sistemas de recomendación (optimizando simultáneamente los clics, las interacciones, la duración y otros objetivos) no es solo una tendencia. , pero es el estado actual de I + D de muchas empresas. Para los sistemas de recomendación, diferentes objetivos de optimización pueden obstaculizarse entre sí. El objetivo múltiple tiene como objetivo equilibrar la interacción entre diferentes objetivos. Si el efecto de optimización multiobjetivo es bueno, también tendrá un gran efecto de promoción en los resultados comerciales. En resumen, la optimización multiobjetivo es una dirección técnica digna de recomendación por parte del personal de I + D relacionado con el sistema.
Desde una perspectiva técnica, hay dos cuestiones clave en la optimización multiobjetivo. El primer problema es la estructura del modelo de múltiples objetivos de optimización; el segundo problema es cómo definir la importancia de los diferentes objetivos de optimización (cómo encontrar la optimización más allá de los parámetros).
2.1 Capacidad de expresión del modelo: combinación explícita de funciones
Si resume la historia de la evolución de los modelos CTR industriales, encontrará que la automatización de la ingeniería de funciones y la combinación de funciones siempre ha sido el motor. fuerza detrás de los sistemas de recomendación prácticos. No existe una dirección única más importante para la evolución tecnológica. El primer modelo LR es básicamente una combinación de ingeniería de características artificiales y combinación de características artificiales, que es simple y efectiva pero requiere mucho tiempo y mano de obra. Luego desarrolló la automatización de la combinación de características de alto orden de LR+GBDT y la automatización de la combinación de características de segundo orden del modelo FM. Luego se introduce el modelo DNN. El modelo DNN puro y simple en realidad se basa en incrustar las características del modelo FM y agregar varias capas ocultas de MLP para realizar una combinación automática no lineal implícita de características.
2.2 Capacidad de expresión del modelo: la evolución de los extractores de características
Desde la perspectiva de los extractores de características, el extractor de características más utilizado en los modelos de clasificación DNN convencionales sigue siendo la estructura MLP en la imagen. field, RNN y Transformer en los campos de CNN y PNL.
La estructura de MLP suele constar de dos o tres capas de capas ocultas de MLP. En la actualidad, también existen estudios teóricos que muestran que la estructura MLP es ineficiente para capturar combinaciones de características.
CNN es una estructura muy eficaz para capturar correlaciones de características locales, pero no es adecuada para modelos de recomendación con entrada de características pura, porque no existe una relación secuencial necesaria entre las características en el campo de recomendación, y CNN tiene una debilidad en su capacidad para capturar relaciones de características de larga distancia y la desventaja de que RNN no puede procesar en paralelo, por lo que es lento.
Como el extractor de funciones más reciente y eficaz en el campo de la PNL, Transformer es realmente muy adecuado para recomendaciones basadas en su mecanismo de trabajo. ¿Por qué dices eso? El núcleo reside en el mecanismo de autoenfoque de múltiples cabezales del transformador. La estructura MHA en PNL determinará la correlación entre dos palabras cualesquiera en la oración de entrada. Si esta relación se aplica al campo de recomendación, MHA se utiliza para combinar las características de cualquier característica. Como se mencionó anteriormente, la combinación de características es un vínculo muy importante para la recomendación, por lo que desde esta perspectiva, Transformer es particularmente adecuado para modelar la combinación de características. Una capa de bloques de transformación representa la combinación de características de segundo orden, y más bloques de transformación representan combinaciones de características de orden superior. Pero, de hecho, si se utiliza Transformer como recomendación, su efecto de aplicación no muestra ventajas obvias ni ninguna ventaja. Básicamente es ligeramente mejor o similar a la estructura MLP típica. Esto significa que quizás necesitemos transformar el Transformer de acuerdo con las características del dominio de recomendación, en lugar de copiar directamente la estructura en PNL.
Recorte una imagen de las otras imágenes del profesor sobre Transformers, lo cual es suficiente para explicar el significado de Transformers, pero todavía no lo entiendo muy bien, jaja ~
Aplicación AutoML en 2.3 sugerencias
p>AutoML comenzó a aparecer a principios de 2017 y se ha desarrollado vigorosamente en los últimos tres años. Se han logrado avances de investigación muy importantes en áreas como el procesamiento de imágenes y del lenguaje natural. En estas áreas, actualmente es posible encontrar mejores estructuras de modelos a través de AutoML que los diseños humanos.
2.4 Aplicación del aprendizaje por refuerzo en la recomendación
El aprendizaje por refuerzo en realidad está más en línea con el modelado de escenarios recomendado. En términos generales, el aprendizaje por refuerzo tiene varios elementos clave: estado, comportamiento y recompensa. En el escenario de recomendación, podemos definir el estado St como una colección de elementos del historial de comportamiento del usuario; el espacio de comportamiento opcional del sistema de recomendación es una lista de resultados recomendados recomendados al usuario en función del estado actual del usuario. Se puede ver aquí que el espacio de comportamiento del usuario en el escenario de recomendación es enorme, lo que restringe la aplicación de muchos métodos de aprendizaje por refuerzo que no pueden modelar el enorme espacio de comportamiento. La recompensa es el valor de comportamiento otorgado por el sistema de recomendación por la interacción del usuario con el contenido de la lista. Por ejemplo, puedes definir que cuando haces clic en un artículo, la recompensa es 1, cuando compras un artículo, la recompensa es 5... y así sucesivamente. Con la definición del escenario de estos elementos, podemos utilizar el aprendizaje por refuerzo típico para modelar recomendaciones.
3.1? Fusión de información multimodal
Técnicamente hablando, la fusión multimodal es esencialmente mapear información de diferentes tipos modales en uno mediante la incorporación de codificación y otros métodos para crear un espacio semántico unificado. información de diferentes tipos modales e información que expresa la misma semántica completamente comparable. Por ejemplo, la palabra "manzana" hablada en lenguaje natural y la imagen de una manzana deben codificarse mediante ciertos medios técnicos, como la incrustación. Estos medios técnicos tienen un alto grado de similitud, lo que significa diferentes modos de mapeo del conocimiento. mismo espacio semántico. De esta forma podrás buscar por texto fotografías que contengan manzanas, por ejemplo.
3.2? Separación de intereses a largo plazo/intereses a corto plazo
Para los sistemas de recomendación, es muy importante describir con precisión los intereses del usuario. Actualmente, existen dos formas principales de describir los intereses de los usuarios. Una es expresar el interés del usuario desde la perspectiva de las características del usuario, que también es la más común. La otra es utilizar el orden de los proyectos completados por el usuario como símbolo del interés del usuario.
Con respecto al reordenamiento de List Wise, podemos verlo desde dos perspectivas: una es el objetivo de optimización o la función de pérdida; la otra es la estructura del modelo del módulo de recomendación.
Sabemos que existen tres objetivos de optimización comunes para la clasificación de aprendizaje recomendada en el sistema: método de puntos, método de pares y método de lista. Entonces, primero debemos dejar claro que List Wise no se refiere a un modelo específico o un determinado tipo de modelo, sino a la definición del objetivo de optimización o función de pérdida del modelo. En teoría, se puede entrenar una variedad de modelos no utilizados utilizando pérdidas por lista. La definición más simple de la función de pérdida es punto por punto, es decir, ingresar las características del usuario y las características de un solo elemento, calificar los elementos y clasificarlos, es decir, quién debe clasificarse frente a quién, independientemente.
Evidentemente, este método es muy sencillo, directo y eficaz tanto en la formación como en el razonamiento online, pero su desventaja es que no tiene en cuenta la correlación directa de los ítems, lo que sí es útil en la clasificación. Cuando la pérdida por pares entrena el modelo, el modelo se entrena directamente a través de la relación secuencial entre los dos elementos. Es decir, el objetivo de optimización es que el elemento A tenga una clasificación más alta que el elemento B, similar a este objetivo de optimización. De hecho, la pérdida de Pair Wise se ha utilizado ampliamente en el campo de recomendación, como la pérdida de BPR, que es una función de pérdida de Pair Wise típica y muy efectiva. Se utiliza con frecuencia, especialmente en comentarios implícitos, y es un objetivo de optimización muy eficaz. La pérdida de List Wise presta más atención al orden de los elementos en la lista completa y considerará el orden de los elementos en la lista completa para optimizar el modelo. En recomendación, la función de pérdida List Wise es algo que muchos sistemas de recomendación están haciendo debido a la dificultad de los datos de entrenamiento, la velocidad de entrenamiento lenta, el razonamiento en línea lento, etc. Aunque todavía se usa relativamente raramente, presta más atención a la optimización general. de los resultados del ranking.
Desde la perspectiva de la estructura del modelo. Debido a que el módulo de reordenamiento a menudo se coloca después del módulo de clasificación fina, y el módulo de clasificación fina ha puntuado con precisión los elementos recomendados, la entrada del módulo de reordenamiento suele ser la salida con la puntuación más alta del módulo de clasificación fina, es decir, en orden. Las puntuaciones o clasificaciones de módulos finamente ordenados son información de referencia muy importante para reorganizar los módulos. Por lo tanto, el orden de salida de este módulo de clasificación es más importante. Los modelos que pueden considerar el orden de entrada son, naturalmente, la primera opción para reorganizar los modelos. Sabemos que los modelos más comunes para considerar series temporales son RNN y transformador, por lo que es natural utilizar estos dos modelos con frecuencia al reorganizar los módulos. La práctica común es ordenar los elementos en los primeros resultados. Como entrada para "RNN" o "Transformers", "RNN" o "Transformers" obviamente pueden considerar integrar las características del contexto del elemento actual, es decir, ordenar otros elementos en la lista y evaluar el efecto de toda la lista. Después de la fusión de características, la posición correspondiente de cada entrada del RNN o transformador genera nuevamente la puntuación de predicción y las entradas se reordenan de acuerdo con la nueva puntuación de predicción, completando así el propósito de fusionar información contextual y reordenar.
Materiales de referencia:
1. Tendencia evolutiva de la tecnología del sistema de recomendación: del retiro a la clasificación y la reorganización.
/p/100019681
2. Trabajo típico de recuperación de modelos:
Recuperación de modelos FM: Sistema recomendado para recuperar uno de los cuatro modelos: todo terreno. Modelo FM
Retiro de DNN Twin Towers: modelo neuronal de corrección de sesgo de muestreo para recomendación de proyectos de corpus grandes
3. Trabajo típico de recuperación de secuencia de comportamiento del usuario:
GRU: recomendación basada en sesiones Red neuronal recurrente de ganancia Top-k
CNN: recomendación secuencial Top-N personalizada mediante incrustación de secuencia convolucional
Transformers: recomendación secuencial autoenfocada
4. Trabajos típicos de recuperación de fusión de gráficos de conocimiento:
KGAT: red de atención de gráficos de conocimiento para recomendación
RippleNet: propagación de las preferencias del usuario en el gráfico de conocimiento del sistema de recomendación
5. Trabajo típico de recuperación del modelo de red neuronal gráfica:
GraphSAGE: aprendizaje de representación inductiva en gráficos grandes
PinSage: red neuronal convolucional gráfica para sistemas de recomendación a escala web
6. Trabajo típico de optimización multiobjetivo de modelos:
MMOE: uso de modelado híbrido experto multidisciplinario para modelar relaciones entre tareas en el aprendizaje multitarea
Optimización de Pareto: Algoritmo eficiente de Pareto para optimización multiobjetivo en recomendación de comercio electrónico.
7. Obra típica de combinación explícita de características:
Profundidad y amplitud.
Cross: predicción de clics publicitarios profundos y entre redes
XDeepFM: sistema de recomendación que combina interacción de funciones explícita e implícita
8. : Aprendizaje interactivo de funciones automáticas a través de redes neuronales de autoatención
DeepFM: un marco de aprendizaje profundo y de área amplia de extremo a extremo para la predicción de CTR
9. Extractor de características:/p/54743941
10, Aplicación recomendada de AutoML en trabajos típicos:
Búsqueda de estructura ENAS: AutoML en la aplicación de búsqueda de estructura de red de clasificación recomendada
Combinación de funciones bilineales: fipinet: combina la importancia de las funciones y la interacción de funciones bilineales para la predicción de la tasa de clics.
11. Trabajo típico del aprendizaje por refuerzo en aplicaciones de recomendación:
Youtube: Corrección de estrategia de desviación Top-K para sistemas de recomendación mejorados
Youtube: Basado en Slate Reinforcement. aprendizaje para sistemas de recomendación: una descomposición manejable y un enfoque práctico
12, trabajos típicos de fusión multimodal:
memorias DNN: recuperación personalizada de productos en el mercado de Facebook Aprendizaje profundo multimodal colaborativo.
Ordenar: Imagen Problema: Modelar visualmente el comportamiento del usuario utilizando un servidor de modelo avanzado.
13. Trabajo típico sobre la separación de intereses a largo y corto plazo:
1. Recomendación de noticias neuronales con representación de usuarios a largo y corto plazo.
2. Basado en recomendaciones de secuencia de atención y memoria a corto y largo plazo
14. Trabajo típico de reordenamiento de listas:
1.
2. Modelo de contexto basado en listas de aprendizaje profundo para refinar la clasificación