La Red de Conocimientos Pedagógicos - Currículum vitae - Documento de hermana sobre problemas de contraseñas

Documento de hermana sobre problemas de contraseñas

Las fórmulas y los caracteres especiales aún no se han traducido. Por favor, compruébelo usted mismo. Espero que esto ayude:

Algoritmo de matriz no negativa

Factorización

Li Rengang

Bell Labs

Lucent Technologies

Murray Hill, NJ 07974

H. Sebastian Cheng

El cerebro y el tren de engranajes. SCI.

Instituto Tecnológico de Massachusetts

Cambridge, MA 02138

Resumen

La factorización matricial no negativa (NMF) se ha demostrado previamente Pasar .

Es una descomposición útil de datos multivariados. Dos diferentes——

Análisis del algoritmo NMF de ventilador plegable. Son ligeramente diferentes.

El factor de multiplicación utilizado para actualizar la regla. El algoritmo puede

Para reducir el error de mínimos cuadrados tradicional, etc.

La divergencia generalizada de Kullback-Leibler se puede minimizar. Monótono

La convergencia de ambos algoritmos se puede demostrar utilizando una función auxiliar -

El método es similar a la convergencia esperada utilizada para la prueba -

Algoritmo de maximización . Los algoritmos también se pueden interpretar como diagnósticos: siempre que el descenso del gradiente esté bien ajustado, el factor de escala es el mejor.

Seleccione para garantizar la convergencia.

1 Introducción

Algoritmos de aprendizaje no supervisados, como el análisis de componentes principales y la cuantificación vectorial:

La cuantificación puede entenderse como la descomposición de una matriz de datos bajo diferentes restricciones. Los factores que representan tiempos de espera "inactivos" para limitar la utilización pueden ser muy diferentes: representaciones diferentes del rendimiento. El análisis de componentes principales funciona débilmente, o:

Las restricciones de ortogonalidad en la función de onda conducen a la cancelación en la representación completamente distribuida.

Generar mutaciones, [1, 2]. La cuantificación vectorial, por otro lado, tiene un gran ganador: dividir todas las restricciones en prototipos mutuamente excluyentes [3].

Anteriormente hemos demostrado que la factorización matricial no negativa es una restricción útil.

Puedes aprender algunas representaciones en los datos [4, 5]. Vectores alcalinos no negativos.

La combinación distribuida pero aún escasa utilizada produce el rendimiento.

Reconstrucción [6, 7]. En este artículo analizamos dos algoritmos numéricos.

Aprenda los factores óptimos no negativos a partir de los datos.

2 Factorización de matrices no negativas

Consideramos formalmente este algoritmo para resolver el siguiente problema:

La factorización de matrices no negativas (NMF) proporciona una matriz no negativa.

y factores de matrices no negativas.

y

así:

1. NMF se puede aplicar al análisis estadístico de datos multivariados de las siguientes maneras.

Dado un conjunto de vectores de datos multidimensionales, los vectores se colocan en la

matriz

cilindro

donde

En algunos casos es un conjunto de datos. Esta

matriz luego se descompone en una aproximación.

Matriz

Primero

Matriz

Usualmente elige menos que o

Qué dijiste

y

que la

matriz

original. Este resultado es una versión comprimida de la matriz de datos original.

¿En el significado general de la ecuación? ¿Qué significa (1)? Puede sobrescribir la columna.

Los pilares

donde

y

tienen columnas correspondientes

y

. De lo contrario,

en caso afirmativo, cada vector de datos

se aproxima mediante una combinación lineal de columnas

ponderadas por sus componentes. Por lo tanto, se puede considerar que cubre lo básico.

Se trata de una optimización de aproximación lineal de los datos.

. Dado que hay relativamente pocos vectores subyacentes para representar muchos vectores de datos, sólo se pueden lograr buenas aproximaciones.

Si se encuentra una estructura latente en los datos del vector base.

¿Este documento aplica NMF y se centra en la técnica:

Factorización matricial no negativa? Tecnología de búsqueda. Por supuesto, otros tipos de caballos (

La factorización matricial se ha estudiado ampliamente en álgebra lineal numérica, pero no es así)

Las restricciones negativas hacen que gran parte del trabajo previo no sea aplicable a este caso.

8.

Aquí analizamos dos algoritmos NMF basados ​​en actualización iterativa.

y

. Porque

Este es un algoritmo simple y su convergencia está garantizada.

Los encontramos muy útiles en aplicaciones prácticas. ¿Podrían otros algoritmos

ser más eficientes? ¿El tiempo total de cálculo es suficiente, pero también es difícil? Posibilidad de implementación de Cult

No se extiende a diferentes funciones de costos. Nuestro algoritmo tiene sólo una similitud.

Este factor se aplica a la deconvolución utilizada anteriormente para la tomografía por emisión.

E imágenes astronómicas [9, 10, 11, 12].

En cada iteración del algoritmo se obtiene un nuevo valor.

O

fue descubierto.

Algunos factores dependen del valor actual de la masa aproximada de la ecuación (1). Nosotros

demostramos que las propiedades y aplicaciones aproximadas están mejorando monótonamente.

Estas multiplicaciones actualizan las reglas. En la práctica, esto significa iteración.

Actualizar reglas para garantizar la convergencia a una factorización matricial óptima local.

La función de coste de 3

¿Es correcta? Nd factorización aproximada

Primero, ¿nosotros? ¿necesidad? Función de costes de NE

Cuantifica la calidad de la aproximación. Esta función de costos se puede construir

usando alguna medida, la distancia entre dos matrices no negativas

y

. Una medida útil es la distancia euclidiana entre cuadrados.

Éste es el límite inferior de cero si y sólo si desaparece localmente.

y

13.

2.

Otra medida útil

3.

Esto también es como el punto cero del límite inferior de la distancia euclidiana, aunque sólo sea y desaparezca.

Si

. Pero no se le puede llamar "distancia" porque es asimétrica.

y

Por eso lo llamamos "divergencia"

de

. Reduce la distancia de Culbeck-Leibler

divergencia, o entropía relativa, cuando

qué dices

y

puede

utilizarse como una distribución de probabilidad estandarizada. Consideremos ahora la optimización de dos formulaciones de NMF:

1 problema de minimización

con respecto a

y

ligado

p>

Problema de minimización de 2

relativo a

y

limitado

a pesar de la funcionalidad

y

son convexos.

Sólo o

Sólo ellos

Estas dos variables no son convexas. Por tanto, las expectativas sobre los algoritmos no son realistas.

¿Resolver los problemas 1 y 2? Una sensación de encontrar el mínimo global. Sin embargo, hay muchos

Desde la perspectiva de la optimización numérica, ¿se puede aplicar? y mínimos locales.

El descenso de gradiente es probablemente la forma más sencilla de implementarlo, pero la convergencia puede ser

más lenta. Otros métodos, como el método del gradiente de yugo, convergen más rápido, al menos hasta mínimos locales cerca de

, pero son más complejos de implementar que el descenso de gradiente.

8. Los métodos basados ​​en gradientes también son desventajosos.

Sensible a la elección del tamaño del paso, pero no conveniente para aplicaciones a gran escala.

4 reglas de actualización multiplicativa

Descubrimos que la siguiente "regla de actualización multiplicativa" es un buen compromiso.

Resuelve los problemas 1 y 2 en rapidez y facilidad de implementación.

La distancia euclidiana del Teorema 1

Según las reglas actualizadas, es negativa.

4.

La distancia euclidiana es constante si y sólo si se realizan estas actualizaciones.

La distancia del punto fijo.

y

están en el mismo lugar

Divergencia del teorema 2

Según la regla actualizada, es negativa.

5.

Las diferencias son constantes y estas actualizaciones son necesarias y sólo necesarias.

y

están en puntos de divergencia fijos

.

Las demostraciones de estos teoremas se darán en los capítulos siguientes. Ahora, notamos que cada actualización

se multiplica por un múltiplo. Especialmente viendo esto de primera mano.

Cuando se unifican los factores multiplicativos

¿Es necesaria esta reconstrucción perfecta

A? Actualizar puntos de regla para XED.

Actualización de las reglas de multiplicación y suma de 5

Es útil comparar la actualización de estas multiplicaciones con el descenso de gradiente.

14. En particular, se ha actualizado un aditivo sencillo.

Reducir la distancia al cuadrado se puede

escribir como

6.

Si

se igualan a algunos números positivos pequeños, es equivalente a la tradición.

Descenso en gradiente. ¿Siempre y cuando el número sea lo suficientemente pequeño? , las actualizaciones deberían reducirse.

. Si escalamos variables y configuraciones en diagonal,

7.

Las reglas de actualización que obtenemos.

Esto da el Teorema 1. Tenga en cuenta que el componente positivo de este gradiente de proporción resulta del factor de multiplicación de la religión sectaria, sino más bien del valor absoluto del componente negativo del numerador del primer factor de suma.

Divergencia, forma de descenso de gradiente escalada en diagonal

8.

Del mismo modo, si

es pequeño y positivo, esta actualización debería reducirse.

. Si ahora

recopilamos

9.

Las reglas de actualización que obtenemos.

Esto da el Teorema 2. Este ajuste también se puede realizar.

Interpretado como una regla de multiplicación con la componente positiva del gradiente.

El denominador y el componente negativo sirven como numerador del factor multiplicativo.

Debido a que nuestra elección

no es pequeña, no parece haber garantía.

Una disminución en el gradiente de ajuste conduce a una disminución en la función de costos. Sorprendentemente, esto es

De hecho, esta situación se tratará en la siguiente sección.

Demostración de convergencia de 6

Para probar el teorema 1 y el teorema 2, usaremos una función auxiliar similar a usar.

En el algoritmo de maximización de expectativas [15, 16].

¿Alemania? La definición 1

es una función auxiliar.

Si condición

10.

¿Ambos? Versión.

La accesibilidad es un concepto útil y, debido al siguiente lema, también lo es.

Figura 1 Diagrama esquemático.

1 Si Lemma

es una función auxiliar, entonces

Es una actualización sustractiva

11.

Prueba:

Tenga en cuenta que

solo

es un mínimo local.

. Si la derivada

con respecto a

existe y persiste

en una pequeña comunidad, esto también significa que la

derivada

p>

. Por lo tanto, al actualizar iterativamente la ecuación (11), obtenemos una secuencia.

La estimación converge a un mínimo local.

Objetivo

Función:

12.

¿Probaremos a Alemania? Las funciones auxiliares apropiadas

II

y

Teorema 1, reglas de actualización y 2 siguen fácilmente la siguiente fórmula (11). Compartir con: 14000 gramos (alto, alto)

Hembra (masculino)

HT HT 1

Figura 1: Accesibilidad minimizada

Para

Si Lema

Matriz diagonal positiva

HMIN

H

Garantizado

13.

Entonces

14.

Es una función auxiliar.

15.

Prueba: de

Obviamente, sólo nos falta demostrar

. Con

Para esto, comparamos

16.

¿Usar la fórmula (14)? Encontrado

Competente

17.

1

18.

Este es un componente de zoom.

¿Semimedio? Si y solo por la noche.

Sí, también los hay

. Entonces

sé positivo.

19.

20.

21.

22.

23.

1

También puedes probar esto

¿Mitad positiva? Matriz de consideración finita

. Entonces

es un vector propio positivo.

Con

La aplicación de valores propios unificados y el teorema de Frobenius Perron muestra que la Ecuación 17 se cumple. Compartir con: 14000 Ahora podemos demostrar la convergencia del Teorema 1:

Reemplazo de prueba del Teorema 1

La fórmula dependiente (14) es una función auxiliar,

En la fórmula (11), el resultado de actualizar la regla en la fórmula (14) es:

24.

Esto es según la regla de actualización negativa, según el

Lema 1. La composición de esta ecuación es clara y obtenemos

25.

A través del efecto de torsión

y

Lema 1 y 2,

Esto también se puede demostrar

Bajo la regla de resta actualizada

Consideramos ahora las siguientes funciones auxiliares de la función de costos divergentes:

Lema 3 de NE

26.

27.

Esta es una función auxiliar

28.

Prueba: Se trata de una verificación sencilla.

. Mostrar

Desigualdades obtenidas explotando la convexidad de funciones logarítmicas.

29.

Todos los tanques de carga no negativos

Ese tipo de uniformidad. Establecer

30.

Lo que tenemos

31.

De esta desigualdad derivamos el siguiente

Teorema 2, y luego de aplicar el Lema 1:

Demostración del Teorema 2: Valor mínimo

Relativo a

estableciendo

el gradiente en cero:

32.

Por lo tanto, la regla de actualización de la ecuación tiene la forma (11).

33.

Self

es una función auxiliar,

resta esta actualización de la ecuación (28). Reescribir:

La forma matricial de diez es equivalente a la regla de actualización de EQ (5). A través de los efectos de la torsión

y

, también se puede demostrar que la regla de actualización

es negativa. 7 Discusión

Demostramos su aplicación en la actualización de reglas de ecuaciones. (4) y (5) garantizados

¿Preguntas 1 y 2? Encontrar soluciones al menos localmente óptimas. Convergencia

¿Depende de la prueba? Ning características de accesibilidad apropiadas. Nuestro trabajo actual

Estos teoremas se generalizan a restricciones más complejas.

La regla de actualización en sí

El cálculo es muy simple y probablemente será utilizado por otros.

Varias aplicaciones.

Agradecemos a Bell Labs por su apoyo. También nos gustaría agradecer a Carlos

Braudy, Ken Clarkson, Corinna Cortez, Roland Freund, Linda Kaufman, Yan Lecun, Sa Mu.

Journal, Larry Sauer y Margaret Wright por sus útiles debates.

Libros de referencia

[1] Jolliffe, it (1986). Análisis de componentes principales. Nueva York: Springer-Verlag.

[2]Türkiye, Adquisición de Pentland, I (1991). Cuenta con reconocimiento facial. j. Neurociencia del entendimiento mutuo. 3, 86, 71–.

[3]Gesau, Gray, RM (1992). Compresión de señal cuantificada vectorial. Academia China de Ciencias.

Empresa editorial.

4 Li Dadong y Cheng, Sociedad de Vivienda. Aprendizaje no supervisado mediante codificación de cono convexo (1997). Actas

En la novena conferencia sobre sistemas de procesamiento de información neuronal, 515–521.

5 Li Dadong y Cheng, Sociedad de Vivienda (1999). Parte del objeto de aprendizaje de factorización matricial no negativa:

También Ash. Bienes raíces 401, 788–791.

[6] Campo, DJ (1994). ¿Cuál es el propósito de la codificación sensorial? Computación neuronal. 6.601.559–.

[ 7 ] Fordiak, P & Yang, M (1995) Codificación en la corteza cerebral escasa de primates. El manual del cerebro.

Teoría y redes neuronales, 895–898. MIT Press, Cambridge, MA.

[8] Editor, W. H., S. S., Wittling, W. & Flannery, BP (1993). Métodos numéricos: ¿el arte

Computación científica? C. (Cambridge University Press, Cambridge, Reino Unido).

[9] Nishiura, La y Vardy, Y (1982). Reconstrucción de máxima verosimilitud de la tomografía por emisión.

Transacciones IEEE.113–2, 122.

[10] Richardson, Quién (1972). Método iterativo de restauración de imágenes basado en red bayesiana. j.Seleccione. SOC.

I. 62, 59, 55–.

Lucía, LB (1974). ¿Distribución observada? Tecnología de iteración de cationes. astronomía.

74, 745–754.

[12] CA Berman y K. Sauer (1996). ¿Una universidad? Optimización del descenso mediante métodos de tomografía estadística de coordenadas

. Transacciones IEEE sobre procesamiento de imágenes. 5, 492, 480–.

[13] Patero, P y T, U (1997). Análisis factorial robusto no negativo formulado con el método de mínimos cuadrados:

Econometría. inteligencia. Experimento 37, 23–35.

Kivinen y Wormuth, J, M (1997). Predicciones lineales

actualizadas con gradiente de potencia y aditivos. Revista de Información y Computación 132, 1–64.

Dempster, Laird, AP, Nano & Rubin, DB (1977). Método de máxima verosimilitud para datos incompletos

Algoritmo EM. Sistema estadístico real. 39, 38, 1–.

Sauer, L y Pereira, F. Lenguaje estadístico

Procesamiento de modelos de Markov aglomerativos y de orden mixto. C. Heart y R. Wei Scheedel (Eds.). Actas de la Segunda Conferencia

Métodos empíricos en el procesamiento del lenguaje natural, 81–89. Prensa ACL