¿Qué son los robots de los motores de búsqueda?
Déjame contarte otra técnica famosa.
Por supuesto, la tecnología más famosa y patentada es la tecnología de relaciones públicas de Google.
Es posible que hayas oído que el invento revolucionario de Google fue su algoritmo de clasificación de páginas web llamado "Page Rank", que resolvió por completo el problema de clasificar los resultados de búsqueda. De hecho, esta no es la primera vez que Google intenta clasificar muchos sitios web en Internet. Yahoo! La empresa primero permitió a los usuarios buscar información en Internet mediante la clasificación de directorios. Sin embargo, debido a las limitaciones en la capacidad y velocidad de la computadora en ese momento, Yahoo! Otros motores de búsqueda contemporáneos comparten un problema común: incluyen muy pocas páginas web y sólo pueden indexar las palabras reales de las páginas web que son relevantes para el contenido común. A los usuarios les resultó difícil encontrar información muy relevante en ese momento. Recuerdo que antes de 1999 tenía que cambiar varios motores de búsqueda para encontrar un artículo. Posteriormente, DEC desarrolló el motor de búsqueda AltaVista, que utilizaba solo un servidor ALPHA pero incluía más páginas web que el motor anterior e indexaba cada palabra en ellas. Aunque AltaVista permite a los usuarios buscar una gran cantidad de resultados, la mayoría de los resultados son irrelevantes para la consulta y, a veces, se necesitan varias páginas para encontrar la página web que desea ver. Así que el AltaVista original resolvió el problema de cobertura hasta cierto punto, pero no clasificó muy bien los resultados.
¿Qué pasa con el “ranking de página” de Google? De hecho, se trata de una simple votación democrática. Por ejemplo, cuando preguntamos por el Dr. Kai-Fu Lee, cien personas levantaron la mano y dijeron que eran Kai-Fu Lee. Entonces, ¿quién es real? Realmente podría haber varios, pero aun así, ¿a quién estás buscando realmente? :-) Si lo que todo el mundo dice sobre Google es cierto, entonces es cierto.
En Internet, si una página web está vinculada a muchas otras páginas web, lo que indica que es generalmente reconocida y confiable, entonces su clasificación será alta. Ésta es la idea central del ranking de páginas. Por supuesto, el algoritmo de clasificación de páginas de Google es en realidad mucho más complejo. Por ejemplo, los enlaces de diferentes páginas web se tratan de forma diferente. Los enlaces con clasificaciones más altas en su propia página web son más confiables, por lo que se les da mayor peso. Page Rank ha considerado este factor y ahora el problema vuelve a surgir. En el proceso de calcular la clasificación de los resultados de búsqueda, es necesario clasificar sus propias páginas web. ¿No es ésta una cuestión del huevo o la gallina?
Larry, ¿los dos fundadores de Google? 6?1 Larry Page y Sergey? 6? Sergey Brin (1) convirtió este problema en un problema de multiplicación de matrices bidimensionales y lo resolvió mediante un método iterativo. Primero suponen que las clasificaciones de todas las páginas web son las mismas, según este valor inicial, calculan la clasificación de la primera iteración de cada página web y luego calculan la segunda clasificación según la clasificación de la primera iteración. Los dos demostraron teóricamente que no importa cómo se elija el valor inicial, este algoritmo garantiza que los valores estimados de clasificación de la página web puedan converger a sus valores reales. Cabe mencionar que este algoritmo no requiere intervención humana alguna.
El problema teórico se resolvió, pero se encontraron problemas prácticos. Debido a que hay una gran cantidad de páginas web en Internet, la matriz bidimensional mencionada anteriormente tiene teóricamente múltiples elementos iguales al cuadrado del número de páginas web. Si asumimos que hay mil millones de páginas web, entonces esta matriz tiene mil millones de elementos. Multiplicar matrices tan grandes requiere una gran cantidad de cálculos. Larry y Sergey utilizaron técnicas de cálculo de matrices dispersas para simplificar enormemente la cantidad de cálculo e implementar este algoritmo de clasificación de páginas web. Ahora, los ingenieros de Google han trasplantado este algoritmo a una computadora paralela, acortando aún más el tiempo de cálculo y haciendo que el ciclo de actualización de la página web sea mucho más corto que antes.
Cuando llegué a Google, Larry habló con varios de nuestros nuevos empleados sobre cómo él y Sergey idearon el algoritmo de clasificación de páginas. Dijo: "En ese momento, sentimos que Internet era como una imagen grande, cada sitio web era como un nodo y el enlace de cada página web era como un arco. Creo que Internet se puede describir con un gráfico o matriz, y podría usarla. Escribiré una tesis doctoral sobre este descubrimiento”. Así que él y Sergey inventaron el algoritmo Page Rank.
Lo bueno del ranking de páginas web es que analiza Internet en su totalidad. Inconscientemente se ajusta a la perspectiva de la teoría de sistemas.
Por el contrario, la recuperación de información anterior consideraba principalmente cada página web como un individuo independiente. Inicialmente, muchas personas solo se centraban en la correlación entre el contenido de la página web y las declaraciones de consulta, ignorando la relación entre las páginas web.
Hoy en día, el motor de búsqueda de Google es mucho más sofisticado y sofisticado que su homólogo original. Pero la clasificación de las páginas sigue siendo importante en todos los algoritmos de Google. En el mundo académico, el algoritmo es reconocido como una de las mayores contribuciones a la recuperación de documentos y se ha introducido en cursos de recuperación de información en muchas universidades.