Make your own free website on Tripod.com

Recuperacion organizacion informacion metadatos documentos arquitectura bbdd buscadores recuperacion

Arquitectura de Bases de Datos para buscadores WEB

::--Wikipedia--::



Motor de búsqueda

Es la parte que vemos cuando realizamos la búsqueda. Después de introducirle una petición de búsqueda, el motor de búsqueda la coteja con la base de datos y devuelve una lista ordenada de las coincidencias. La lista está ordenada según la relevancia de la consulta colocándose primero las más coincidentes.

¿Cómo funciona un motor de búsqueda?

Básicamente, los motores de búsqueda (search engines, SE) son bases de datos gigantescas que contienen información sobre el contenido de los sitios web que integran la web. El motor de búsqueda más popular, Google, contiene más de 3.000.000.000 sitios web. Cuando introduces una frase o palabra, el motor buscará en su base de datos y devolverá resultados en un orden que estará determinado por su propio algoritmo.

Así pues, ¿cómo consiguen al principio toda esa información?

Arañas (spiders)

Los motores de búsqueda emplean el uso de arañas para recopilar la información de los sitios web. Las arañas rastrean los sitios web recopilando datos y siguen los enlaces que hay en las páginas. Las arañas rastrean Internet casi continuamente, recolectando las páginas nuevas y actualizadas de la Web para mantener sus resultados al día.

Tratamiento de Datos

Los datos que las arañas extraen son tratados de forma diferente por los diversos motores de búsqueda. Los motores de búsqueda ponen el 'peso' en diferentes componentes de un sitio web y en cómo se integra en la Web . De esta manera determinan el orden en el que los sitios web deben aparecer en los resultados de una búsqueda (las páginas que contienen los resultados de la búsqueda son llamadas comúnmente SERPS- search engine result pages).

Entrando

La mayoría de los motores de búsqueda ponen al día sus bases de datos al menos una vez al mes con la información recopilada por sus arañas. Esto es importante saberlo cuando se tiene un sitio web relativamente nuevo - si pones tu sitio web por primera vez en la red al final de un 'rastreo' y las arañas no lo encuentran, tendrás que esperar hasta la actualización siguiente para entrar a formar parte de la base de datos.

La mayoría de los SEs, como Google, también tienen lo que se llama listados frescos. Éstas son actualizaciones rápidas y cortas que generalmente no pondrán al día un sitio entero, pero agregarán las páginas nuevas y aquellas que hayan cambiado. Pueden agregar un sitio nuevo, aunque generalmente aparecerá temporalmente en los SERPS y después desaparecerá. Éste es comportamiento típico, y no hay nada de qué preocuparse. Los listados estables llevan tiempo.

 

Página realizada por: Sergio Holgado Jiménez - Abril de 2006


© 2006 RAI - UC3M