Recuperacion y acceso a la informacion - Arquitectura de Bases de Datos para buscadores WEB

Indice

Concepto de buscador Tipos de buscadores Base de datos Motor de búsqueda Principales buscadores

Temas de la Wikipedia

Algoritmos de Google, Yahoo! y MSN Bases de datos Clustering Credibilidad y redacción Evaluación de buscadores Herramientas SEO Interfaces y HCI Lenguaje Natural Lenguajes de recuperación Metadatos y documentos XML/RDF Modelos de recuperación Motores XML/RDF Sistemas de Question-Answering Trucos no legales Usabilidad y accesibilidad Web Semántica

Enlaces de interés

Universidad Carlos III Google Yahoo! MSN Wikipedia.org

Descárgate esta página

En formato .doc En formato .pdf

Componentes del grupo

Componentes

¿ Tienes alguna duda, consulta o sugerencia ?
Mándanos un email.

NOTA: Las validaciones se han realizado sin tener en cuenta los banners, publicidad y scripts generados por el servidor.

Tipos de buscadores

Existen varios tipos de buscadores, en función del modo de construcción y acceso a la base de datos, pero todos ellos tienen en común que permiten una consulta en la que el buscador nos devuelve una lista de direcciones de páginas web relacionadas con el tema consultado

Los buscadores se pueden clasificar en tres tipos principales y un grupo de buscadores menos importantes, según la forma de obtener las direcciones que almacenan en su base de datos. Cada tipo de buscador tiene sus propias características. Conocerlas puede ayudarnos a decidir cuál utilizar en función de las necesidades de nuestra búsqueda. No obstante, hoy en día todos los buscadores tienden a ofrecer el mayor número de servicios posible, con lo que sus ofertas de búsqueda se asemejan cada vez más, siendo difícil adivinar de qué tipo de buscador estamos hablando.

Los tipos de buscadores son:

Motores de búsqueda (Spiders)

Directorios Índices

Sistemas Mixtos spiders con un directorio

Otros motores buscadores, o

Los Spiders: La mayoría de grandes buscadores internacionales que todos usamos y conocemos son de este tipo. Requieren muchos recursos para su funcionamiento. No están al alcance de cualquiera.

Recorren las páginas recopilando información sobre los contenidos de las páginas. Principalmente el texto que en ellas aparece. Cuando buscamos una información en los motores, ellos consultan su base de datos, con la información que han recogido de las páginas, y nos la presentan clasificados por su relevancia. De las webs, los buscadores pueden almacenar desde la página de entrada, a todas las páginas de la web. Depende de los gustos del buscador, y la consideración de importancia que tenga la web para ellos.
Si buscamos una palabra, por ejemplo [ordenadores], en los resultados que nos ofrecerá el motor de búsqueda, aparecerán páginas que contengan esta palabra en alguna parte de su texto.
Si consideran que una web es importante para el usuario, tienden a registrarlas todas. Si no la consideran importante, solo almacenan una o mas páginas. Aunque no necesariamente registran todas las webs que lo soliciten.
Cada cierto tiempo, los motores revisan las webs, para actualizar los contenidos de su base de datos, por lo que no es infrecuente que los resultados de la búsqueda no estén actualizados, de forma que la información o la página no exista.
Los spiders, tienen una colección de programas simples y potentes con diferentes cometidos. Se suelen dividir en tres partes. Los programas que exploran la red -spiders-. Los que construyen la base de datos. Y los que utiliza el usuario, el programa que explora la base de datos.
La relevancia ó orden de presentación de los resultados de la consulta, viene determinada por diversos factores que dependen de cada buscador. El tráfico, puede ser un factor de relevancia. El tipo de web, y la información que contienen son otros factor importantes, debido al análisis que realizan del contexto.
Otro factor para la relevancia, común a muchos buscadores y sitios de internet, es: si pagamos para tener una mayor visibilidad en los resultados de la búsqueda. Es decir si les pagamos nos dan un bonus que nos permitirá aparecer en las primeras páginas de resultados. Esta forma de publicidad, ahora mismo, es indicada de alguna forma. Los spiders se han visto obligados a este tipo de publicidad para poder seguir ofreciendo a los usuarios el servicio de forma gratuita.
Ejemplos de Spiders: Google, Altavista, Hotbot, Lycos

Los Directorios: Una barata tecnología, que es ampliamente utilizada por la cantidad de programas scripts en el mercado. No se requieren muchos recursos de informática. Están muy extendidos en la red por estos motivos. En cambio, se requiere mas soporte humano y mantenimiento.

Son motores buscadores completamente distintos a los spiders. En estos, los algoritmos son mucho mas sencillos, presentando la información sobre las webs registradas como una colección de directorios. No recorren las webs ni almacenan sus contenidos. Solo registran algunos de los datos de nuestra página como el título y la descripción de la web que se introduzcan a la hora de registrar las webs.
Los resultados de la búsqueda, estarán determinados por la información que se haya suministrado al directorio cuando se registra la web. En cambio, a diferencia de los motores, son revisadas por operadores humanos, y clasificadas según categorías, de forma que es mas fácil encontrar webs de el tema de nuestro interés.
Mas que buscar información sobre contenidos de la página, los resultados serán presentados haciendo referencia a los contenidos y temática de la web. Es decir, si buscamos "ordenadores", aparecerán webs que de una forma u otra estén relacionados con la temática de ordenadores. Sus posibilidades de búsqueda de contenidos, en la mayoría de los casos, son inexistentes.
Su tecnología, es muy barata y sencilla. Imagínese que es una base de datos como la que usted utiliza, sobre la que se realizan búsquedas. Tiene un coste de operación relativamente alto, pues tiene que ser operado por humanos práctica y exclusivamente.
Son apropiados para buscar categorías, mas que informaciones específicas. Para visitar sitios de temática común. Es la tecnología que utilizan portales y buscadores de sectores especializados como economía, derecho, naturaleza, deportes, famosos, humanidades, .. ..
Ejemplos de directorios: Antigus directorios, Yahoo, Terra (Antíguo Olé). Ahora, ambos utilizan tecnología spider, y Yahoo, conserva su directorio. Buscar Portal, es un directorio, y la mayoría de motores hispanos son directorios.

Los sistemas mixtos, Buscador - Directorio: Son una mezcla entre buscadores y directorio. Además de tener características de buscadores, presentan las webs registradas en catálogos sobre contenidos. Informática, cultura, sociedad. Que a su vez se dividen en subsecciones.
Ejemplo de sistema mixto Excite, Voila, Infoseek. Los motores en la actualidad, suelen tender hacia sistemas mixtos como ha ocurrido con Altavista.

Metabuscadores. En realidad, no son buscadores. Lo que hacen, es realizar búsquedas en auténticos buscadores, analizan los resultados de la página, y presentan sus propios resultados. No suelen ser bien venidos por los buscadores. Para utilizar los servicios gratuitos de un buscador de esta forma, es necesario pedir permiso. El motivo es el siguiente: El buscador, pone el dinero para operar el servicio, los contenidos que utilizará el metabuscador, y no percibe nada a cambio. Al eliminar la publicidad, no se obtienen ingresos. Solo gasto y pérdida de visitantes que utilicen este servicio de búsqueda.

FFA Enlaces gratuitos para todos FFA, página de enlaces gratuitos para todos. Cualquiera puede inscribir su página durante un tiempo limitado en estos pequeños directorios. Los enlaces, no son permanentes.

Bajo este título, englobamos los buscadores específicos de sitio. Aquellos que buscan información solo en su portal o sitio web. Podríamos considerarlos como un directorio. No obstante, como están basados en expresiones regulares y consultas SQL, vamos a intentar ayudarles a manejar mejor estas herramientas.
Si trabaja en temas de administración, sabrá por experiencia la necesidad de conocer bien estos buscadores, a los que no se da la importancia que requieren.

Los spiders, son mejores para encontrar informaciones concretas en páginas de una web, como frases: [ humor sobre políticos ] aunque la temática de la página no sea de humor.

Los directorios, son mejores para encontrar webs de determinada temática: [ humor ]. Todas las webs estarán relacionadas con el humor.

Página realizada por: Sergio Holgado Jiménez - Abril de 2006