Buscadores: directorios e índices

INTRODUCCIÓN

Internet es el mayor proveedor de información existente en la actualidad. Uno de los principales problemas es cómo y dónde localizar la información deseada, al que se añade el cómo valorar esta información, puesto que en internet la información disponible es la que aportan las personas físicas y las personas jurídicas, en principio desinteresadamente.

Ante la inmensa cantidad de información accesible a través de la Red y la falta de unos catálogos centralizados de todos los recursos, resulta indispensable utilizar una serie de herramientas de búsquedas de información en internet y, especialmente, en el espacio WWW, que permitirán al usuarios encontrar el tipo concreto de información que desee en el menor tiempo posible. Los servidores que ofrecen estas herramientas suelen almacenar el contenido de un gran número de páginas y permiten realizar búsquedas, algunos sobre el contenido entero y otros sobre el contenido parcial de dichas páginas. La operatividad de estas herramientas de búsqueda depende de la calidad de la indexación de la información que se encuentre almacenada en los servidores.

Al conectar con una de esas herramientas de búsqueda nos encontraremos con una página que contiene un formulario para definir nuestra búsqueda, que consistirá, fundamentalmente, en indicar una o más palabras claves (entendiendo por palabras claves aquellas palabras que usamos para describir los conceptos o ideas que buscamos) donde figurará lo buscado, ordenados según su semejanza con las palabras claves introducidas, de manera que un "clic" sobre estos dirigirá el navegador a la página que contiene la información solicitada.

Es también habitual que, además de la búsqueda por contenido, estos servidores presenten un indice de temas, es decir, listas organizadas por temas y subtemas, en una estructura en forma de árbol, por las que el usuario puede navegar hasta encontrar los recursos Web pertenecientes a una determinada materia.

Estas herramientas de búsqueda, en forma de páginas web a las que se puede acceder con cualquier programa navegador, suelen ser gratuitas y muy fáciles de utilizar y disponen, por lo general, de información explicativa de su uso, acompañada de ejemplos que facilitan su aprendizaje. Además sus páginas web suelen presentar enlaces con otras herramientas de búsquedas.

Dos de esas herramientas son los motores de búsqueda (buscadores) y los directorios temáticos (índices temáticos). El objetivo común de estas herramientas es recuperar información contenida en las páginas web.

FORMAS DE BÚSQUEDA DE INFORMACIÓN

Motores de búsqueda:

Búsqueda automática empleando robots de búsqueda; no son los motores en sí, sino la parte más importante.
Bases de datos en la que se incluyen todos los términos indizados por el robot de búsqueda.
Interface a través del cual hacemos las consultas para recuperar la información

Índices temáticos:

Búsqueda no automática, sino manual.
Los directorios temáticos están realizados por otras personas que han hecho una selección de las páginas acordes con el tema.
En la búsqueda se parte de una clasificación humana.

PRESENTACIÓN DE LA INFORMACIÓN

Motores de búsqueda:

La información se presenta a través de una consulta que se hace a un sistema de interrogación, el cual nos devuelve un listado con las URLs del tema que queremos y una breve descripción del contenido de cada página web.

Índices temáticos:

Webs seleccionados previamente.
Los recursos vienen seleccionados en grupos temáticos de forma jerárquica, y el usuario pincha en los temas para profundizar.

FORMA EN QUE REALIZA LA CONSULTA

Motores de búsqueda:

La consulta la hace realizando una ecuación de búsqueda.

Índices temáticos:

Simple selección del tema afín al que queremos encontrar.

¿CUÁNDO UTILIZAR UNO U OTRO?

Cuando queremos encontrar un recurso muy concreto que no sabemos buscar, es mejor emplear un motor de búsqueda pues te lo encuentra automáticamente.

El problema que presenta es que salen muchos documentos que no son pertinentes.

Si buscamos información general sobre un tema de nuestro interés, es mejor hacerlo en un directorio temático, pues se decide el grado de profundización del tema en el que quieres buscar.

MOTORES DE BÚSQUEDA

Distinguir entre:

- MIRRORS: Servidores que ofrecen la misma información que el motor original pero en un idioma diferente.
Ej.: Altavista tiene MIRRORS en Malasia, Australia, Suecia y desde 1997, en España (Altavista Magallanes).

- VERSIONES: Son como los motores originales pero con ciertas variaciones.
Ej.: Infoseek tiene versiones reducidas en Francia, Alemania, España, etc.
Lycos también tiene versiones en Francia, Alemania, España, etc.

- Servicios de valor añadido: Incluyen o están incluidos en los motores de búsqueda. Cada vez más, los motores de búsqueda además de su estructura normal presentan también un directorio temático. Es imprescindible mostrar la ayuda para realizar una estrategia correcta de consulta con las técnicas de búsqueda.

- Servicios de páginas amarillas: Acceso a direcciones de empresas, instituciones,...

- Servicios de páginas blancas: Direcciones e-mail de las personas incluidas en la Base de Datos.

- Información de las actualizaciones de un tema.

PROCESO DE BÚSQUEDA DE INFORMACIÓN POR LOS MOTORES DE BÚSQUEDA

Buscan la información a través de los robots de búsqueda.

ROBOT DE BÚSQUEDA: Software/ programa que partiendo de una serie de páginas indicadas por sus creadores recorre la Red yendo de enlace en enlace y recogiendo todos los documentos que encuentra a su paso. También se llaman "rastreadores" o "spiders".

Cuando el robot llega a una página web...:

- Si ya ha estado antes, comprueba si ha habido modificaciones en las páginas y, si las hay, las señala
en las actualizaciones.

- Si es la primera vez que la visita, toma los datos de localización de las páginas e indiza la "página
entera".

Además de la página original, también va enganchando los links o enlaces que contiene esta página y, ya dependiendo del motor, puede profundizar a un tercer nivel, yendo a los enlaces de esas páginas.

La información encontrada por el robot es almacenada en una Base de Datos textual que aumenta con el volcado de las palabras que conforman las páginas web visitadas por el motor. La Base de Datos tiene un fichero invertido:

FICHERO INVERSO O INVERTIDO: fichero en el que las palabras apuntan a punteros o direcciones URL que remiten a las páginas con esas palabras.

La ventaja que tiene el que sea el robot el que rastree las páginas webs y que sea él el que las selecciones las palabras es que hay más objetividad.

Los inconvenientes son la insuficiente calidad en la selección, pues el robot no distingue los términos de mayor o menor riqueza informativa. también puede ocurrir que el robot produzca una gran saturación en los servidores Web por los que pasa, lo cual hace bajar su rendimiento.
Para que esta saturación no ocurra, algunos servidores Web no permiten la entrada de robots en sus páginas. Para impedir que un robot pasee por tus páginas (por unas razones u otras), hay dos formas:

PROTOCOLO DE EXCLUSIÓN DE ROBOTS: protocolo que permite a los servidores Web proteger total o parcialmente su servidor de un robot. Consiste en un fichero robot.txt que se incluye en el directorio raíz del servidor. Su contenido es un conjunto de instrucciones que excluyen la actuación de robots en el directorio raíz (prohiben robots).

CON ETIQUETAS META:

<META NAME="robots" CONTENT="noindex"> à Indica que no indice las palabras.
<META NAME="robots" CONTENT="nofollow"> à Que no pase por la web.

¿CÓMO INDIZAN LOS ROBOTS LAS PÁGINAS WEB?

Antes de las etiquetas meta:

El sistema más habitual que utilizaban consistía en recorrer el texto completo de las páginas web a las que accedía el robot. Se limitaban a ciertas partes del documento.

En la actualidad se vuelcan todas las palabras a la base de datos.

PROBLEMAS: La base de datos aumenta de manera desproporcionada y al recuperar los documentos se sobrecarga y al recuperar los documentos se sobrecarga la red.

Esta técnica del texto completo desde el punto de vista documental tiene también consecuencias negativas, por ejemplo, no hay discriminación con respecto al peso informativo.

Punto de vista informático: Técnica sencilla para el ordenador pero se pierde mucho tiempo porque el robot tiene ocupado el servidor y se sobrecarga la red.

Punto de vista Documental: No hay medida discriminatoria de términos (todos valen lo mismo).

En el segundo caso si establece un valor de discriminación del término desde el punto de vista de la parte de la página web en que se encuentra ese término. Sólo ocurre con ciertas partes del texto: título del documento, cabeceras principales, primeras líneas o párrafos de las páginas web.

Lycos pasa por el título, por la URL y por las primeras 20 líneas de la página.

A nosotros (Documentalistas) nos interesa que los robots extraigan la parte más importante (informativa) del documento. Para ello se aplican técnicas de frecuencia de aparición de términos en el documento pero relacionándolo con el conjunto de la Base de Datos.

DESPUÉS DE LAS ETIQUETAS META

Indizan los términos que constituyen el CONTENT de las etiquetas META:

Altavista pasa por <metaname = "keywords" o "descriptions"> etiquetas que añade el autor de la página.

A la hora de indizar es importante realizar correctamente las etiquetas META.
Por ejemplo: si usamos páginas web de Medicina en Description, no estaría mal pero sería más correcto emplear varios descriptores y palabras clave.

MULTIBUSCADORES

Son buscadores que lanzan la ecuación de búsqueda contra varios motores de búsqueda e índices de forma simultánea.

Isidro Aguilló (trabaja en el CINDOC) ha escrito varios artículos sobre este tema.

Tanto los buscadores como los multibuscadores con valor añadido=multibuscadores agrupan los resultados por direcciones URL.

Los METABUSCADORES son:

Metabuscador monomotor: buscador con valor añadido
Metabuscador multimotor: Multimotores.

Ejemplos:

- http://www.go2net.comlsearch.html (Metacrawler) lanza sus motores contra 9: Open text, Lycos, Infoseek, L. Galaxi,...

- SAWY-SEARCH: http://www.cs.cdostak.edu.: Contra 19 indicadores

- EASY PAGE: http://www.easypage.com

CLASIFICACIÓN DE ÍNDICES O DE DIRECTORIOS Y MOTORES

ÍNDICES O DIRECTORIOS

1ª CLASIFICACIÓN:

GEOGRÁFICO: permite buscar los recursos de la red por aproximación geográfica, ya que presentan la información gráficamente en forma de mapas o en formato texto, como listas de países, que a su vez se ramifican en regiones y éstas a su vez en ciudades. La búsqueda se realiza por acercamiento progresivo sobre estos mapas o sobre las listas, refinando la búsqueda hasta localizar el lugar deseado. Ejemplo: ¿Dónde?
TEMÁTICO: según los diferentes árboles de conocimiento. Ejemplo: LookSmart, Argus Clearinghouse
HÍBRIDO. Ejemplo: Yahoo!

OTRA CLASIFICACIÓN

DIRECTORIO DE DIRECTORIOS: listado temático o de índices geográficos ordenados por temas normalmente. Ej.: Clearinghouse es un directorio de directorios
SUPERÍNDICES: aquellos directorios que tienen indizada un número considerable de páginas web, por ejemplo: Lucksmarth recoge 250.000. También: Olé, Ozú,...
METAÍNDICES: Mezclan todos los recursos: Yahoo! mezcla dos anteriores y recoge 750.000 páginas web.

BUSCADORES O MOTORES DE BÚSQUEDA

Recurso	URL
Altavista	http://www.altavista.net
Altavista España	http://www.altavista.magallanes.net
HotBot	http://www.hotbot.com
Northerm Light	http://www.nlsearch.com
Excite	http://www.excite.com
InfoSeek	http://www.infoseek.go.com
Lycos	http://www.lycos.com
Open Text	http://www.pinstripe.oopentext.com
Sol	http://www.sol.es

ÍNDICES O DIRECTORIOS

Recurso	URL
Yahoo	http://www.yahoo.com
Dónde	http://www.uji.es
LookSmart	http://www.loksmart.com
Argus Clearinghouse	http://www.clearinghouse.net
Ozú	http://www.ozu.es
Olé	http://www.ole.es
Rex	http://www.rex.skyline.net

Trabajo realizado por:

    Pablo Reynolds Moreno
    Abraham Villar Calvino
    Gustavo Morán Martínez
    Marta Soriano Lobo
    Jose Ángel Rangél León
    Francisco Javier Benitez
    Antonio de Jesús Elias Garcia
    Lourdes García Retamar

Bibliografía:

FUENTES I PUJOL, Mª Eulàlia. La información en internet. Barcelona: CIMS, 1997.

MARTÍNEZ LÓPEZ, Francisco J...[et al]. Internet para investigadores. Huelva: Servicio de publicaciones de la Universidad de Huelva, 1997.