INTRODUCCIÓN
 
        Internet es el mayor proveedor de información existente en la actualidad. Uno de los principales problemas es cómo y dónde localizar la información deseada, al que se añade el cómo valorar esta información, puesto que en internet la información disponible es la que aportan las personas físicas y las personas jurídicas, en principio desinteresadamente.

        Ante la inmensa cantidad de información accesible a través de la Red y la falta de unos catálogos centralizados de todos los recursos, resulta indispensable utilizar una serie de herramientas de búsquedas de información en internet y, especialmente, en el espacio WWW, que permitirán al usuarios encontrar el tipo concreto de información que desee en el menor tiempo posible. Los servidores que ofrecen estas herramientas suelen almacenar el contenido de un gran número de páginas y permiten realizar búsquedas, algunos sobre el contenido entero y otros sobre el contenido parcial de dichas páginas. La operatividad de estas herramientas de búsqueda depende de la calidad de la indexación de la información  que se encuentre almacenada en los servidores.

        Al conectar con una de esas herramientas de búsqueda nos encontraremos con una página que contiene un formulario para definir nuestra búsqueda, que consistirá, fundamentalmente, en indicar una o más palabras claves (entendiendo por palabras claves aquellas palabras que usamos para describir los conceptos o ideas que buscamos) donde figurará lo buscado, ordenados según su semejanza con las palabras claves introducidas, de manera que un "clic" sobre estos dirigirá el navegador a la página que contiene la información solicitada.

        Es también habitual que, además de la búsqueda por contenido, estos servidores presenten un indice de temas, es decir, listas organizadas por temas y subtemas, en una estructura en forma de árbol, por las que el usuario puede navegar hasta encontrar los recursos Web pertenecientes a una determinada materia.

        Estas herramientas de búsqueda, en forma de páginas web a las que se puede acceder con cualquier programa navegador, suelen ser gratuitas y muy fáciles de utilizar y disponen, por lo general, de información explicativa de su uso, acompañada de ejemplos que facilitan su aprendizaje. Además sus páginas web suelen presentar enlaces con otras herramientas de búsquedas.
 
Dos de esas herramientas son los motores de búsqueda (buscadores) y los directorios temáticos (índices temáticos). El objetivo común de estas herramientas es recuperar información contenida en las páginas web.

 
 
FORMAS DE BÚSQUEDA DE INFORMACIÓN
 
     
 
PRESENTACIÓN DE LA INFORMACIÓN
 
     
 
FORMA EN QUE REALIZA LA CONSULTA
 
     
 
¿CUÁNDO UTILIZAR UNO U OTRO?
 
Cuando queremos encontrar un recurso muy concreto que no sabemos buscar, es mejor emplear un motor de búsqueda pues te lo encuentra automáticamente.

El problema que presenta es que salen muchos documentos que no son pertinentes.

Si buscamos información general sobre un tema de nuestro interés, es mejor hacerlo en un directorio temático, pues se decide el grado de profundización del tema en el que quieres buscar.
 
 
MOTORES DE BÚSQUEDA
 
Distinguir entre:

- MIRRORS: Servidores que ofrecen la misma información que el motor original pero en un idioma diferente.
Ej.: Altavista tiene MIRRORS en Malasia, Australia, Suecia y desde 1997, en España (Altavista Magallanes).

- VERSIONES: Son como los motores originales pero con ciertas variaciones.
Ej.: Infoseek tiene versiones reducidas en Francia, Alemania, España, etc.
      Lycos también tiene versiones en Francia, Alemania, España, etc.

- Servicios de valor añadido: Incluyen o están incluidos en los motores de búsqueda. Cada vez más, los motores de búsqueda además de su estructura normal presentan también un directorio temático. Es imprescindible mostrar la ayuda para realizar una estrategia correcta de consulta con las técnicas de búsqueda.

- Servicios de páginas amarillas: Acceso a direcciones de empresas, instituciones,...

- Servicios de páginas blancas: Direcciones e-mail de las personas incluidas en la Base de Datos.

- Información de las actualizaciones de un tema.
 
 
PROCESO DE BÚSQUEDA DE INFORMACIÓN POR LOS MOTORES DE BÚSQUEDA
 
Buscan la información a través de los robots de búsqueda.

ROBOT DE BÚSQUEDA: Software/ programa que partiendo de una serie de páginas indicadas por sus creadores recorre la Red yendo de enlace en enlace y recogiendo todos los documentos que encuentra a su paso. También se llaman "rastreadores" o "spiders".

Cuando el robot llega a una página web...:

        - Si ya ha estado antes, comprueba si ha habido modificaciones en las páginas y, si las hay, las señala
            en las actualizaciones.

        - Si es la primera vez que la visita, toma los datos de localización de las páginas e indiza la "página
            entera".

Además de la página original, también va enganchando los links o enlaces que contiene esta página y, ya dependiendo del motor, puede profundizar a un tercer nivel, yendo a los enlaces de esas páginas.

La información encontrada por el robot es almacenada en una Base de Datos textual que aumenta con el volcado de las palabras que conforman las páginas web visitadas por el motor. La Base de Datos tiene un fichero invertido:

FICHERO INVERSO O INVERTIDO: fichero en el que las palabras apuntan a punteros o direcciones URL que remiten a las páginas con esas palabras.

La ventaja que tiene el que sea el robot el que rastree las páginas webs y que sea él el que las selecciones las palabras es que hay más objetividad.

Los inconvenientes son la insuficiente calidad en la selección, pues el robot no distingue los términos de mayor o menor riqueza informativa. también puede ocurrir que el robot produzca una gran saturación en los servidores Web por los que pasa, lo cual hace bajar su rendimiento.
Para que esta saturación no ocurra, algunos servidores Web no permiten la entrada de robots en sus páginas. Para impedir que un robot pasee por tus páginas (por unas razones u otras), hay dos formas:

PROTOCOLO DE EXCLUSIÓN DE ROBOTS: protocolo que permite a los servidores Web proteger total o parcialmente su servidor de un robot. Consiste en un fichero robot.txt que se incluye en el directorio raíz del servidor. Su contenido es un conjunto de instrucciones que excluyen la actuación de robots en el directorio raíz (prohiben robots).

CON ETIQUETAS META:

<META NAME="robots" CONTENT="noindex">  à Indica que no indice las palabras.
<META NAME="robots" CONTENT="nofollow">  à Que no pase por la web.
 
 
¿CÓMO INDIZAN LOS ROBOTS LAS PÁGINAS WEB?
 

          El sistema más habitual que utilizaban consistía en recorrer el texto completo de las páginas web a las que accedía el robot. Se limitaban a ciertas partes del documento. PROBLEMAS: La base de datos aumenta de manera desproporcionada y al recuperar los documentos se sobrecarga y al recuperar los documentos se sobrecarga la red.

Esta técnica del texto completo desde el punto de vista documental tiene también consecuencias negativas, por ejemplo, no hay discriminación con respecto al peso informativo.

Punto de vista informático: Técnica sencilla para el ordenador pero se pierde mucho tiempo porque el robot tiene ocupado el servidor y se sobrecarga la red.

Punto de vista Documental: No hay medida discriminatoria de términos (todos valen lo mismo).

En el segundo caso si establece un valor de discriminación del término desde el punto de vista de la parte de la página web en que se encuentra ese término. Sólo ocurre con ciertas partes del texto: título del documento, cabeceras principales, primeras líneas o párrafos de las páginas web.

Lycos pasa por el título, por la URL y por las primeras 20 líneas de la página.

A nosotros (Documentalistas) nos interesa que los robots extraigan la parte más importante (informativa) del documento. Para ello se aplican técnicas de frecuencia de aparición de términos en el documento pero relacionándolo con el conjunto de la Base de Datos.

DESPUÉS DE LAS ETIQUETAS META

Indizan los términos que constituyen el CONTENT de las etiquetas META:

Altavista pasa por <metaname = "keywords" o "descriptions"> etiquetas que añade el autor de la página.

A la hora de indizar es importante realizar correctamente las etiquetas META.
Por ejemplo: si usamos páginas web de Medicina en Description, no estaría mal pero sería más correcto emplear varios descriptores y palabras clave.
 
 
MULTIBUSCADORES
 
Son buscadores que lanzan la ecuación de búsqueda contra varios motores de búsqueda e índices de forma simultánea.

Isidro Aguilló (trabaja en el CINDOC) ha escrito varios artículos sobre este tema.

Tanto los buscadores como los multibuscadores con valor añadido=multibuscadores agrupan los resultados por direcciones URL.

Los METABUSCADORES son:

Ejemplos:

    - http://www.go2net.comlsearch.html (Metacrawler) lanza sus motores contra 9: Open text, Lycos, Infoseek, L. Galaxi,...

    - SAWY-SEARCH: http://www.cs.cdostak.edu.: Contra 19 indicadores

    - EASY PAGE: http://www.easypage.com
 
 
CLASIFICACIÓN DE ÍNDICES O DE DIRECTORIOS Y MOTORES
 
ÍNDICES O DIRECTORIOS

1ª CLASIFICACIÓN:

OTRA CLASIFICACIÓN
BUSCADORES O MOTORES DE BÚSQUEDA
 
Recurso URL
Altavista http://www.altavista.net
Altavista España http://www.altavista.magallanes.net
HotBot http://www.hotbot.com
Northerm Light http://www.nlsearch.com
Excite http://www.excite.com
InfoSeek http://www.infoseek.go.com
Lycos http://www.lycos.com
Open Text http://www.pinstripe.oopentext.com
Sol http://www.sol.es
 
 
ÍNDICES O DIRECTORIOS
 
Recurso URL
Yahoo http://www.yahoo.com
Dónde http://www.uji.es
LookSmart http://www.loksmart.com
Argus Clearinghouse http://www.clearinghouse.net
Ozú http://www.ozu.es
Olé http://www.ole.es
Rex http://www.rex.skyline.net
 
 



Trabajo realizado por:

    Pablo Reynolds Moreno
    Abraham Villar Calvino
    Gustavo Morán Martínez
    Marta Soriano Lobo
    Jose Ángel Rangél León
    Francisco Javier Benitez
    Antonio de Jesús Elias Garcia
    Lourdes García Retamar
 


Bibliografía: