|
Ante la inmensa cantidad de información accesible a través de la Red y la falta de unos catálogos centralizados de todos los recursos, resulta indispensable utilizar una serie de herramientas de búsquedas de información en internet y, especialmente, en el espacio WWW, que permitirán al usuarios encontrar el tipo concreto de información que desee en el menor tiempo posible. Los servidores que ofrecen estas herramientas suelen almacenar el contenido de un gran número de páginas y permiten realizar búsquedas, algunos sobre el contenido entero y otros sobre el contenido parcial de dichas páginas. La operatividad de estas herramientas de búsqueda depende de la calidad de la indexación de la información que se encuentre almacenada en los servidores.
Al conectar con una de esas herramientas de búsqueda nos encontraremos con una página que contiene un formulario para definir nuestra búsqueda, que consistirá, fundamentalmente, en indicar una o más palabras claves (entendiendo por palabras claves aquellas palabras que usamos para describir los conceptos o ideas que buscamos) donde figurará lo buscado, ordenados según su semejanza con las palabras claves introducidas, de manera que un "clic" sobre estos dirigirá el navegador a la página que contiene la información solicitada.
Es también habitual que, además de la búsqueda por contenido, estos servidores presenten un indice de temas, es decir, listas organizadas por temas y subtemas, en una estructura en forma de árbol, por las que el usuario puede navegar hasta encontrar los recursos Web pertenecientes a una determinada materia.
Estas
herramientas de búsqueda, en forma de páginas web a las que
se puede acceder con cualquier programa navegador, suelen ser gratuitas
y muy fáciles de utilizar y disponen, por lo general, de información
explicativa de su uso, acompañada de ejemplos que facilitan su aprendizaje.
Además sus páginas web suelen presentar enlaces con otras
herramientas de búsquedas.
Dos de esas herramientas son los motores de búsqueda
(buscadores) y los directorios temáticos (índices temáticos).
El objetivo común de estas herramientas es recuperar información
contenida en las páginas web.
|
|
|
|
El problema que presenta es que salen muchos documentos que no son pertinentes.
Si buscamos información general sobre un tema
de nuestro interés, es mejor hacerlo en un directorio temático,
pues se decide el grado de profundización del tema en el que quieres
buscar.
|
- MIRRORS: Servidores que ofrecen la misma
información que el motor original pero en un idioma diferente.
Ej.: Altavista tiene MIRRORS en Malasia,
Australia, Suecia y desde 1997, en España
(Altavista Magallanes).
- VERSIONES: Son como los motores
originales pero con ciertas variaciones.
Ej.: Infoseek
tiene versiones reducidas en Francia, Alemania, España, etc.
Lycos
también tiene versiones en Francia, Alemania, España, etc.
- Servicios de valor añadido: Incluyen o están incluidos en los motores de búsqueda. Cada vez más, los motores de búsqueda además de su estructura normal presentan también un directorio temático. Es imprescindible mostrar la ayuda para realizar una estrategia correcta de consulta con las técnicas de búsqueda.
- Servicios de páginas amarillas: Acceso a direcciones de empresas, instituciones,...
- Servicios de páginas blancas: Direcciones e-mail de las personas incluidas en la Base de Datos.
- Información de las actualizaciones
de un tema.
|
ROBOT DE BÚSQUEDA: Software/ programa que partiendo de una serie de páginas indicadas por sus creadores recorre la Red yendo de enlace en enlace y recogiendo todos los documentos que encuentra a su paso. También se llaman "rastreadores" o "spiders".
Cuando el robot llega a una página web...:
- Si ya ha estado antes, comprueba si ha habido modificaciones en las páginas
y, si las hay, las señala
en las actualizaciones.
- Si es la primera vez que la visita, toma los datos de localización
de las páginas e indiza la "página
entera".
Además de la página original, también va enganchando los links o enlaces que contiene esta página y, ya dependiendo del motor, puede profundizar a un tercer nivel, yendo a los enlaces de esas páginas.
La información encontrada por el robot es almacenada en una Base de Datos textual que aumenta con el volcado de las palabras que conforman las páginas web visitadas por el motor. La Base de Datos tiene un fichero invertido:
FICHERO INVERSO O INVERTIDO: fichero en el que las palabras apuntan a punteros o direcciones URL que remiten a las páginas con esas palabras.
La ventaja que tiene el que sea el robot el que rastree las páginas webs y que sea él el que las selecciones las palabras es que hay más objetividad.
Los inconvenientes son la insuficiente
calidad en la selección, pues el robot no distingue los términos
de mayor o menor riqueza informativa. también puede ocurrir que
el robot produzca una gran saturación en los servidores Web por
los que pasa, lo cual hace bajar su rendimiento.
Para que esta saturación no ocurra,
algunos servidores Web no permiten la entrada de robots en sus páginas.
Para impedir que un robot pasee por tus páginas (por unas razones
u otras), hay dos formas:
PROTOCOLO DE EXCLUSIÓN DE ROBOTS: protocolo que permite a los servidores Web proteger total o parcialmente su servidor de un robot. Consiste en un fichero robot.txt que se incluye en el directorio raíz del servidor. Su contenido es un conjunto de instrucciones que excluyen la actuación de robots en el directorio raíz (prohiben robots).
CON ETIQUETAS META:
<META NAME="robots" CONTENT="noindex">
à Indica
que no indice las palabras.
<META NAME="robots" CONTENT="nofollow">
à Que
no pase por la web.
|
Esta técnica del texto completo desde el punto de vista documental tiene también consecuencias negativas, por ejemplo, no hay discriminación con respecto al peso informativo.
Punto de vista informático: Técnica sencilla para el ordenador pero se pierde mucho tiempo porque el robot tiene ocupado el servidor y se sobrecarga la red.
Punto de vista Documental: No hay medida discriminatoria de términos (todos valen lo mismo).
En el segundo caso si establece un valor de discriminación del término desde el punto de vista de la parte de la página web en que se encuentra ese término. Sólo ocurre con ciertas partes del texto: título del documento, cabeceras principales, primeras líneas o párrafos de las páginas web.
Lycos pasa por el título, por la URL y por las primeras 20 líneas de la página.
A nosotros (Documentalistas) nos interesa que los robots extraigan la parte más importante (informativa) del documento. Para ello se aplican técnicas de frecuencia de aparición de términos en el documento pero relacionándolo con el conjunto de la Base de Datos.
DESPUÉS DE LAS ETIQUETAS META
Indizan los términos que constituyen el CONTENT de las etiquetas META:
Altavista pasa por <metaname = "keywords" o "descriptions"> etiquetas que añade el autor de la página.
A la hora de indizar es importante realizar
correctamente las etiquetas META.
Por ejemplo: si usamos páginas
web de Medicina en Description, no estaría mal pero sería
más correcto emplear varios descriptores y palabras clave.
|
Isidro Aguilló (trabaja en el CINDOC) ha escrito varios artículos sobre este tema.
Tanto los buscadores como los multibuscadores con valor añadido=multibuscadores agrupan los resultados por direcciones URL.
Los METABUSCADORES son:
- http://www.go2net.comlsearch.html (Metacrawler) lanza sus motores contra 9: Open text, Lycos, Infoseek, L. Galaxi,...
- SAWY-SEARCH: http://www.cs.cdostak.edu.: Contra 19 indicadores
- EASY PAGE: http://www.easypage.com
|
1ª CLASIFICACIÓN:
Pablo
Reynolds Moreno
Abraham
Villar Calvino
Gustavo
Morán Martínez
Marta
Soriano Lobo
Jose
Ángel Rangél León
Francisco
Javier Benitez
Antonio
de Jesús Elias Garcia
Lourdes
García Retamar
Bibliografía: