lunes, 14 de abril de 2014

Caso 5. Recuperación de la información

Como ya sabemos, hay mucha información al alcance de casi cualquier persona, y más desde que tenemos acceso a la red. Está información suele estar en servidores en la red a los que debemos acceder para poder aprovecharnos de dicha información. Pero realmente, ¿cuál es el proceso que seguimos para recuperar la información? Y sobre todo, ¿qué es esto de recuperar la información?


La recuperación de la información "es la ciencia de la búsqueda de información en documentos electrónicos y cualquier tipo de colección documental digital". Esta definición es la que viene recogida en la página de wikipedia (http://es.wikipedia.org/wiki/Recuperación_de_información). Entonces podemos decir que recuperar información es todo el proceso de búsqueda de información desde que nos surge la necesidad de realizar la búsqueda hasta que conseguimos encontrar una información que creemos de calidad. Pero esto sólo son el primer y último punto de todo el proceso de recuperación. Tendremos entonces que definir, en la medida de lo posible, todos los pasos de este proceso.






Lo primero y más importante es que tengamos la necesidad de realizar una búsqueda. Esto quiere decir que tenemos una necesidad de información y creemos que en la red podremos paliar esta necesidad. Pero para empezar con la búsqueda de información es esencial que identifiquemos y definamos correcta y muy concretamente qué información voy a necesitar. Algunos criterios van a ser el idioma, el nivel de concreción sobre la materia, la temporalización (es decir, si quiero información actualizada y no es una condición indispensable) o el tipo de documento sobre el que me interesa obtener información (Libro, artículo de prensa, artículo científico, etc.). Una vez que tengo bien definidos los aspectos principales de mi búsqueda es el momento de seleccionar una herramienta de búsqueda, y sobre todo, qué características requiero de dicha herramienta.



* En este punto podemos hacer una total separación entre sistemas de Bases de Datos y sistemas de Recuperación de Información. Como ya se dijo en entradas anteriores, datos e información no es lo mismo. A la hora de su recuperación también se comportan de manera totalmente diferente. Para buscar un dato se introduce un algoritmo determinado y te devuelve los resultados exactos que cumplen con la búsqueda. Sin embargo en los sistemas de recuperación de información intervienen bastantes mas variables que hacen que la información devuelta no sea tan precisa.



¿En qué me baso para elegir un sistema u otro? Bueno, principalmente, la mayoría de las búsquedas se hacen en buscadores conocidos. Por lo que una de las cosas en las que nos basamos para elegir los sistemas de recuperación suele ser precisamente este aspecto. Sin embargo, hay otros muchos que deben ser más importantes para nosotros y que pueden representar una gran mejora en nuestras búsquedas a través de la web. Algunos de estos aspectos pueden ser el idioma en que me busca y devuelve resultados de búsqueda, mayor o menos cobertura geográfica (cantidad de servidores de diferentes regiones geográficas) y temática (cantidad de temáticas diferentes), nivel de concreción en las búsquedas, etc. 




En la diferencia está el gusto, y cada sistema de recuperación de información, que en este caso va a ser un buscador de internet, trabaja de forma diferente. No podemos meternos a estudiar uno por uno el funcionamiento de cada buscador pero si que vamos a comentar de manera general qué podemos encontrar detrás del logo de las compañías encargadas de ellos. Estos buscadores poseen un algoritmo especifico, y en la mayoría de los casos diferente, para recuperar la información. Estos están basados en algunas técnicas que hacen más fácil la identificación, sobre todo de términos, pero también de oraciones o texto entrecomillado, como son el proceso de depuración de textos, que consiste en separar fragmentos de texto para su posterior indexación, quitar peso a las palabras vacías (son palabras con un indice de aparición muy superior a la media), reducción de palabras a sus raíces, indexación (hacer indices ordenados con la aparición de las palabras en el texto) y fulltext, donde todas las palabras del texto entran a formar parte de la indexación. Esta técnicas ayudan a los buscadores a aumentar el rendimiento y la fiabilidad en las búsquedas. 


Pero antes de eso tendremos que saber qué tipo de información tenemos disponible. Vamos a hacer un breve comentario sobre las bases del conocimiento nombrado algunas de ellas. En la red podemos encontrar colecciones y documentos. Los documentos son cualquier unidad básica de información que encuentres en la red, ya sea un articulo de revista, una monografía, una pagina web o un resumen. También existen los documentos sustituto, que son un previsualización del documento que se pueden encontrar en paginas de resultados. Además de los documentos podemos encontrar colecciones, que son un conjunto de documento seleccionados previamente por el método webcrawling, que no es nada más que la forma en que una araña web selecciona información de diferentes fuentes para conformar una colección. Esta es por ejemplo la forma que tiene Google de investigar la red.

Y a partir de aquí es cuando nosotros tenemos que analizar la información devuelta por el buscador y procesarla para poder construir el conocimiento. Si por lo general estamos satisfechos con la búsqueda tomamos la información de estos documentos como relevantes y no buscamos mas información. Si por el contrario no somos capaces, o el buscador no ha sido capaz, de encontrar la información requerida es común volver a realizar la búsqueda en el mismo buscador con otros términos. Esto ya entra dentro de las estrategias de búsqueda de cada uno y de la capacidad de abstracción que tengamos para intentar anticiparnos a los resultados que nuestro buscador pueda buscar para nosotros. Los sistemas de recuperación deben recibir una retroalimentación, que puede venir de parte del usuario con puntuación de los resultados de búsqueda, o bien que realizan ellos mismo analizando el número total de respuestas ante un termino, el tiempo de respuesta y la relación entre el total de resultados y el numero de resultados relevantes. Esto debe servirles para mejor su servicio. 

Y lo que le sirve a cualquier usuario a la hora de realizar una búsqueda es desarrollar las habilidades necesarias para ello, que pueden ser la capacidad para seleccionar la herramienta de búsqueda adecuada en cada momento y formular la cuestión de la mejor manera posible (ayuda conocer algo a cerca del buscador), conocer las fuentes potenciales de búsqueda o saber adecuarse a cada situación, la formulación de un plan correcto de actuación, definiendo correctamente los términos de búsqueda y, sobre todo, ser capaz de evaluar los resultados obtenidos de cada búsqueda, para poder mejorar de cara a las siguientes.

No hay comentarios:

Publicar un comentario