Posts etiquetados ‘Lenguajes de recuperación de información’

Descargue el texto completo

Jesús Tramullas Saz

Depto. CC. de la Documentación,

Univ. de Zaragozahttp://tramullas.com

ResumenEste trabajo estudia los conceptos básicos del diseño centrado en el usuario, aplicado aproductos y servicios de información digital. Revisa los contextos y diferentes enfoquespara su aplicación y desarrollo, así como las técnicas de usabilidad que puedenutilizarse. Detalla las fases de desarrollo de productos de información digital para elweb, desde la perspectiva del diseño centrado en el usuario. Por último, propone unmarco teórico-práctico de aplicación en los productos de información digital.

Abstract

This paper studies basic concepts for the user centered design, applied to digitalinformation products and services. Different context and approaches for application anddevelopment are revised, and the usability techniques that can be applied. From the usercentered design perspective, development phases for web information products aredetailed. Last, proposes a teoretical and practical framework to apply in digitalinformation products.

“recuperación de información” “programa de sistemas de información” “Universidad de La Salle”

La World Wide Web representa un universo de información y de conocimiento donde a menudo resulta difícil localizar la información pertinente que necesitamos. Los algoritmos basados en el análisis de enlaces han supuesto una gran mejora en la ordenación de los resultados, sin embargo aún queda mucho camino por recorrer, en especial si se quiere automatizar una parte más amplia del proceso de recuperación de información mediante agentes de búsqueda inteligentes.

La propuesta de la Web semántica (Berners-Lee, 2001) puede representar un gran avance en este ámbito porque  propone un cambio de paradigma: transformar la actual web basada casi exclusivamente en lenguaje natural a una web estructurada y organizada, donde los contenidos en lenguaje natural son etiquetados semánticamente de forma explícita para conseguir que las máquinas puedan interpretarlos. De esta forma se facilitaría el procesamiento automático de los contenidos de la web y uno de estos procesos sería precisamente la recuperación de información (Ding, 2005).

El etiquetado y la asignación de metadatos son por tanto elementos básicos del proyecto de la Web semántica, con implicaciones para cualquiera que esté relacionado con la creación y distribución de contenidos en la web. El nuevo paradigma supone una nueva forma de crear contenidos, donde sus responsables deben asumir la tarea de su etiquetado si quieren que estos sean interpretables semánticamente por los nuevos buscadores y aplicaciones de usuario. En este contexto, surge la necesidad de herramientas que faciliten la creación automática o semi automática de esta metainformación y que asegure su calidad.

Se presenta un proyecto de investigación que tiene como principal objetivo el desarrollo y la exploración del potencial de una herramienta que facilite la asignación semi automática de palabras clave a documentos web. Esta herramienta estará basada en la extracción de palabras clave de acuerdo con las coincidencias entre el texto del documento analizado y una taxonomía predefinida (pero que siempre podrá ser editada y modificada). Los candidatos a palabras clave que se generan mediante este procedimiento se ordenarán aplicando criterios de relevancia propios de los algoritmos de posicionamiento.

A continuación se describen de forma sintética las principales características y prestaciones de la herramienta que se está construyendo y se analizan las bases teóricas que la justifican.

Esta línea de investigación viene motivada por el actual interés que suscitan las tecnologías semánticas como mecanismo para facilitar y optimizar el acceso a la información (Codina, 2009; Davies, 2009; Kiryakov, 04), contexto donde hay que situar también a el proyecto de la Web semántica del W3C. (more…)

Los servicios que se prestan de información y documentación que son accesibles a través de internet, más concretamente en servidores web, las cuales han ido en aumento de una forma exponencial. La evolución de la web ha ido produciendo la sustitución de páginas y documentos estáticos por documentos dinámicos,  para una buena interacción del usuario con la lógica de procesos y flujos de trabajo que son definidos por los creadores del servicio y a la disponibilidad de repositorios de información que van cada día más en aumento. Evidentemente se han ido pasando progresivamente de un concepto de publicación de páginas web bastantes simples en su origen a unos más complejos y diferenciados. La complejidad de los servicios y los sistemas que los soportan, han hecho necesaria  la formulación de un corpus teórico y práctico en el que se combinen las técnicas clásicas de gestión de información en las organizaciones con las características propias del medioambiente digital.

Desde los años 2000 se ha dado una evolución en las técnicas de gestión de información, como también se ha producido una convergencia entre todas las plataformas para encontrar soluciones globales y ofrecer soporte a todo el proceso de gestión de información  en una organización. Las herramientas para este trabajo son las llamadas sistemas de gestión de contenidos (o Content Management Systems, CMS), los cuales se han se han integrado con los sistemas de gestión documental y los de recuperación de información, uniendo estas a la gestión de información, el control de los procesos es un elemento nuclear, por lo que se acompañan de sistemas de workflow, o de flujos de trabajo. Con ello se puede delinear un paisaje en que las herramientas de gestión documental ido incorporando a sus prestaciones las capacidades necesarias para gestionar los procesos que crean, almacenan, tratan y presentan información, en entorno digital.

(more…)

No todos los periódicos en línea consideran que los buscadores de noticias son sus aliados. Algunos medios opinan que el hecho de que estas herramientas faciliten enlaces directos a sus noticias supone un perjuicio a sus ingresos por publicidad. Argumentan que los usuarios acceden a la noticia sin visualizar las páginas principal y de la sección en la que ésta se encuentra y, por tanto, sin posibilidad de ver los anuncios que aparecen en ellas.

Un claro ejemplo de esta posición es el caso de la prensa belga, que en el año 2008 denunció a Google News. Esta denuncia terminó con una sentencia que obligó al buscador a dejar de indexar los contenidos de estos diarios y pagarles una indemnización de más de 40 millones de euros, tanto por reproducir y comunicar públicamente obras protegidas por derechos de autor, como por perjudicar los ingresos por publicidad que perciben estos medios.

Parece discutible que medidas de este tipo puedan beneficiar de algún modo a los medios en línea. De hecho, podría perjudicarles seriamente pues los contenidos indexados por los motores de búsqueda reciben un mayor número de
visitas. Esto trasladado a los medios supone un aumento de sus ingresos en concepto de publicidad. Se ha de tener muy presente que entre el 50% y el 90% del tráfico que recibe un sitio web procede de los buscadores, y principalmente de Google.

(more…)

Historia

El primer buscador fue “Wandex”, un índice (ahora desaparecido) realizado por la World Wide Web Wanderer y desarrollado por Mattew Gray en el MIT, en 1993. Otro de los primeros buscadores, Aliweb, también apareció en 1993 y todavía está en funcionamiento.

El primer motor de búsqueda de texto completo fue WebCrawler, que apareció en 1994. A diferencia de sus predecesores, éste permitía a sus usuarios una búsqueda por palabras en cualquier página web, lo que llegó a ser un estándar para la gran mayoría de los buscadores. WebCrawler fue también el primero darse a conocer ampliamente por el público. También apareció en 1994 Lycos (que comenzó en la Carnegie Mellon University). Muy pronto aparecieron muchos más buscadores, como Excite, Infoseek, Inktomi, Northern Light y Altavista.

De algún modo, competían con directorios (o índices temáticos) populares tales como Yahoo!. Más tarde, los directorios se integraron o se añadieron a la tecnología de los buscadores para aumentar su funcionalidad.

Antes del advenimiento de la Web, había motores de búsqueda para otros protocolos o usos, como el buscador Archie, para sitios FTP anónimos y el motor de búsqueda Verónica, para el protocolo Gopher.

(more…)

Pasarelas temáticas y aplicación de las técnicas de análisis documental

Las pasarelas temáticas pueden considerarse nuevas aplicaciones de las técnicas de análisis documental desarrolladas para la construcción de bases de datos bibliográficas, las cuáles han sido de vital importancia para la comunidad científica en el último cuarto del siglo XX. El desarrollo de la edición electrónica en Internet hace suponer que estos recursos puedan quedar obsoletos, ya que a menudo ofrecen tan sólo referencias y no permiten interrogar el texto completo de los documentos. Sin embargo constituyen una importante tradición que ha desarrollado una técnicas documentales que seguirán siendo útiles en los futuros sistemas de información y que constituyen el modelo en el que se basan las pasarelas temáticas en Internet.

El análisis documental se define como el Conjunto de operaciones  intelectuales y mecánicas  que afectan al contenido y a la forma de los documentos originales, reelaborándolos y transformándolos en otros de carácter instrumental o secundario, que faciliten al usuario la identificación precisa, la recuperación y la difusión de aquellos. Se define por tanto una metodología de trabajo utilizada para construir sistemas de información, que inicialmente fueron bibliografías y repertorios bibliográficos impresos y que posteriormente se transformaron en bases de datos bibliográficas.

Como conjunto de operaciones el análisis documental implica atender a la forma y el contenido de los documentos para constituir un registro que incorpore diferentes elementos:

(more…)

TUTORIAL DE GOOGLE PARA BÚSQUEDAS EXACTAS

  

BÚSQUEDA AVANZADA CON GOOGLE

  •  

 

GOOGLE Y SUS TRUCOS OCULTOS

 

 COMO USAR GOOGLE TRENDS

 

Aquí se muestran algunos de los comandos que utilizaba MS-DOS, y que actualmente
pueden ser utilizados desde la línea de comandos en sistemas operativos Windows
(Abriendo una consola utilizando el comando CMD en el menú “Ejecutar”). Aparecerá lo
siguiente:

Comandos Básicos del Sistema Operativo DOS1
Aquí se muestran algunos de los comandos que utilizaba MS-DOS, y que actualmentepueden ser utilizados desde la línea de comandos en sistemas operativos Windows(Abriendo una consola utilizando el comando CMD en el menú “Ejecutar”). Aparecerá losiguiente:

Para acceder a la ayuda de cada uno de estos comandos hay que realizar lo siguiente: comando_a_consultar /? (Ej.: copy /?). Pueden ser internas o externas:

Comandos internos

  • CD o CHDIR – Cambia el directorio actual.
    • CD nombre_directorio Cambia al directorio jerárquicamente inferior.
    • CD \ Cambia directamente al directorio raíz.
  • CLS – Borra la pantalla y regresa el cursor a la esquina superior izquierda .
  • COPY – Copia archivos.
    • COPY CON – Copia a un archivo el texto digitado hasta pulsar Ctrl-Z.
  • DATE – Cambia o visualiza la fecha del sistema.
  • DEL o ERASE – Borra un archivo. Siempre y cuando el archivo no se oculte en un fichero. DEL borra el contenido del archivo y ERASE el archivo en si.
  • DIR – Muestra una lista con los archivos y directorios (carpetas) que se encuentran en un directorio del disco.
  • ECHO – Muestra un texto especificado en la pantalla.
    • ECHO OFF – Oculta el eco de los comandos ejecutados. Nota: se escribe como línea de código, en los archivos de proceso por lotes (.bat) y no en la línea del prompt.
  • EXIT – Sale de una sesión de MS-DOS.
  • MD o MKDIR – Crea un nuevo directorio.
  • PATH – Específica trayectorias, en las cuales el sistema operativo busca archivos ejecutables. Es un comando que se suele escribir en el Config.sys y en archivos de procesos por lotes.
  • RD o RMDIR – Borra un directorio que esté totalmente vacío.
  • REN o RENAME – Renombra archivos y directorios.
  • TYPE – Muestra el contenido de un fichero. Se utiliza, principalmente, para ver contenidos de ficheros en formato texto.
  • VER – Muestra la versión del Sistema Operativo.
  • VOL – Muestra la etiqueta del disco duro y su volumen (si lo tiene)

[1] Colaboradores de Wikipedia. MS-DOS [en línea]. Wikipedia, La enciclopedia libre, 2009 [fecha de consulta: 3 de septiembre del 2009]. Disponible en http://es.wikipedia.org/w/index.php?title=MS-DOS&oldid=29408497>.

LENGUAJE DE MARCADO EXTENSIBLE (XML)

Es un conjunto de reglas para la codificación de documentos en forma electrónica, es un formato sencillo , texto muy flexible derivado de SGML (ISO 8879) . Originalmente diseñado para afrontar los retos de la publicación electrónica a gran escala , XML también está desempeñando un papel cada vez más importante en el intercambio de una amplia variedad de datos en la Web y en otros lugares.

La función de XML en la gestión de contenidos

Es importante definir las funciones que caracterizan una aplicación de gestión de contenidos, como también es necesario dar respuesta a dos cuestiones: ¿qué función cumple el lenguaje XML en este tipo de sistemas? y ¿cuáles son las ventajas que podemos obtener de su aplicación?

las ventajas de la gestión de contenidos y la clara diferenciación entre los contenidos propiamente dichos y las plantillas que se utilizan para su edición y visualización, de forma que es posible reutilizar un mismo contenido en distintos contextos. Esta es una de las principales ventajas del formato XML: la distinción entre contenidos y presentación.

Otros de los aspectos donde se manifiesta el potencial del lenguaje XML aplicado a la gestión de contenidos es la gestión del repositorio de metadatos asociados a las distintas páginas. Son numerosos los sistemas de metadatos propuestos en los últimos años para la recuperación de información que han optado por XML como formato de codificación. En este grupo tendríamos Dublin Core, MARCXML, MODS, etc. Pero donde resulta más evidente la aplicación de XML es en los procesos de intercambio, transferencia e integración de información. De hecho, si bien sería posible obviar la utilización de XML en el almacenamiento de contenidos y en la gestión de metadatos, la integración y sindicación de contenidos resultaría prácticamente inabordable sin la utilización de este formato.

XML como base para el almacenamiento de contenidos

Los contenidos gestionados y publicados a través del sitio web pueden almacenarse de distinta forma, aunque para garantizar su posterior reutilización y recuperación debemos considerar las ventajas que ofrece XML como lenguaje de almacenamiento frente a otras alternativas como HTML. Se debe citar la importancia que en los últimos años están alcanzando las llamadas bases de datos XML nativas. Con este término nos referimos a bases de datos que almacenan y gestionan una colección de documentos XML sin realizar ningún tipo de transformación previa. En este modelo, el documento XML es la principal unidad de almacenamiento de la información. Contrasta este tipo de bases de datos con las bases de datos relacionales, en las que la información se guarda en una colección de tablas formadas por campos y registros, con una estructura sumamente rígida que debe ser predefinida con anterioridad, y que en muchas ocasiones no da cabida a la flexibilidad que exige el almacenamiento de documentos de naturaleza textual.

Entre los principales exponentes de las bases de datos XML nativas podemos destacar sistemas comerciales como Tamino, de la empresa alemana Software AG, Textil, o el sistema código abierto DBXML, que se puede obtener gratuitamente. No obstante, una aplicación de gestión de contenidos no tiene que estar vinculada, forzosamente, a una base de datos XML nativa. Aunque se opte por almacenar los textos en formato XML, cabe la opción de guardarlos en un sistema de bases de datos relacional utilizando los tipos de datos que permiten guardar y gestionar campos de texto de longitud variable.

Para facilitar la edición de contenidos en XML, los principales proveedores de herramientas de edición han publicado utilidades que permiten la interacción entre éstas y el repositorio de datos de la aplicación de gestión de contenidos. Encontramos ejemplos de esta integración en las propuestas de las empresas Altova, Blast Radius, XYEnterprise o Stylus.

XML como modelo para la representación de metadatos

Algunos de los sistemas de metadatos que se han publicado en los últimos años han optado por el lenguaje XML como principal mecanismo de representación y codificación de los mismos. Las ventajas de usar XML frente a otras alternativas se encuentran en su orientación hacia Internet, la facilidad de su intercambio y posterior procesamiento utilizando una única sintaxis común, y la opción de combinar e intercalar los metadatos dentro del texto completo de los documentos. Así, sería posible codificar un texto usando un conjunto de etiquetas o marcas relevantes para ese tipo de información, y agregarle metadatos descriptivos o administrativos como parte de la cabecera de dicho documento, codificados en cualquier otro vocabulario siempre que éste también esté basado en la sintaxis XML.

Si se opta por usar XML para la codificación de los metadatos debe considerarse la necesidad de disponer de un sistema de indexación y recuperación que permita discriminar documentos a partir del contenido de elementos o atributos específicos. Es decir, el sistema de búsqueda no sólo debe permitir la búsqueda en texto completo (esto es, poder recuperar el documento si contiene una combinación de palabras en particular), sino también si dichas palabras aparecen dentro de un elemento específico o en alguno de sus elementos descendientes. Sólo de esta forma se pueden obtener las ventajas de la organización jerárquica de la información que caracteriza al lenguaje XML.

En este sentido, las bases de datos XML nativas incorporan este tipo de herramientas y utilidades de búsqueda. Las aplicaciones de gestión de contenidos que utilizan otro sistema de repositorio (normalmente una base de datos relacional), presentan aquí algunas limitaciones, ya que esta tecnología no suele incorporar herramientas de indexación adaptadas a las características del formato.

XML como medio de intercambio e integración de contenidos

Señalábamos con anterioridad la función primordial de XML como facilitador del intercambio y agregación de contenidos. Decíamos que es en este área donde mayor y más evidente se hace la capacidad y el potencial del formato en las actividades relacionadas con la gestión de contenidos. Pues bien, debemos recordar que XML no se trata, únicamente, de un formato para codificar textos y documentos, sino de una familia de especificaciones que establece la forma en la que se pueden procesar y presentar dichos textos. Especificaciones como XSLT, DOM o XPath hacen posible procesar documentos XML basados en distintos vocabularios mediante distintos lenguajes de programación (Visual Basic, Java, etc.), utilizando un modelo común, estándar y claramente documentado.

La posibilidad de obtener a través de la red documentos XML y procesarlos con facilidad para cualquier fin (por ejemplo, para integrarlos en un repositorio o base de datos, o para visualizarlos como parte de nuestro sitio web), nos ofrecen una flexibilidad extrema y abre las puertas a cualquier tipo de integración.

Fuente:

En la búsqueda y recuperación de información es necesario conocer términos, que nos permitiran mas adelante tener el conocimiento de ciertos criterios y como se indexa la información,  dejaremos periódicamente terminología que les ayude a tener nociones de estos términos, para más información vaya a la pagina del  glosario dentro de este blog. esperamos sea de utilidad.

THESAUROS

En la búsqueda y recuperación de información es necesario conocer ciertos términos, que nos permitiran mas adelante tener el conocimiento de ciertos criterios y como se indexa la información

 

UN TESAURO PUEDE SER
Alfabético: los descriptores y no descriptores se agrupan en una única secuencia alfabética junto con sus relaciones.
Sistemático: estructurado en 2 parte.  La primera de ellas o parte principal, contiene las categorías o jerarquías, y la segunda parte o parte auxiliar, consta de un índice alfabético que conduce a los usuarios a la sección semántica correspondiente a la que pertenece el término.
TIPOS DE ESTRUCTURA DE TESAUROS
Tesauro lineal: presenta los descriptores de forma simple, sin conexiones.
Tesauro en forma de árbol: se construye siguiendo una jerarquía en forma de árbol. Cada descriptor posee un descriptor genérico y varios descriptores con los que se relaciona de forma de forma ascendente o descendente.
Tesauro reticular: tesauro construido en forma de red en el cual los descriptores se entrecruzan. Cada descriptor puede tener varios descriptores genéricos y varios descriptores específicos.
ELEMENTOS DE UN TESAURO
Unidades léxicas:
  • Descriptores
  • términos simples o unitérminos:
  • términos compuestos

UN TESAURO PUEDE SER
Alfabético: los descriptores y no descriptores se agrupan en una única secuencia alfabética junto con sus relaciones.
Sistemático: estructurado en 2 parte. La primera de ellas o parte principal, contiene las categorías o jerarquías, y la segunda parte o parte auxiliar, consta de un índice alfabético que conduce a los usuarios a la sección semántica correspondiente a la que pertenece el término.

TIPOS DE TESAUROS

  1. TESAURO FACETADO: se trata de un tesauro que combina una clasificación facetada sistemática, con un tesauro alfabético que reemplaza al índice de la clasificación.
  2. TESAURO MONOLINGÜE: es el que contiene descriptores en una única lengua.
  3. TESAURO MULTILINGÜE: contiene descriptores en más de una lengua.
  4. MACROTESAURO: se trata de un tesauro que incluye algunos descriptores básicos comunes y los propios de su campo o especialidad

VOCABULARIO CONTROLADO

Automóvil

UP (Usado Por) Coche

UP (Usado Por) Auto

Tesauro de la UNESCO

Tesauros del CINDOC

Tesauro de Ciencias de la Documentación

Tesauro de Redes de Ordenadores

Glosario Ingles - Español para usuarios de Internet