Consultar ensayos de calidad


Analisis documental y lenguajes documentales



ANALISIS DOCUMENTAL Y LENGUAJES DOCUMENTALES

INTRODUCCIÓN

El desbordamiento de la producción bibliografica que hoy en día se produce en todo tipo de temas científicos e informativos, hace imposible al/a investigador/a controlar y recuperar de forma directa todos los documentos producidos. Esto obliga a la/os profesionales de la información a crear estrategias que faciliten el acceso a este conjunto documental. El problema que se les presenta es que el lenguaje natural da pie a numerosas ambigüedades (matices, asociaciones de ideas, etc.), que dificultan la recuperación precisa de la información, por lo cual elaboran lenguajes controlados, que reciben en nombre de lenguajes documentales, de interrogación, etc.

El documento, en general, es acumulación de información y para que esta se difunda y circule debera ser sometida a un conjunto de operaciones y técnicas, realizadas en el marco de los centros de documentación, entre las cuales destaca el Analisis Documental. Señalemos que el analisis documental de los documentos genera la aparición de lenguajes documentales que, al estar formados por términos normalizados, actúan de intermediarios entre el/a usuario/a y el documento.



I ANALISIS DOCUMENTAL


Concepto

Existen distintas corrientes de pensamiento en torno al significado de analisis documental. Así, autores como gardin y chaumier, desde una concepción restringida, opinan que el analisis documental se limita exclusivamente al analisis del contenido del documento (resumen, indización), dejando fuera todo aquello que supone el analisis formal. Para Chaumier analisis documental es toda operación o conjunto de operaciones enfocadas a representar el contenido de un documento bajo una forma distinta de la original, a fin de facilitarsu consulta o su referencia en fase posterior.

Otras/os autoras/es como María Pinto, Nuria Amat y López Yepes coinciden en afirmar que el analisis documental engloba tanto el analisis físico o formal (es decir, descripción bibliografica y catalogación) como el analisis de contenido. Es la denominada teoría integral. En este sentido, María Pinto define analisis documental como el conjunto de operaciones, unas de orden intelectual y otras mecanicas y repetitivas, que afectan al contenido y a la forma de los documentos originales, reelaborandolos y transformandolos en otros de caracter instrumental o secundarios, con el objetivo último de facilitar al usuario la identificación precisa, la recuperación y la difusión de dichos documentos. No obstante, esa transformación es el resultado, no solo de una fase de analisis previo, sino también de un proceso de síntesis.

Podemos decir que es un conjunto de operaciones intelectuales consistentes en extraer de un documento original todos sus elementos informativos, mediante los lenguajes documentales, a fin de expresar su contenido de forma abreviada.


Niveles de analisis

Aunque el objeto del analisis documental es, en todo caso, el documento primario, podemos decir que existen diversos niveles de analisis documental, que son diferentes para los autores que siguen la teoría integral y para aquellos que limitan el analisis al tratamiento del contenido.

En la concepción integral los niveles de analisis son:
analisis formal que incluye: descripción bibliografica
catalogación
analisis interno o de contenido: ¿clasificación?
indización
resumen.

En la concepción restringida la atención se concentra sóloen el analisis interno, y los niveles son: indización y resumen.

Dentro de la posible jerarquización de las operaciones de analisis, cabe plantearse cual de las dos operaciones -indización y resumen- se realiza primero. Desde el punto de vista operativo, teniendo en cuenta la profundidad del analisis obtenido, lo primero sería la indización puesto que el resultado de esta son solamente una serie de palabras clave o descriptores, mientras que el resultado del resumen sera el contenido sustancial del documento analizado. Desde el punto de vista practico, es mas ventajoso realizar primero el resumen y después la indización, que se efectuara con mas facilidad al conocer de antemano el contenido del documento analizado.


Analisis del contenido

Las tres operaciones típicas del analisis documental referidas al contenido –clasificación, indización y condensación o resumen- se distinguen: por su objetivo, por la metodología de elaboración, y por el lenguaje que emplean. Mientras que la condensación utiliza un lenguaje natural (aquel en el que esta escrito el documento), la indización utiliza un lenguaje documental en busca de una mayor concreción para facilitar la recuperación del documento entre otros muchos.


INDIZACIÓN


Orígenes

Los orígenes de la indización se remontan a la época clasica, concretamente a ciertas ordenaciones de papiros egipcios y registros fiscales de la Antigua Grecia. No obstante, sera la adopción del códice como forma de libro lo que haga que la ordenación alfabética se lleve a la practica. No obstante, al igual que sucede con la mayor parte de temas de la documentación, el gran desarrollo de esta técnica se da en el último tercio del siglo xix, y fue después de la II Guerra Mundial cuando se elaboraron nuevosmétodos no convencionales, como el sistema uniterms o el de descriptores, que hacían mas eficaz la recuperación de la información. El proceso culminó con la aparición de los primeros thesaurus a principios de los años sesenta del siglo pasado.


Concepto

La indización se entiende como el acto de extraer una o mas nociones (no palabras), que representan el contenido del documento y adecuarlas al lenguaje documental determinado previamente (establecido de antemano) por el analista. Es decir, hay unos términos y frases escogidos con antelación.

La operación de indizar es difundida por la unesco en su programa unisix (o Unisist) desde un doble punto de vista: - desde el punto de vista del proceso, la indización es la operación que consiste en describir y caracterizar un documento con ayuda de representaciones de los conceptos contenidos en dicho documento, es decir, de transcribirlos al lenguaje documental después de haberlas extraído del documento mediante un analisis (Analizamos el documento, extraemos los términos significativos y los pasamos al lenguaje que tenemos escogido.)
- desde el punto de vista de su finalidad, la indización va destinada a permitir una búsqueda eficaz de las informaciones contenidas en un fondo documental (este fondo puede ser una red, una base de datos, etc.; no tiene por qué ser algo físico).


Fases de la indización

- la familiarización con el contenido y con la materia del documento (leer con rapidez sumario, conclusiones, etc.)
- el reconocimiento y extracción de los conceptos informativos (nociones tratadas explícitamente; incluso implícitamente, si son desarrolladas)
- la traducción de los conceptos al lenguaje documental (de natural a controlado)
- establecimientode enlaces sintacticos entre los descriptores

La identificación de los conceptos que convenga retener para la indización, se hara en función de los objetivos del centro de documentación, de las necesidades de la/os usuaria/os, de los propios documentos y de los imperativos del sistema documental. Una vez extraídos los conceptos, el siguiente paso es su traducción al lenguaje documental, el cual incluye un vocabulario artificial compuesto por una lista de términos normalizados y sus respectivas relaciones.


Calidad de la indización

La calidad de la indización se mejora utilizando procedimientos tales como el reenvío, la ponderación, los lazos y los indicadores de función o de papel.

El reenvío: si un documento esta indizado en el nivel mas específico del lenguaje documental, es preciso que éste sea extraído siempre que se realice una búsqueda relativa a un término mas general. (Ejemplo: un documento indizado como “puente móvil” se obtenga cuando yo realice una búsqueda solo por “puente”). Así, el reenvío permite mejorar la “tasa de recordación” (recuperación) de un sistema documental.

Ponderación: cuando se indiza, todos los términos utilizados tienen el mismo valor, independientemente de la importancia de la información que representan en el texto. El empleo de la ponderación o asignación de un peso a los términos de indización permite precisar la importancia relativa de los conceptos recogidos en un documento. Se puede determinar una escala de peso o importancia y asignar a cada término un índice de ponderación que suele ser numérico.

La ponderación puede limitarse a una distinción entre palabra clave principal o palabra clave secundaria; entonces, cuando se procede a la búsqueda, sera posible pedir unicamenteaquellos términos que tengan asignados los índices de peso mas elevados, y centrar la búsqueda, con lo cual la ponderación aumenta la tasa de pertinencia (sólo recuperamos el término que nos interesa).

Lazos: si una indización se efectúa únicamente con un lenguaje sin sintaxis, pueden producirse falsas combinaciones entre los términos utilizados. Utilizando los lazos es posible precisar los conceptos y disminuir la tasa de ruido. Indican en qué sentido va la información.

Indicadores de función: destinados a precisar no solo los conceptos enlazados sino los tipos de relación que les une.


Variedad de los sistemas de indización

Los sistemas de representación, según la trayectoria histórica, pueden agruparse en tres categorías, según que la indización se efectúe: a) en base a temas (por materias); b) por medio de palabras (uniterms); c) y en base a los conceptos (descriptores).

a) Los primeros avances en la descripción característica de los documentos se realizaron en las bibliotecas a fines del siglo xix, y estaban basados en el desarrollo de clasificaciones enciclopédicas (la cdu es una clasificación enciclopédica) a través de la sistematización de materias, entendido como la correlación sucesiva de diferentes términos que expresan el tema o temas de un documento.

b) Pese a sus ventajas, este sistema resultaba ineficaz a medida que la recuperación de información ocupaba el primer lugar en la actividad documental, lo que conllevó la aparición del sistema uniterm creado por Taube. Según este, los uniterms consistían en vocablos pequeños y simples, seleccionados del propio documento, para su identificación (su método permitía situar los números de los registros de los documentos que contenían el unitérmino). Esto suponía un importanteavance en el campo de la indización, porque gracias a su poder combinatorio era posible expresar las ideas contenidas en un documento mediante un restringido número de términos.

No obstante, este método plantea dos inconvenientes:
- el hecho de que las palabras aisladas puedan carecer de significado propio, comportando ambigüedad.
- las relaciones entre esas palabras, o uniterm, pueden dar lugar a falsas combinaciones durante la búsqueda documental, diferentes a las requeridas por lo/as usuario/as (ruido).

Aún así, el método de Taube fue una etapa conceptual importante en el camino hacia la indización basada en los conceptos o indización por descriptores.

c) El descriptor es el último eslabón de una cadena, que ha adquirido rigor y ha centrado los intereses de aquellos que se ocupan y trabajan con sistemas de almacenamiento y recuperación de la información. La ventaja del descriptor es que tiene significación propia y permite establecer relaciones semanticas entre ellos, facilitando las búsquedas documentales.

Finalmente, señalar que el producto y resultado de la indización es el índice, documento secundario que conduce al usuario desde la información conocida a otra adicional previamente desconocida. Fruto de la indización son también las listas de términos, que sirven de base para los lenguajes documentales y la posterior construcción de thesaurus.

Características de la indización

Profundidad: lo normal es entre 8-12 descriptores

Tiempo: entre 5-15 minutos

Coherencia de indización: que tenga una ratio del 50-80%

Cualidades: Exhaustividad, elección de conceptos pertinentes para la/os usuaria/os. Especificidad, elección de conceptos pertinentes del documento.




CONDENSACIÓN O RESUMEN

El resumenes un elemento imprescindible en la cadena documental dado que el desbordante crecimiento de la información hace necesaria una técnica que condense el contenido de los documentos. Aunque la técnica de resumir se remonta a épocas pasadas, es la proliferación de revistas de caracter científico lo que hace desarrollarse metódicamente esta técnica. De este modo, es en el final del siglo xix y principio del siglo xx cuando comienzan a aparecer las revistas de resúmenes especializadas, como Chemical Abstracts, Phisical Abstracts


Concepto

El resumen consiste en la transformación que experimentan los documentos primarios a través de dos procesos: analisis hasta obtener su contenido esencial y, por otro lado, la síntesis abreviada y precisa de ese contenido previamente analizado.
El proceso de analisis conduce a un desmenuzamiento del contenido, mientras que la síntesis trata de reorganizar lo antes desmembrado, señalando las ideas principales de forma original, pero cuidando no contradigan el texto primario, por tanto el resumen es un proceso analítico-sintético.


Metodología

Es difícil hablar de una metodología en la técnica de confección de resúmenes, ya que es una operación basicamente intelectual. Aún así hay unas recomendaciones: Norma iso 214/1976 (representación abreviada y precisa del contenido del documento, sin interpretación crítica y sin mención del/a autor/a del resumen), que pretende establecer unas pautas en la confección de resúmenes.

Algunos consejos, que no reglas, para redactar resúmenes, son:
- redactar frases cortas, aunque se debe evitar el estilo telegrafico.
- los verbos: utilizar siempre 3.ª persona y en activa .
- evitar la mezcla de tiempos
- evitar la repetición de las palabras, y las palabrasno informativas
- no recoger ejemplos del documento
- no repetir el título
- utilizar la terminología del autor, si es clara y precisa (palabras significativas)
- se puede comenzar con una frase que lo resuma todo


Funciones del resumen

- actúa de anticipo del documento original.
- mantiene actualizado al/a investigador/a en los avances de su campo tematico ahorrandole tiempo y esfuerzo, al no tener que leer el trabajo entero.
- ayuda en la búsqueda retrospectiva de información y cumple un papel importante en la estructura de sistemas automatizados, porque muchas bases de datos incluyen resúmenes que permiten la localización y selección del texto completo.


Tipología


En cuanto a la tipología de los resúmenes hay diversos criterios, como los defendidos por Chaumier, según el cual podría hacer una clasificación distinta, según tengamos en cuenta su forma o su origen:

Según su forma, el resumen puede ser:
- telegrafico, hasta 50 palabras.
- indicativo: señalando brevemente los temas abordados (de 50 a 150 palabras).
- informativo: proporciona una descripción completa del contenido del documento intentado abordar 4 puntos esenciales, como son: el objetivo, alcance, metodología y conclusiones. Se llaman, también, analíticos (entre 150-500 palabras).
- crítico: aportan las conclusiones personales del resumidor.

Según el origen, pueden ser:
- resúmenes de autor o sinopsis.
- de analista, elaborado por un experto. El analista es conocedor de las técnicas de resumen y el experto en la materia que se esta resumiendo.


II LENGUAJES DOCUMENTALES

A pesar de que ya se existen practicas documentales desde la antigüedad (Pinakes, de Calímaco; clasificación tematica,de Hernando Colón), las primeras obras teóricas sobre lenguajes documentales, en sentido moderno, las encontramos en usa, en 1876, con la aparición de: Clasificación Decimal, de Melvil Dewey, y Reglas para un Catalogo-Diccionario, de Charles Ami Cutter.

El esquema de la clasificación decimal de Dewey responde a las características del lenguaje precoordinado, de estructura jerarquica y vocabulario controlado. Las teorías de Cutre dieron origen a los encabezamientos de materia, caracterizados por la precoordinación, la estructura combinatoria y el control de su vocabulario.

Los encabezamientos de materia pueden considerarse como los precursores de un nuevo tipo de lenguaje documental: el tesauro -el mas elaborado de estos lenguajes-, un lenguaje postcoordinado de estructura combinatoria, de vocabulario controlado y especializado por naturaleza. Surgido después de la II Guerra Mundial para hacer frente a la explosión de la información, ha conocido una gran proliferación de tipos. Actualmente, se observa una vuelta a los lenguajes documentales mas generales, porque su desarrollo esta relacionado con la creación y evolución de grandes sistemas de información regionales, nacionales e internacionales.






Concepto

Lenguaje documental es un sistema de signos, que permite representar el contenido de los documentos, con el fin de recuperar los documentos pertinentes, en respuesta a consultas que tratan sobre ese contenido. No se refiere, pues, a otros criterios utilizados en la búsqueda documental (autor/a, lengua, fecha, etc.). Es aquel conjunto normalizado y normativo de términos relacionados, que son los representantes de los mensajes encerrados en su colectivo documental, con el fín de provocar una recuperación pertinente deinformación. El lenguaje documental consiste en un léxico artificial que permite designar los conceptos significativos del contenido de los documentos en virtud de combinaciones o asociaciones que no son posibles con el lenguaje natural.

Este tipo de lenguajes se componen de una lista de términos, que le dan configuración de vocabulario, y una serie de relaciones entre ellos, que dinamizan esos vocabularios y le otorgan la categoría de lenguajes. En definitiva, los lenguajes documentales son lenguajes normalizadores y a la vez normalizados, ya que influyen a la vez que se crean en el analisis documental y en la recuperación de información.

El lenguaje documental supone una codificación y descodificación para controlar los mensajes. Necesariamente, el código aplicado al documento en la indización debe coincidir con el utilizado por el usuario en el momento de hacer la demanda, si esto no ocurre se produce lo que se denomina «ruido o silencio documental» (aparecen documentos no demandados y los requeridos no aparecen).


Funciones

El lenguaje documental aparece como herramienta fundamental para la descripción y recuperación de información.


Tipología

Los lenguajes documentales son léxicos artificiales y, por tanto, el objetivo para el que se elaboran condiciona su estructura y posibilidades. Se pueden agrupar, atendiendo a diversos criterios (seguimos los expuestos por Blanca Gil):

1. Grado de normalización
a) Lenguajes naturales. Estan formados por los mismos términos en los que esta escrito el texto del documento. Su ventaja radica en la rapidez de la elaboración y su bajo coste de recursos, pero tienen el inconveniente de la ambigüedad
b) Lenguajes documentales. Son lenguajes artificiales, creadospara la indización y la recuperación de la información

2. Punto de acceso y control del vocabulario
a) Lenguajes libres. Los términos proceden del texto original, por lo que solo tienen una mínima normalización.
b) Lenguajes controlados. Mediante un analisis previo de los documentos, se obtiene un vocabulario, que pasan por un proceso realizado por documentalistas con el fin de evitar la ambigüedad existente en el lenguaje natural. Se logra, así, una representación unívoca y normalizada, y un lenguaje artificial.
c) Lenguajes codificados. Los conceptos se emplean mediante códigos (algo similar a lo que sucede en la cdu)

3. Coordinación: relación que puede existir entre los términos del lenguaje documental
a) Lenguajes precoordinados. Coordinan los diferentes conceptos de una materia en el momento de elaborar la indización, antes de ponernos a recuperarla. Es el caso de la clasificación de un libro con la cdu o al asignarle los encabezamientos de materia. Es una operación previa a la búsqueda de ese libro
b) Lenguajes postcoordinados. Permiten la coordinación de conceptos en el momento de la recuperación. Es el caso de la búsqueda de información en una base de datos. Coordinamos los conceptos con posterioridad al momento en que se han creado los registros bibliograficos y sus respectivos índices

4. Criterio estructural. Es el mas utilizado al clasificar los lenguajes documentales.
a) Lenguajes de estructura asociativa o combinatoria. Los términos -descriptores- se combinan sin que estén organizados en una estructura determinada de antemano. Los dos grandes apartados de lenguajes de estructura combinatoria, son: - los encabezamientos de materia, los unitérminos, las listas de descriptores; - los tesauros
b)Lenguajes de estructura jerarquica o arborescente. Son las clasificaciones enciclopédicas, facetadas y especializadas, que tienen forma sistematica: un orden previsto en una serie de clases, que integran los conceptos mas específicos dentro de los mas generales.

No obstante, ningún lenguaje documental tiene valor de forma aislada, así los conceptos de coordinación y control pueden mezclarse, dando lugar a las siguientes combinaciones:
- ld postcoordinado con vocabulario libre; son las listas de palabras clave.
- ld postcoordinado con vocabulario controlado; son las listas de descriptores y los tesauros.
- ld precoordinado con vocabulario controlado; la cdu, clasificaciones jerarquicas y los encabezamientos de materia.

Lenguajes documentales de estructura asociativa

Este tipo de lenguajes resultan menos jerarquizados y mas flexibles que los lenguajes de clasificación. Es un lenguaje que se presenta a modo de índice alfabético, multidimensional, cuyos términos se combinan entre sí.

a) Los unitérminos, propuestos por Mortimer Taube, a mediados del siglo xx, consistían en vocablos pequeños y simples, seleccionados del propio documento, para su identificación (su método permitía situar los números de los registros de los documentos que contenían el unitérmino). Esto suponía un importante avance en el campo de la indización, porque gracias a su poder combinatorio era posible expresar las ideas contenidas en un documento mediante un restringido número de términos (para «Bosque de coníferas», utilizaríamos las fichas «Bosque» + las fichas «Coníferas»).

No obstante, este método plantea dos inconvenientes:
- el hecho de que las palabras aisladas puedan carecer de significado propio, comportando ambigüedad.
-las relaciones entre esas palabras, o uniterm, pueden dar lugar a falsas combinaciones durante la búsqueda documental, diferentes a las requeridas por lo/as usuario/as (ruido).

Aún así, el método de Taube fue una etapa conceptual importante en el camino hacia la indización basada en los conceptos o indización por descritores.

c) Los descriptores son términos que describen, y pueden consistir en una palabra simple o estar compuestos por expresiones complejas; de ahí su capacidad para describir (podríamos utilizar la expresión «Bosque de coníferas»). Fueron aportados por Moers, a principios de los años cincuenta. Pueden utilizarse de forma independiente en listas de términos, o en la construcción de tesauros (de los que nos ocupamos en tema aparte).

d) Los encabezamientos de materia tienen su origen en la obra de Cutter, 1876, sobre las reglas para un catalogo-diccionario. Se basan en dos principios: el de la especificidad: un término indizado sólo puede describir una sola materia, es decir, los conceptos deben utilizarse bajo su nombre mas específico y no deben englobarse en uno mas general; el de entrada directa: los encabezamientos compuestos se presentaran como en el lenguaje natural, sin invertir los términos («Bosque mediterraneo», y no «Mediterraneo-bosques»).Constituye un lenguaje controlado precoordinado.

Se presentan en forma de ficheros de autoridad (en las grandes bibliotecas) y en forma de listas de encabezamientos publicadas. Se componen de encabezamientos propiamente dichos y de subencabezamientos. Los primeros, una o varias palabras, representan los conceptos. Los segundos se utilizan, a veces, para precisar el significado de los primeros (nunca constituyen una entrada principal); pueden ser: topograficos,cronológicos, de forma (tipo de documento concreto: diccionario, etc.), de materia o punto de vista (historia, filosofía, etc.) bajo el que se estudia la materia principal.

Las mas utilizadas, internacionalmente, son las de la Biblioteca del Congreso: Library of Congress Subject Headings (LCSH), iniciada en 1898, en continua actualización; Sears List of Subject Headings, versión abreviada de la anterior. En España, entre otras, tenemos: Lista de Encabezamientos de Materia, traducción de la Sears List; Lista de Encabezamientos de Materia de la Red de Bibliotecas del Consejo Superior de Investigaciones Científicas (csic), 1987, renovada periódicamente; Lista de Encabezamientos de materia para bibliotecas públicas, del Ministerio de Cultura, 1986, utilizada en bibliotecas medias (municipales, etc.)

e) Las palabras-clave, que componen listas, entre las que se encuentran los índices permutados, ideados por Luhn, se componen de palabras clave presentes en el texto de los documentos, desde las que puede recuperarse la información. Los dos tipos mas representativos son: índices kwic (keyword in context), donde las palabras significativas quedan alfabetizadas dentro del texto; índices kwoc (keyword out of context), donde la palabra que alfabetiza se encuentra fuera.

La diferencia entre palabras-clave y unitérminos es que estos pueden tener una referencia o nota indicativa, que ayuda a eliminar la sinonimia, y, por tanto tienen limitaciones para su combinación.

Las características de estos lenguajes combinatorios son la flexibilidad, sectorialización o especialización (en mayor o menor grado), multiplicidad de combinaciones entre los términos, control terminológico, ademas de la facilidad de revisión y puesta al día.

Susinconvenientes son la posibilidad de falsas combinaciones por defecto de la indización en el analisis o en la recuperación de información. También el costoso trabajo de elaboración y el equipo de mantenimiento constante.

Un esquema de lo expuesto, sería el siguiente:


| | | |
|Criterio de |Clases de lenguajes |Lenguajes documentales |
|Clasificación |documentales | |
| | |Unitérminos |
|Control |Libres |Palabras-clave (Índices permutados) |
|del | | |
|Vocabulario | | |
| | |Clasificaciones |
| | |Encabezamientos de materia (Listas) |
| |Controlados |Descriptores (tesauros) |
| | |Clasificaciones |
| |Precoordinados |Encabezamientos de materia (Listas) || | | |
|Coordinación | | |
| | |Unitérminos, |
| |Postcoordinados |Palabras-clave (Índices permutados) |
| | |Descriptores (tesauros) |
| | |Clasificaciones enciclopédicas |
| |Jerarquica |Clasificaciones facetadas |
|Estructura | | |
| | |Unitérminos, |
| |Combinatoria |Palabras-clave |
| | |Encabezamientos de materia |
| | |Descriptores (tesauros) |
| | | |





























Burgos, mayo de 2003 (Curso de Auxiliares de Bibliotecas y Centros de Documentación)


Política de privacidad