Tesauro documental

  • Concepto o término preferido
    • vehículo
  • Áreas
    • vehículo - transporte [MT 3330]
  • Término (s) equivalente (s)
    • medio de transporte
  • Término (s) genérico (s) [TG]
    • (No)
  • Término (s) específico (s) [TS]
    • Embarcacion
    • vehículo aéreo
    • vehículo anfibio
    • vehículo militar
    • vehículo espacial
    • vehículo terrestre
  • Término (s) asociado (s) [TA]
    • empresa: transporte [MT 6005]
    • tecnología automotriz [MT 3510]
    • transporte [MT 3330]
Entorno semántico del término "vehículo" extraído del tesauro Motbis publicado por el Ministerio de Educación Nacional

Un tesauro , tesauro descriptor o tesauro documental , es una lista organizada de términos controlados y estandarizados (descriptores y no descriptores) que representan los conceptos de un dominio de conocimiento.

Es un lenguaje controlado que se utiliza para indexar documentos y buscar recursos documentales en aplicaciones informáticas especializadas. Los tesauros son, por tanto, una categoría de lenguajes documentales entre otras. Los términos (en el ejemplo opuesto: vehículo , barco , etc.) están vinculados por relaciones de sinonimia (término equivalente), jerarquía (término genérico y término específico) y asociación (término asociado); cada término pertenece a una categoría o dominio.

Introducción

El tesauro es una herramienta lingüística que permite relacionar el lenguaje natural de los usuarios con el contenido en los recursos. Esta técnica supera los límites del lenguaje natural, que es muy rico pero también a menudo ambiguo. El tesauro evita así los riesgos inducidos por sinonimias , homonimias y polisemias presentes en el lenguaje natural. A diferencia de un diccionario con el que a menudo se compara, un tesauro proporciona solo definiciones incidentalmente , las relaciones de los términos y su selección tienen prioridad sobre la descripción de los significados.

Por ejemplo, un tesauro que vincule cultivo a cultivo , trigo en grano y Francia en Europa , permitirá una pregunta sobre la cosecha de trigo en Francia para encontrar recursos indexados con el cultivo de cereales en Europa .

Los tesauros documentales son un tipo de tesauros que siguen principios de construcción establecidos desde la década de 1970 en una norma internacional ISO, cuya última edición se publicó en 2011. Con el desarrollo de normas y aplicaciones informáticas especializadas, como en el campo vecino de las ontologías , se la convergencia de cuestiones (recursos, jerarquía, reutilización, etc.) ha acercado los tesauros documentales a las ontologías .

Etimología, ortografía e historia

Tesauro , significa "colección, directorio" en latín. Dio origen al diccionario tesauro linguae latinae de Robert Estienne y un tipo de estructura que se llama tesauro , aunque tesauro tesauro documental y lexicográfico separados.

Los tesauros documentales cobran importancia gracias a la informatización desde la década de 1990. Se trata de un sistema de búsqueda privilegiado, en particular, debido al uso de operadores booleanos que luego permiten realizar ecuaciones de búsqueda lógicas.

Los diccionarios aceptan las tres grafías tesauro , tesauro y tesorería : la primera es un xenismo que toma directamente la forma latina, la segunda es una francización parcial y parece la más frecuente en la literatura, la última es la forma francesa. El tesauro plural latino se usa a veces, pero pasa por una forma obsoleta o un anglicismo (el inglés usa el plural latino). La coherencia quiere que escribamos un tesauro, tesauro o tesauro, tesauro o un tesoro, tesoros .

El tesauro contemporáneo

Esta nueva herramienta en documentación y ciencias de la información (en inglés Information Retrieval ) destinada a la indexación manual o automática , luego para la localización de documentos apareció después de la Segunda Guerra Mundial . La palabra tesauro se utilizó en la literatura debido al tesauro de Peter Mark Rodget ( Tesauro de palabras y oraciones en inglés de Roget - 1852) era un diccionario inglés de sinónimos y términos relacionados, organizado sistemáticamente, un tesauro lexicográfico . Después de la guerra, es decir a partir de 1947, el desarrollo de la ciencia y la tecnología en documentación requirió nuevas herramientas de investigación y entre 1947 y 1957 dio lugar a una gran corriente internacional de investigación teórica en investigación de información y clasificaciones documentales.

Peter Luhn y Bernier y Crane en los Estados Unidos reclamarán la autoría del tesauro documental de palabras clave, términos o conceptos. Esta palabra, que se había puesto de moda para todo lo relacionado con el control de vocabulario (lenguaje controlado), fue utilizada públicamente por primera vez en la documentación por Hélène-Louise Brownson (secretaria de Vannevar Bush ), tras diez años de investigación teórica en la Conferencia. De Dorking en estos términos: aplicación de un tesauro mecanizado basado en redes de significados relacionados  " .

Herramienta de indexación y herramienta de búsqueda

Un tesauro es un tipo especial de lenguaje documental. Se compone de un conjunto estructurado de conceptos representados por términos, que pueden utilizarse para indexar documentos en una base de datos bibliográfica o en un catálogo de centro de documentación, con fines de investigación documental. El uso del tesauro permite superar las imperfecciones del lenguaje natural con el propósito de indexar. El lenguaje natural, o nuestro lenguaje cotidiano, contiene muchas preocupaciones de polisemia y sinonimia. El tesauro es una herramienta de indexación combinatoria con un vocabulario controlado, es decir que los términos que lo constituyen son seleccionados y no pueden modificarse (excepto durante las actualizaciones). Es poscoordinado porque los descriptores que definen los conceptos pueden combinarse o asociarse a posteriori durante la búsqueda de información. La indexación en lenguaje documental gracias al tesauro permite una homogeneidad del modo de indexación que ya no depende de la cultura del indexador. El tesauro se utiliza en la entrada y salida de la cadena documental, es decir durante la fase de indexación y durante la fase de interrogatorio por parte del usuario. La capacidad de búsqueda a través del tesauro es importante ya que este último utiliza un lenguaje combinatorio que asocia y cruza las palabras de búsqueda para optimizar la calidad de los resultados.

Tres tipos de términos componen un tesauro:

Para el usuario de un catálogo electrónico o una base de datos bibliográfica, el tesauro puede ser una herramienta de investigación. Además, existen diferentes tipos de investigación. Podemos proceder a una búsqueda jerárquica consistente en navegar por el tesauro siguiendo su estructura de árbol: pasamos del más general al más particular. También existe la búsqueda por términos. Comenzamos con términos para navegar por el resto del tesauro.

Relaciones entre conceptos y términos

Un tesauro tiene una doble organización  : entre conceptos (es decir, una relación semántica) y entre términos que representan estos conceptos (es decir, una relación de equivalencia).

Relaciones entre conceptos, relaciones semánticas

Las relaciones entre conceptos son de varios tipos:

Por tanto, un concepto que es genérico de otro puede ser él mismo específico de un tercero (deben excluirse los bucles). Por lo general, un concepto está vinculado a uno genérico y solo a uno (excepto en el caso del concepto raíz), y a 0 an específicos. Sin embargo, es posible, si se introduce la polierarquía, tener en un tesauro dado varios genéricos para el mismo concepto. Para mayor precisión, se pueden escribir relaciones jerárquicas:Las relaciones de asociación están representadas por el acrónimo TA (término asociado - en inglés, RT: término relacionado). Estas relaciones entre conceptos permiten al investigador modificar gradualmente su cuestionamiento o ampliarlo sobre bases distintas a la relación jerárquica.

Es importante señalar que en el modelo base de ISO 25964, las relaciones de asociación son recíprocas. Así, la relación que une Bird y Ornitología es simétrica y válida en ambas direcciones. No obstante, la norma ofrece la posibilidad de especializar estas relaciones para hacerlas asimétricas, como en el caso de una relación CAUSA / EFECTO (apartado 10.4 de la norma ISO 25964-1). SKOS no impone reciprocidad de simetría para la relación asociativa: las relaciones asociativas pueden ser simétricas, asimétricas o antisimétricas.

Relaciones entre términos que representan conceptos, relaciones de equivalencia

Las relaciones de equivalencia entre términos que representan un mismo concepto permiten luchar contra la polisemia. La nueva norma ISO 25964-1: 2011 designa entre todos los términos que pueden representar un mismo concepto: un término preferencial (descriptor) y términos no preferenciales (no descriptores), base de la univocidad del concepto. Esta relación está representada por el acrónimo EP (abreviatura de "Empleado para"). La relación inversa de los términos no preferenciales con el término preferencial está representada por el acrónimo EM (abreviatura de "Empleador")

Se trata de variantes de términos específicos ( sinonimia o cuasi sinonimia) considerados como "equivalentes" en el lenguaje cotidiano, o términos que representan conceptos lo suficientemente cercanos como para ser considerados "equivalentes" para el sistema de acceso a la información.

Otros atributos

Se pueden agregar varios tipos de relaciones, elementos o atributos adicionales a esta estructura para enriquecer el tesauro o mejorar su uso. En particular, podemos citar diferentes tipos de notas: notas de uso (o notas explicativas o de aplicación) que definen o aclaran el perímetro semántico de un concepto, notas de definición, notas útiles para los directivos, etc. También es posible proporcionar “equivalentes lingüísticos” de conceptos para tesauros multilingües, así como puentes con otros tesauros en el mismo dominio o en dominios diferentes.

Constitución de un tesauro

Un tesauro se desarrolla, ya sea manualmente por una o varias personas, gracias a la inteligencia humana (el desarrollo de un tesauro de 3.000 descriptores por una sola persona puede llevar de seis a ocho meses), o de forma automática, mediante inteligencia artificial, gracias al tesauro automático. software de construcción como SATO ( Computer Text Analysis System), o mediante una mezcla del enfoque humano y automático. Los sistemas de procesamiento de texto automático (indexación automática) permiten la extracción de los términos más frecuentes de un corpus y, en cierta medida, facilitan el surgimiento de sus relaciones semánticas. Este software de información también utiliza herramientas lingüísticas para el reconocimiento morfoléxico y sintáctico. Según G. Salton, Luhn y Mooers fueron los primeros en considerar la sustitución de indexadores por la máquina y de la inteligencia humana por inteligencia artificial, por ejemplo a través del análisis de la frecuencia de palabras clave (CRANFIELD II, SMART Information Retrieval System, relevancia, relevancia), lo que dio lugar a la corriente de generación automática de tesauros por ejemplo el NCI_Metathesaurus gracias a un software especializado como IBM THESAUT-TP (creación automática de un tesauro a partir de perfiles o preguntas documentales) que es un software de procesamiento lingüístico para la asistencia de consultas o TLS ( Tesauro y Sistema Lingüístico) que, junto con el programa THES, permite la creación y consulta de tesauros para enriquecer una pregunta. Luego debe estar vinculado a la indexación automática de documentos . Es un vocabulario controlado, ya que es el resultado de un largo proceso de clasificación de palabras, nombres y expresiones utilizadas en un campo en particular. Es un proceso pragmático y continuo de racionalización de términos descriptivos. Hay tres métodos para crear un diccionario de sinónimos:

Estos métodos a veces tienen otros nombres, como el método "estalactítico" y "estalagmítico" (D. Sörgel). Con miras a la mejor adecuación al dominio considerado, los términos se inventarian, comparan, relacionan y finalmente se jerarquizan para reflejar las características esenciales del dominio. Esta jerarquía se basa en una tipología  : cada término pertenece a una categoría que lo sitúa en relación con todos los demás términos seleccionados y que de esta manera establece su prioridad de uso. La jerarquía de términos puede ser bastante diferente de un tesauro a otro e incluso estar sujeta a inconsistencias en un uso u otro del mismo tesauro.

Finalmente, comenzando desde el nivel más alto y correspondiente al dominio del tesauro, primero encontramos las subdivisiones principales que representan los componentes del dominio, subdivisiones a menudo llamadas microtesauro . Un ejemplo de un tesauro compuesto por un conjunto de microtesauros, luego para cada subdivisión, la jerarquía específica de los descriptores. En el tesauro con diagramas de flechas (ej. Tesauro de gestión), existe una estructura en campos semánticos , cada uno constituye un conjunto de 30 a 40 descriptores definidos por una palabra clave de título colocada en el centro de la cuadrícula. Un tesauro también puede relacionarse con varios campos, como es el caso de un macrotesauro (ejemplo: Tesauro de la OCDE). Un tesauro sectorial está especializado en un área de conocimiento específica (ejemplo: Tesauro de formación).

Siempre queda una dimensión arbitraria en la jerarquía de un tesauro, ya sea en la elección de términos o en su posición jerárquica.

Existen diferentes estándares para el desarrollo de tesauros. (Lea también el número especial de la revisión documentalista de ADBS ).

Este borrador de norma, que se está ultimando, reemplaza las dos normas anteriores: ISO 2788-1986: Principios rectores para el establecimiento y desarrollo de tesauros monolingües, e ISO 5964-1985: Principios rectores para el establecimiento y desarrollo de tesauros multilingües.

Ejemplo de un tesauro básico

Considere los títulos principales de un micro-tesauro en un sistema informático colaborativo:

La sección de Individuos consistiría, por ejemplo, en:

Así, la persona responsable de cualquier contribución podría especificarse mediante al menos un término descriptivo elegido entre los cinco términos específicos (TS) o entre los tres términos genéricos (TG), según se requiera. Los términos (EP) se evitarán en principio en la indexación, pero podrán usarse posteriormente para explotar exclusivamente un tipo particular de contribución sin usar estrictamente los términos propios de la descripción inicial.

Modos de presentación

Cualquiera que sea su medio, un tesauro suele utilizar presentaciones alfabéticas de sus términos; primera etapa antes de la presentación de relaciones jerárquicas. Así, el usuario puede confundirse al principio por la ausencia de un término en una lista, mientras que otra modalidad de uso del tesauro le revelará que este término sí se tiene en cuenta pero gracias a una relación de equivalencia con un término preferencial. Las presentaciones en forma de gráficos y mapas permiten exploraciones más complejas.

El uso o exploración de un diccionario de sinónimos generalmente se puede hacer usando diferentes modos de presentación:

Se puede encontrar en estas listas, el símbolo ' MT que indica el microtesauro al que pertenece el término. Un microtesauro es un campo semántico particular que permite consultar todos los términos relacionados durante la indexación de un documento.

Hay varios tipos de presentación:

pero todavía :

El tesauro gráfico continúa desarrollándose gracias a las interfaces web y de computadora. Todos los sistemas de gestión de documentos electrónicos (EDM) tienen un módulo de gestión y un tesauro operativo integrado.

Elementos opcionales de un tesauro

Asociados a los descriptores están las definiciones (caso de desambiguación ), notas de ayuda al usuario o al editor (avisos), enlaces de todo tipo, etc.


Orígenes de los tesauros

El primer tesauro

El primer tesauro operativo es el de términos químicos en 1959, Tesauro de términos de ingeniería ( EIDuPont de Nemours and Co. del Centro de información de ingeniería. Thesaurus of ASTIA descriptors enMayo de 1960creado por la Agencia de Información Técnica de las Fuerzas Armadas (ahora Centro de Documentación de Defensa) con conceptos según el método de Calvin Mooers, es decir "descriptores", palabras o grupos de palabras propuestos para indexar y que se fusionarán con el Tesauro de Términos de Ingeniería , construido por el Engineers Joint Council, en 1964 para formar el Thesaurus TEST en 1967. En 1961, aparece el Chemical Engineering Thesaurus , desarrollado por el Instituto Americano de Ingenieros Químicos (AIChE). Por lo tanto, el tesauro documental también se denominó "tesauro descriptor" (G. Van Slype). La Oficina Van Dijk se especializó en los tesauros con diagramas de flechas, con representación gráfica, con terminogramas como el Euratom Thesaurus, el primer tesauro europeo, y tesauros con árboles con polígonos o con diagramas circulares (o círculos concéntricos) como el del holandés. ejército en 1964, el Sistema de Tesauro Circular TDCK. El primer tesauro francés que lleva este nombre sería el tesauro de armamento CEDOCAR . El florecimiento de los tesauros se remonta a la década de 1970 en ciencia y tecnología. Ya en la década de 1960, aparecieron hoy simposios sobre la construcción de tesauros (Simposio sobre la construcción de tesauros, Oslo, Noruega (1965) llamados talleres (Construyendo taxonomías para la recuperación de información: un taller práctico, 2005, ASIS). Según Brian Vickery esta palabra reagrupa al menos cuatro significados diferentes bajo la misma palabra. Aparecen bibliografías y directorios de tesauros nacionales e internacionales, enumerados por la ASLIB o por el Boletín de las bibliotecas de Francia (BBF) en Francia. Los tesauros están inventariados. diferentes directorios que incluyen:

El tesauro se inventó con el fin de indexar y luego buscar documentos. En 1971, la UNESCO estableció directrices para los tesauros multilingües. Muy rápidamente, en 1972/74, el tesauro se estandarizó (normas nacionales AFNOR Z 47-100 e internacionales ISO 2788), después de un simposio en Berlín Occidental en 1973 con UNISIST, ISO y UNESCO y luego una conferencia en Helsinki enMayo de 1976que conduce al Proyecto de Guía de Establecimiento de Tesauros Multilingües . Tras la publicación de nuevas normas anglosajonas en 2005 (ANSI / NISO Z39.19 y BS 8723), apareció una nueva versión de esta norma ISO, que fusiona las versiones mono y multilingües, como borrador enoctubre de 2009.

Notas y referencias

  1. MOTBIS tesauro en línea por SCÉRÉN - CNDP , palabra 3330
  2. Guía práctica para la elaboración de un tesauro documental Michèle Hudon, con la collab. por Danièle Dégez y Dominique Ménillet
  3. Hudon, Michèle. , Análisis y representación documental: introducción a la indexación, clasificación y condensación de documentos , Québec, Presses de l'Université du Québec ,2013, 297  p. ( ISBN  978-2-7605-3745-3 , OCLC  873807457 , leer en línea ) , pág.  130
  4. ISO 25964-1: 2011  : Tesauro e interoperabilidad con otros vocabularios - Parte 1: Tesauro para recuperación documental.
  5. White paper: ISO 25964-1 - Tesauro para la investigación documental ( AFNOR , enero de 2013)
  6. Instituto Nacional de la lengua francesa, el Tesoro de la lengua francesa  : el idioma del diccionario XIX ° y XX ° siglo (1789-1960) , t.  XVI: Teint-zzz , París, Gallimard ,1994, 1452  p. ( ISBN  2-07-077016-8 , leer en línea ) , pág.  588b.

    “♦ LING. (lexicogr.). “Inventario de unidades léxicas de una lengua orientadas a la exhaustividad” (Mounin 1974); título de obras académicas, incluidos diccionarios y enciclopedias. Tesoro de la lengua griega; Tesoro de la lengua latina; Tesoro de la lengua francesa; El tesoro de Félibrige . "

  7. Cf. Charles Bernier .
  8. Dorking Study Day, "Conferencia de estudio internacional sobre clasificación para la recuperación de información", 1957 http://www.bbf.enssib.fr/consulter/bbf-1958-01-0040-008 ]
  9. Sylvie Dalbin, “  Tesauro documental e informática. Des Noces d'Or  ”, Documentalist Information Sciences 2007, vol.4, no 1. , vol.  44, n o  1 "Lenguajes documentales y herramientas lingüísticas",2007, p.  76-80 ( leer en línea )
  10. SKOS. 8.6.3. Simetría de skos: relacionado, Traducción de SKOS en el sitio sparna.fr
  11. Jacques Chaumier, La saga de IBM de la informática documental. Algunos hitos
  12. NCI Metathesaurus
  13. [Los últimos treinta años en recuperación de información, Revista de la Sociedad Estadounidense para la Ciencia de la Información Volumen 38, Número 5, Fecha: septiembre de 1987, Páginas: 375-380 Gerard Salton en el sitio web JASIST / Gerard Salton Explotación de un gran tesauro para la recuperación de información
  14. Bibliografía
  15. Sinónimos Construcción y Uso: A Practical Manual, Jean Aitchison, Ed Routledge, 4 ª  edición ( 1 st abril de 2002) María Teresa Laureilhe, tesauro, su función, estructura y élaboration.Lyon, lENSB Press, 1981
  16. Leer en el Web FW. Lancaster, construcción y uso del tesauro: un curso condensado; 1985 [PDF]
  17. Consulte también las Directrices de la IFLA para tesauros multilingües
  18. Basado en la base de datos FRANTIQ, PACTOLS Pueblos y culturas, Antropónimos, Cronología relativa, Toponimos, Obras, Lugares, Temas
  19. Tesauro de la OCDE
  20. Dominique Chichereau , Odile Contat , Danièle Dégez y Alina Deniau , “  normas de diseño, gestión y mantenimiento del tesauro  ”, del documentalista-Sciences de l'information , vol.  44, n o  1,2007, p.  66 ( ISSN  0012-4508 y 1777-5868 , DOI  10.3917 / docsi.441.0066 , leído en línea , consultado el 29 de enero de 2020 )
  21. Tesauro y otros diagramas de conceptos: documentos normativos
  22. Lectura: Lenguajes documentales y herramientas lingüísticas. 2 e  parte. Normas, estándares e interoperabilidad, Diseño de tesauros, estándares de gestión y mantenimiento, Desarrollos y perspectivas recientes , Dominique Chichereau, Odile Contat, Danièle Dégez, Alina Deniau, Michèle Lénart, Claudine Masse, Dominique Ménillet, bibliotecaria de ciencias de la información, Volumen 44 2007/1
  23. Tesauros e interoperabilidad con otros vocabularios. Parte 1: Tesauros para la recuperación de información (en) , en el sitio web de ISO [PDF]
  24. ANSI / NISO Z39-19: 2005 Estándar [PDF]
  25. Ver Alan Gilchrist Thesaurus en recuperación , Londres. Aslib. 1971
  26. Van Slype Georges Definición de las características esenciales del tesauro Bruselas: Bureau Marcel van Dijk, 1976.
  27. Definición de árbol circular en el Tesauro de la actividad gubernamental en Quebec]
  28. https://www.cairn.info/revue-documentaliste-sciences-de-l-information-2007-1-page-42.htm Sylvie Dalbin, Documentalist Information Sciences, 2007, Vol 44, N ° 1. Tesauros y documentales de TI ¿Socios de larga data? (10.3917 / docsi.441.0042)
  29. cf. Tesis de maestría en ciencias de la información, Universidad del Panthéon Sorbonne, 1997-1998: Gaëlle MILLET: HISTORIA DEL PRIMER THESAURI EN FRANCIA A TRAVÉS DE TRES PERSONAS CLAVE: ROBERT PAGES, JEAN CLAUDE GARDIN Y DANIELE DEGEZ bajo la supervisión de Sylvie Fayet Scribe
  30. Cfr. Hacia los precursores: [1] .
  31. cf. Calvin Mooers [2]
  32. Bernier y Crane, Índice correlativo, Semántica y semantemas ...
  33. HP Luhn, " Un enfoque estadístico para la codificación mecanizada y la búsqueda de información bibliográfica ", publicado en IBM Journal of Research and Development. Este artículo establece los fundamentos de la indexación automatizada de textos, basado en el análisis estadístico de la frecuencia de los términos y abre el camino a todo el trabajo sobre el análisis de ocurrencias y co-ocurrencias. Luhn también usa el término tesauro en este artículo. (Fuente Urfist después de CHAUMIER).
  34. [3]
  35. Margaret Masterman, Lenguaje, cohesión y forma, Cambridge University Press, diciembre de 2005.
  36. http://bbf.enssib.fr/.../bbf-1969-05-0181-001
  37. Maria Theresa Laureilhe, De algunos tesauros, Bbf 1970 - París, t. 15, n o  1 [4] Maria Theresa Laureilhe prueba bibliografía y índice de materia publicados desde 1960 (el 1 st de marzo de 1969), véase también [5]

Bibliografía

Fuentes clave:

Diverso :

Lea también: Estudios históricos en ciencia de la información - Por Trudi Bellardo Hahn, Michael Keeble Buckland en Google Books

Artículos

Ver también

Artículos relacionados

enlaces externos