Metadatos como revuelta (07 de 10)

Inicio > Blog Bitácora de un bibliotecario > Metadatos como revuelta (07 de 10)

Metadatos como revuelta (07 de 10)

Microtesauros y lógicas relacionales

Construyendo mundos semánticos que huelen a maíz y suenan como el viento

 

Este post forma parte de una serie que explora cómo los metadatos pueden convertirse en un espacio de resistencia, rechazo y subversión poética. Desde la clasificación hasta los datos enlazados, la serie investiga cómo las prácticas de catalogación pueden codificar formas de opresión, y cómo pueden ser reinventadas para desafiar los sistemas dominantes y hablar desde los márgenes. Todas las entradas de esta serie pueden consultarse en el índice de esta sección.

 

De la resistencia a la infraestructura

Las entradas anteriores de esta serie diseccionaron el núcleo ideológico de los metadatos: su pretensión de neutralidad, su herencia colonial y su gramática disciplinaria. Demostraron que estándares como Dublin Core, SKOS y RDF no son lenguajes descriptivos, sino infraestructuras de autoridad. La subversión era posible: burlar la jerarquía de las etiquetas de SKOS, manipular los triples de RDF, volver los esquemas contra sí mismos. Sin embargo, la crítica y el sabotaje táctico tienen un límite. Los sistemas no cambian solo mediante exposición. Cambian cuando emergen nuevas infraestructuras.

Este texto se mueve de la resistencia a la construcción. Plantea cómo sería una ecología de metadatos postuniversal: una donde la descripción no se armonice bajo un único vocabulario, sino que se distribuya entre sistemas pequeños, interconectados y responsables. La propuesta es pragmática: construir microtesauros regidos por lógicas relacionales en lugar de herencia jerárquica.

 

Los límites de la universalidad

La organización del conocimiento contemporánea aún depende de vocabularios a gran escala —LCSH, AAT, AGROVOC, Darwin Core, TDWG, los tesauros de la UNESCO— que pretenden la universalidad mediante la "armonización semántica". El objetivo es la interoperabilidad, pero el resultado es la homogeneización semántica.

Bajo estos sistemas, los matices lingüísticos, ecológicos y disciplinares se reducen a descriptores estandarizados. Los LCSH pueden reconocer el "arte indígena", pero no las distinciones internas que son importantes para sus creadores. Darwin Core captura nombres de especies y coordenadas, pero no relaciones ecológicas ni contextos culturales. El macrotesauro funciona como un filtro: lo que no se ajusta a su sintaxis desaparece.

Esto no es un fallo moral, sino arquitectónico. La escala de la base de datos en sí misma impone la centralización. Un vocabulario universal presupone que el mundo puede segmentarse, etiquetarse y reconciliarse de forma coherente. Esta suposición es falsa. Los dominios del conocimiento evolucionan a ritmos distintos, en direcciones diferentes y bajo lógicas epistémicas diversas. Forzarlos a encajar en una única red semántica no es eficiencia, sino compresión epistémica.

 

El caso de los microtesauros

Un microtesauro es un vocabulario delimitado y específico de un dominio, creado para un contexto particular: un grupo de investigación, una colección de museo, un archivo comunitario, una estación de campo o un conjunto de datos. Es lo suficientemente pequeño para ser comprensible, lo suficientemente flexible para evolucionar y lo suficientemente abierto para interconectarse. El término es paralelo al de "microservicios" en ingeniería de software: componentes modulares que se comunican a través de interfaces definidas sin compartir una arquitectura monolítica.

Los microtesauros no aspiran a una cobertura global. Su fortaleza reside en la precisión y la trazabilidad. Cada término tiene una procedencia conocida; cada relación refleja un consenso local. Favorecen la subsidiariedad semántica: decisiones tomadas en la escala competente más pequeña. En lugar de categorías universales, obtenemos una federación de vocabularios situados cuyos límites son explícitos y negociables.

Estos sistemas no son antitéticos a los estándares: los extienden horizontalmente. Un microtesauro puede expresarse en SKOS, OWL o JSON-LD. Lo que cambia es el modelo de gobernanza: de un mantenimiento centralizado a una autoría distribuida, y de jerarquías fijas a relaciones adaptativas.

 

Lógica relacional como principio de diseño

Los tesauros convencionales son árboles jerárquicos. Los conceptos descienden de términos más generales a más específicos, con enlaces laterales añadidos posteriormente. Este diseño presupone que el conocimiento puede organizarse como herencia. Sin embargo, los ecosistemas de información modernos —redes biológicas, datos ambientales, ciencia abierta interconectada— operan mediante relaciones, no mediante linajes.

La lógica relacional trata a los conceptos como nodos conectados por predicados, en lugar de como hijos de una única clase parental. En SKOS, esto implica priorizar skos:related, mapear relaciones (exactMatch, closeMatch, broadMatch, narrowMatch) y, cuando sea necesario, definir propiedades personalizadas. En OWL, implica construir clases mediante restricciones de propiedades y relaciones específicas de dominio, en lugar de árboles taxonómicos profundos.

Un concepto en un microtesauro se define, por lo tanto, por aquello con lo que se conecta, no por aquello de lo que hereda. El cambio puede parecer semántico, pero en realidad es filosófico y operativo. La jerarquía presupone control; la relación, negociación. La primera optimiza la autoridad; la segunda, la adaptabilidad.

 

Cómo construir un microtesauro

La construcción de un microtesauro comienza con una definición clara de su alcance. Cada entorno semántico —una estación de biología marina, un corpus de historia oral, una colección local de instrumentos— exige una granularidad conceptual y un vocabulario disciplinario específicos. La definición del alcance determina los límites de relevancia: qué representará el tesauro y qué omitirá deliberadamente.

A partir de ahí, el proceso avanza mediante la obtención de términos. La terminología se recopila a partir del trabajo de campo, la literatura especializada, los metadatos existentes y el lenguaje natural de los profesionales. Los sinónimos y las variantes se documentan como expresiones separadas hasta que la comunidad o los expertos en la materia llegan a un consenso sobre un significado común. Esta heterogeneidad inicial es valiosa: revela la diversidad del uso real antes de que el vocabulario se formalice.

Una vez estabilizado el léxico, se modelan las relaciones entre los términos. En lugar de basarse exclusivamente en estructuras jerárquicas de mayor a menor alcance, los microtesauros enfatizan la equivalencia, la asociación y las relaciones procesuales: conexiones como "se usa en", "es producido por", "coocurre con" o "causa". Estas se pueden expresar mediante SKOS, OWL o predicados RDF personalizados, según el nivel de precisión semántica deseado. Se evitan las jerarquías implícitas a menos que una clara dependencia conceptual las justifique.

La validación constituye una fase social crítica. Expertos en el dominio, investigadores o responsables de la comunidad revisan las definiciones y las relaciones. Los cambios se registran, se controlan mediante versiones y se acompañan de breves justificaciones para garantizar la transparencia a lo largo del tiempo.

La publicación transforma el microtesauro en un artefacto utilizable. Se puede exponer como datos enlazados a través de repositorios Git, puntos de acceso SPARQL o exportaciones JSON-LD ligeras. El principio fundamental es que la interoperabilidad se logra mediante mapeos y alineamientos explícitos, no mediante la integración en una ontología más amplia.

Finalmente, el mantenimiento se concibe como una actividad continua e iterativa. Un tesauro vivo debe evolucionar con sus usuarios y su contexto. El objetivo no es la estabilidad, sino la transparencia: documentar cómo y por qué cambia el significado. Herramientas como VocBench, Protégé, PoolParty o incluso flujos de trabajo mínimos entre Markdown y RDF pueden respaldar este ciclo. Más importante que la sofisticación del software es la gobernanza: saber quién decide, quién revisa y quién asume la responsabilidad del entramado semántico que se crea.

 

Ventajas de la semántica distribuida

La justificación de la semántica distribuida reside en sus ventajas operativas y éticas. En primer lugar, la resiliencia: un fallo en un microtesauro permanece localizado. Una relación inconsistente o un término obsoleto afecta únicamente a su dominio inmediato, en lugar de desestabilizar todo un marco global.

Igualmente crucial es la rendición de cuentas. En los vocabularios a pequeña escala, la procedencia y la autoría son explícitas. Cada decisión lleva una firma; cada definición, una justificación rastreable. Esta visibilidad contrasta marcadamente con la opacidad de las taxonomías institucionales, donde la autoridad está dispersa y es anónima.

La adaptabilidad se presenta como una virtud práctica. Dado que un microtesauro es pequeño y autogestionado, puede evolucionar en cuanto surgen nuevas realidades. Una nueva tecnología, una nueva especie o una categoría social imprevista pueden incorporarse sin esperar el consenso de un organismo de normalización distante.

La interoperabilidad también adquiere un carácter diferente. En lugar de imponer un vocabulario maestro, las correspondencias entre tesauros autónomos funcionan como capas de traducción. Permiten que los sistemas dialoguen sin exigir asimilación, preservando la diversidad y facilitando la conexión.

Por último, la semántica distribuida mejora la accesibilidad cognitiva. Los profesionales pueden leer y comprender la estructura con la que trabajan. El tesauro deja de ser una infraestructura invisible y se convierte en una interfaz tangible: un mapa del conocimiento que refleja la práctica en lugar de ocultarla.

En conjunto, estas cualidades definen un modelo epistémico donde convergen la escala, la transparencia y la relación: una arquitectura federada del significado que puede cambiar sin colapsar, expresarse sin dominar y perdurar sin convertirse en dogma.

 

Ética y política de la escala

La escala no es neutral. Un vocabulario global centraliza no solo los datos, sino también la toma de decisiones. Cada inclusión y exclusión, cada definición, se convierte en un acto de gobernanza. Los microtesauros invierten esta dinámica. Ubican el control donde coexisten la experiencia y las consecuencias: en la frontera de la práctica.

Este es el equivalente semántico de la infraestructura federada: múltiples servidores independientes que se comunican mediante protocolos abiertos, pero que conservan su autonomía. La analogía es ilustrativa. Así como las redes sociales federadas resisten los monopolios de plataformas, los vocabularios federados resisten los monopolios ontológicos. Distribuyen el costo de la construcción de significado entre los nodos, en lugar de concentrarlo en un centro invisible.

Éticamente, este modelo se alinea con los principios CARE (Beneficio Colectivo, Autoridad para Controlar, Responsabilidad, Ética) desarrollados en la gobernanza de datos indígenas, sin recurrir a la inclusión simbólica. El principio es estructural: la autoridad sobre la descripción debe coincidir con la responsabilidad por sus consecuencias.

 

Arquitecturas relacionales en la práctica

Ya existen ejemplos de lógica relacional. En la informática de la biodiversidad, BioSchemas extiende Schema.org mediante perfiles de metadatos definidos por la comunidad que describen recursos biológicos y ambientales. Estas extensiones modulares complementan el vocabulario base en lugar de reemplazarlo. En el ámbito del patrimonio cultural, PeriodO representa las definiciones temporales como afirmaciones vinculadas —múltiples declaraciones académicas sobre cuándo comienza y termina un período— en lugar de como un único intervalo fijo. En ciencia ciudadana y grafos de conocimiento de biodiversidad, proyectos como OpenBiodiv y Plinian Core proporcionan vocabularios que se interconectan sin subsumirse entre sí, alineándose en torno a identificadores y predicados compartidos en lugar de a una herencia jerárquica. Cada uno funciona, en la práctica, como un microtesauro: pequeño, modular, transparente y gobernado por el contexto.

Un enfoque similar puede guiar a bibliotecas, archivos e infraestructuras de investigación. En lugar de revisar los LCSH, las instituciones pueden construir extensiones modulares: microtesauros localizados que interactúan mediante correspondencias explícitas. El grafo global se convierte en una federación de esquemas locales, cada uno de los cuales conserva su lógica y permanece vinculable.

Tradicionalmente, la catalogación siempre partió de la premisa de que la universalidad era condición indispensable para el orden. La siguiente fase del trabajo con metadatos parte de la premisa opuesta: que la pluralidad es condición indispensable para la coherencia.

Las lógicas relacionales permiten diseñar infraestructuras que conectan sin homogeneizar. SKOS y OWL, despojadas de sus pretensiones burocráticas, se convierten en instrumentos ágiles para la semántica distribuida, y pueden resultar tan eficaces para un banco de semillas local como para un archivo nacional.

Un sistema de metadatos construido a partir de microtesauros no es caótico: es policéntrico. Cada vocabulario define un entorno semántico donde las correspondencias forman las vías de comunicación entre ellos. El panorama resultante se asemeja más a una red ecológica que a una jerarquía: denso, diferenciado y dinámico.

 

La silenciosa revolución de la escala

Los metadatos se rebelan no solo mediante la crítica o el rechazo, sino también a través de la escala. La creación de vocabularios pequeños y autónomos que se interconectan lateralmente, en lugar de verticalmente, constituye una forma de disidencia infraestructural. Sustituye la fantasía del catálogo universal por la práctica de la descripción federada.

El trabajo es gradual, poco llamativo y técnico; sin embargo, redefine la economía política del conocimiento. Cada microtesauro se convierte en un espacio donde el significado se negocia en lugar de imponerse, donde la estructura surge de la relación, y donde la interoperabilidad es un diálogo, no un decreto.

La tarea, entonces, consiste en producir nuevos estándares —de forma silenciosa, local y precisa— hasta que la arquitectura de la universalidad se derrumbe bajo el peso de su propia obsolescencia.

 

Acerca de la entrada

Texto: Edgardo Civallero.
Fecha de publicación:04.11.2025.
Foto: ChatGPT.