IA para analizar millones de páginas de archivos de la dictadura

Existen millones de páginas de documentos de la dictadura uruguaya que aún no se han analizado en su totalidad. Investigadores, docentes y estudiantes de varias facultades de la Universidad de la República (Udelar), a través del proyecto Cruzar, utilizan técnicas de inteligencia artificial (IA) para procesar y analizar este tipo de archivos. La iniciativa busca facilitar el acceso y análisis de millones de páginas de documentos, para contribuir a la memoria histórica nacional.

El proyecto es impulsado por la Facultad de Ingeniería, la Facultad de Información y Comunicación, la Facultad de Ciencias Sociales, el Centro Interdisciplinario en Ciencia de Datos y Aprendizaje Automático (CICADA) y miembros de la organización Madres y Familiares de Uruguayos Detenidos Desaparecidos.

Una de las colecciones documentales con las que se trabajó fue el Archivo Berrutti, que contiene unas tres millones de páginas de diverso material, producido por los organismos de seguridad durante y después de la dictadura. Son escaneos digitales de rollos de microfilm, con las que se fotografiar los documentos originales. En algunos casos, la calidad de las imágenes es muy mala (por ejemplo, tienen manchas y letras borroneadas). Esto dificulta mucho su procesamiento y análisis. Otras de las colecciones con las que se trabajó estaban parcialmente digitalizadas, como el Archivo Histórico de la ex Dirección Nacional de Información e Inteligencia y el Archivo del Cuerpo de Fusileros Navales.

Entre sus contenidos se encuentran recortes de prensa, listas de personas y lugares, fichas  personales de integrantes de diversos colectivos o generadas por organismos, fotografías, pasaportes y afiliaciones políticas.

A lo largo de los años, para procesar estos archivos, las y los investigadores primero se abocaron al procesamiento de imágenes, para que las transcripciones que se realizaran luego fueran más precisas. Para esto, se alineó y recortó las imágenes, entre otras tareas. 

Luego, para la transcripción se adaptaron herramientas de reconocimiento óptico de caracteres (OCR), que permiten leer y convertir texto a partir de imágenes con mayor precisión. Se procesaron más de 2.2 millones de imágenes y se desarrolló una plataforma (LUISA) para que la comunidad  colabore con transcripciones manuales.

El último paso fue el de almacenamiento y búsqueda. Las transcripciones se almacenaron en LUZ, un sistema operativo que permite realizar búsquedas más rápidas. También se desarrolló una herramienta (AMALIA) que permite hacer análisis cualitativos, y se comenzaron a aplicar técnicas de procesamiento de lenguaje natural para extraer conceptos clave. También se construyeron grafos de conocimiento, estructuras que permiten organizar los conceptos extraídos de los textos y sus relaciones, facilitando el análisis y la navegación por grandes volúmenes de información.

“Este proyecto se basa en el procesamiento de imágenes y en la extracción de información de los textos contenidos en los documentos. Estos dos campos son parte de la investigación en inteligencia artificial desde sus comienzos. A lo largo del proyecto, que comenzó en 2018, hemos usado diversas técnicas y hemos ido explorando el uso de innovaciones. Por ejemplo, comenzamos usando herramientas de OCR basadas en redes neuronales, y ahora estamos probando con modelos multimodales. Lo mismo pasa con la extracción de información. Comenzamos usando técnicas más tradicionales para identificar entidades nombradas (personas, lugares, etc.) y las relaciones entre estas, y en los últimos dos años exploramos y evaluamos el uso de modelos extensos del lenguaje para estas tareas”, dijo Lorena Etcheverry, responsable del proyecto, docente de la Facultad de Ingeniería e integrante del Grupo Coordinador de CICADA. 

“Hasta el momento hemos logrado extraer información de un tipo particular de documentos, que son las fichas personales. Estas fichas tienen anotaciones en texto que contienen información sobre las organizaciones a las que pertenece una persona, vínculos con otras personas, etc.  Buscamos generar un mapa con estos datos que nos permita reconstruir las trayectorias de las personas, sus vínculos con otras personas y lugares, y potencialmente ayudar a descubrir conexiones que hoy están ocultas. Las herramientas generadas en el marco de este proyecto están disponibles a la ciudanía a através del Repositorio Luisa Cuesta, una iniciativa de la UdelaR y la Institución Nacional de Derechos Humanos que funciona en el Campus Luisi Janicki de nuestra Universidad”, añadió.

Además, durante el proyecto se fue consolidando una red regional de investigación en IA y derechos humanos, que incluye a instituciones de Argentina, Chile, México y Uruguay. Esta red, junto a la información generada, abre nuevas posibilidades para análisis históricos.

Los resultados obtenidos hasta ahora también sugieren que este enfoque potenciado por la IA y distintas herramientas que se desarrollan pueden aplicarse a otros archivos documentales (mediados por la supervisión humana), contribuyendo a preservar y estudiar el patrimonio histórico desde una perspectiva innovadora.

El proyecto fue posible gracias a la IA y la ciencia de datos, dos áreas que son el eje del Centro Interdisciplinario en Ciencias de Datos y Aprendizaje Automático (CICADA). El centro está organizando su primer congreso (“Congreso regional CICADA: Ciencia de Datos, Aprendizaje Automático e Inteligencia Artificial”) para unir a la comunidad y compartir conocimiento en estas disciplinas. Será del 5 al 7 de noviembre en la Facultad de Ingeniería.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *