Las áreas de investigación del CICADA representan líneas y áreas problema a desarrollar de la Ciencia de Datos (CD), con muchos métodos en común entre ellos. Cada una de ellas presenta diferentes desafíos en términos de estructura y representación de datos y del tipo de problemas a resolver. Un aspecto transversal a todas y de gran interés para el centro es el estudio sistemático de los aspectos vinculados a ética, sesgos y discriminación en la CD.

Poblaciones y comunidades: Dinámica 

La teoría de metacomunidades, marco actual de análisis de la estructura y funcionamiento de la biodiversidad, está proponiendo y demandando nuevos abordajes estadísticos, en donde la teoría de grafos ha pasado a ser de uso frecuente, sumándose a su uso tradicional en redes tróficas y mutualistas. Esto involucra el acceso a nuevas herramientas de análisis, pero también el desafío de incorporarlas a la investigación, manejo ambiental y formación. 

Atendiendo a las demandas de la teoría ecológica, CICADA aspira a construir el contexto para el trabajo interdisciplinario en Ciencia de Datos. Esto implicaría una contribución cualitativa en el desarrollo académico en temas del agro, sanitarios y ambientales, y consecuentemente, en la capacidad del país para el abordaje de las problemáticas asociadas. 

Poblaciones y comunidades: Genómica y Evolución 

Debido al abaratamiento de los costos de secuenciación, se están generando datos genómicos de diferentes especies a un ritmo exponencial. Éstos permiten observar la variación genética dentro y entre poblaciones generando diversas aplicaciones: estudiar la estructura de las poblaciones, inferir diferentes aspectos de la evolución como ser migraciones y mezclas entre poblaciones ancestrales, identificar sitios sujetos a selección natural o artificial y establecer relaciones con fenotipos, ya sea para identificar las variantes genéticas responsables de los mismos (GWAS) o realizar predicción genómica. Además del modelado matemático, que ha sido crucial en el surgimiento de la genética de poblaciones, la cantidad de datos generados demanda el uso de herramientas computacionales potentes y técnicas avanzadas de aprendizaje automático para poder analizarlas. 

CICADA se propone continuar desarrollando métodos que permitan analizar las estructuras de poblaciones mezcladas como la Latinoamericana (en particular la uruguaya) y adaptar métodos de detección de selección a este tipo de poblaciones. 

Lenguaje Natural

La Lingüística Computacional estudia el Lenguaje Natural (LN) combinando el punto de vista computacional con la lingüística, la matemática, la lógica, la psicología y la neurociencia, entre otras. Los aspectos más vinculados a la utilización de computación para resolver tareas vinculadas al LN suelen englobarse dentro de la subárea del Procesamiento de Lenguaje Natural (PLN). Por sus propias características complejas, y por el enorme crecimiento en la cantidad de textos disponibles y corpus anotados, el PLN ha tenido un cambio radical en las últimas décadas, convirtiéndose en uno de los ejemplos más claros de aplicación exitosa de los métodos de aprendizaje automático a sus problemas. 

En CICADA nos proponemos trabajar en la aplicación de métodos básicos y avanzados del PLN a diferentes áreas de conocimiento, con el objetivo de representar y analizar los objetos del lenguaje para extraer o generar información nueva a partir de textos o audios. 

En particular, y en base a los antecedentes de colaboración, se propone utilizar como dominio inicial el de la Educación, con el objetivo de extenderlo a otros durante la vida del Centro. Las aplicaciones del PLN a la enseñanza son muy diversas, abarcando tanto el desarrollo de actividades educativas (ejercicios, juegos), como de herramientas de apoyo a la corrección o al estudio del desempeño de los estudiantes.  El medio de registro del lenguaje puede ser tanto el texto escrito como el audio. En este segundo caso la extracción de las palabras abre la puerta a otros métodos de procesamiento de audio y aprendizaje automático que pueden incorporar aspectos como emociones o entonaciones. Profundizar estos aspectos, incorporando nuevas aplicaciones (búsqueda de respuestas, análisis de sentimientos u otros aspectos extraproposicionales del significado), compartiendo este conocimiento con investigadores y profesionales del dominio de la educación son algunas de las aspiraciones en esta línea. 

Señales e Imágenes Científicas

«Ver para creer pero cuantificar para decidir» resume la relevancia de la incorporación de la componente cuantitativa en el proceso de adquisición, procesamiento y análisis de imágenes biomédicas. Las imágenes en general y las científicas en particular son un tipo de datos que aumentan su complejidad rápidamente (dimensiones espaciales y temporales, canales de longitud de onda, etiquetas, etc.). La matemática aplicada, el procesamiento de imágenes y el aprendizaje automático permiten el desarrollo de fundamentos y métodos para la sistematización y automatización de su procesamiento y análisis. Así, la extracción de información y cuantificación de los parámetros que describen los fenómenos de interés en las imágenes permiten el abordaje científico. 

En CICADA nos interesamos en estudiar los fundamentos y la aplicación de métodos para cuantificar distintos fenómenos, estableciendo puntos de corte entre procesos morfológicos normales y patológicos o frente al uso de sustancias inhibidoras o estimulantes de funciones celulares. 

Ética, sesgos y discriminación en la Ciencia de Datos

La toma de decisiones basada en datos ha creado nuevas oportunidades, pero también presenta nuevos desafíos éticos y amplía el conjunto de posibles riesgos, como por ejemplo la reproducción de la discriminación (por género, raza o clase social entre otras); la perpetuación de las inequidades y los perjuicios a la privacidad. Los resultados que brindan los algoritmos de aprendizaje automático son tan fiables como los datos en los que se basan y las decisiones que se toman durante el diseño de los mismos. 

En los últimos años se ha producido conocimiento en este sentido, desde métodos y métricas que permiten evaluar la equidad de las soluciones, pasando por propuestas metodológicas para mitigar y reducir los impactos del sesgo, particularmente los que se producen cuando no se toma en cuenta la perspectiva de género. Las discusiones acerca de estos temas están cada vez más presentes en la agenda de gobiernos, la academia y la sociedad civil, y necesitan de un abordaje interdisciplinario que sepa identificar el impacto social que la aplicación de estas técnicas puede tener. Esta es una línea de trabajo incipiente en Uruguay. En este sentido, CICADA persigue el objetivo de desarrollar y consolidar esta línea de trabajo. 

Grupos de Investigación