Escuela Internacional en Ciencias Sociales Computacionales 2023 (IMFD-CICADA-UMAD)

La Escuela Internacional en Ciencias Sociales Computacionales es organizada en conjunto por el Instituto Milenio Fundamento de los Datos (IMFD-Chile), el Centro Interdisciplinario en Ciencia de Datos y Aprendizaje Automático (CICADA-CSIC/Udelar) y la Unidad de Métodos y Acceso a Datos (UMAD-FCS/Udelar).

Se llevará a cabo entre el lunes 9 y el viernes 13 de octubre de 2023 en la Facultad de Ciencias Sociales. Las postulaciones están abiertas hasta el 31 de agosto.

La escuela no tiene costo para las personas seleccionadas ni se requieren conocimientos específicos previos de herramientas. Se establece un cupo de 40 estudiantes.

Relevancia

Los contenidos de la escuela se enmarcan en el campo de las llamadas ciencias sociales computacionales que si bien es un campo disciplinar con una larga trayectoria, en la actualidad enfrenta nuevos desafíos orientados al diálogo entre la investigación social y la era digital en tanto reflexión teórica, por un lado, y metodológica/técnica, por el otro. La intersección de la investigación social con otros campos disciplinares como son la ciencia de datos, la ingeniería y la computación, abren nuevas posibilidades para las ciencias sociales en el estudio de problemas sociales tradicionales, pero incorporando e innovando en términos metodológicos y técnicos. La perspectiva interdisciplinar también aparece como central en las ciencias sociales computacionales ya que se incorporan habilidades propias de otras disciplinas, como es la programación o la aplicación de modelos de Inteligencia Artificial (IA), con el fin de aportar, por ejemplo, en el manejo de grandes volúmenes de datos (numéricos, textuales, espaciales) para responder a preguntas propias de las ciencias sociales, pero desde un enfoque innovador y comprehensivo del comportamiento social.

Objetivos

El objetivo general de la Escuela es establecer un primer acercamiento teórico y práctico a herramientas computacionales y de la ciencia de datos aplicadas a la investigación social.

Se plantea como objetivos específicos:

  1. Introducir a los/as estudiantes en los métodos computacionales disponibles para responder a preguntas o problemas propios de las ciencias sociales.
  2. Promover discusiones teóricas y epistemológicas sobre el trabajo con datos en diferentes áreas o contextos de aplicación (academia, políticas públicas). 
  3. Incentivar la adquisición de competencias básicas de programación y técnicas para la recuperación, análisis y visualización de datos en la investigación social.
  4. Ensayar aplicaciones de las técnicas introducidas según ejercicios prácticos que serán planteados en los talleres.

Público

La escuela está dirigida a estudiantes de Maestría, Doctorado o profesionales de Ciencias Sociales o áreas afines, que deseen utilizar herramientas computacionales para el análisis de datos sociales. También podrán postular aquellos estudiantes de Ciencias de la Computación que deseen profundizar en conocimientos ligados al área social.

Estructura

La escuela contará con cursos teóricos-expositivos y talleres prácticos que se desarrollarán durante los cuatro días, combinando actividades en salones y laboratorio de informática de la Facultad de Ciencias Sociales (Udelar).

Cursos

Sociedades intensas en datos e investigación social

Juan Pablo Luna (IMFD Chile)

El curso aborda desde una perspectiva teórica las implicancias de la irrupción de sociedades intensas en datos para la investigación sobre fenómenos sociales y políticos. En primer lugar se analizará el rol de los datos en el gobierno de las sociedades, tanto desde una perspectiva histórica como contemporánea. En segundo lugar, se discutirán las posibilidades que abre una sociedad intensa en datos para la investigación social. En tercer lugar, se problematizarán los sesgos involucrados en dicho tipo de investigación. Finalmente, se discutirán las potencialidades de la investigación interdisciplinaria para intentar mitigar dichos sesgos.  

Métodos manuales y automatizados para el análisis de datos textuales

Sebastián Valenzuela (IMFD Chile)

Magdalena Saldaña (IMFD Chile)

En este curso, exploraremos la transformación de textos, ya sean tweets, noticias o discursos, en conjuntos de datos útiles para la investigación. Comprenderemos que, aunque podemos leer y entender el significado de un texto, solo cuando lo procesamos según ciertas reglas o estructuras, se convierte en un recurso valioso para hacer inferencias científicas. El análisis cuantitativo de textos tiene una rica tradición en las ciencias sociales, así como en las ciencias de la computación y de datos. Durante el curso, abordaremos tanto métodos manuales, como la codificación humana de textos en categorías o variables predefinidas, como métodos computarizados, que incluyen enfoques basados en diccionarios, aprendizaje automático y word embeddings, entre otros. Realizaremos una comparación de estos enfoques para identificar sus ventajas y desventajas respectivas. Además, veremos ejemplos de cómo vincular el análisis de datos textuales con otras fuentes de información, como encuestas de opinión, para responder preguntas de investigación. Durante la clase haremos breves ejercicios donde se compararán los resultados de análisis manuales con el uso de herramientas automatizadas como ChatGPT.

Procesamiento de Lenguaje Natural en la última década: desde Shannon a GPT 4

Felipe Bravo (IMFD Chile)

Los modernos modelos de lenguaje, representados por asistentes virtuales y chatbots como ChatGPT y Google Bard, han transformado la manera en que interactuamos con las máquinas,  permitiéndonos interactuar con ellas de la misma forma con la que interactuamos con nuestros pares humanos, usando el lenguaje. Estas impresionantes capacidades no son el resultado de un mero golpe de suerte, sino el fruto de un progresivo desarrollo basado en descubrimientos científicos e innovaciones tecnológicas en el campo del procesamiento del lenguaje natural. En esta charla, trazamos el recorrido desde sus inicios, desde los primeros modelos de lenguaje estudiados por Shannon en la década de 1950, pasando por los primeros modelos de lenguaje neuronales propuestos por Bengio y otros, hasta llegar a los actuales grandes modelos de lenguaje.

Modelado y visualización de datos textuales

Natalia da Silva (IESTA-FCEA)

Nicolás Schmidt (UMAD-FCS)

Elina Gómez (UMAD-FCS)

Este curso se propone introducir a los estudiantes en los fundamentos de la gramática de gráficos (Wilkinson, 2005) y la versatilidad que presenta para la visualización de diferentes tipos de datos entre ellos los datos textuales. Asimismo, en este curso se presentaran los modelos supervisados y no supervisados más comúnmente utilizados en ciencias sociales para trabajar a partir de datos textuales, aplicados a discursos parlamentarios. Para unir el mundo del modelado con el de visualización en el curso se verán los fundamentos del lenguaje de aplicaciones web interactivas para testear distintos modelos con distintas salidas graficas que permitan explorar los datos. El lenguaje de programación principal que se va a utilizar en el curso es R. Las estructuras funcionales que se van a presentar en particular son ggplot2 y shiny.

Bases de Datos de Grafos/Network Science

Juan Reutter (IMFD-Chile)

Lorena Etcheverry (INCO-Fing)

La Ciencia de Redes, conocida como Network Science, se enfoca en analizar sistemas complejos mediante la representación y comprensión de las interconexiones entre sus componentes. Esta disciplina se ha convertido en un componente importante de la ciencia social computacional, siendo aplicada en el estudio de dinámicas y estructuras sociales de diversa índole.
En esta sesión, exploraremos técnicas fundamentales para estudiar redes en el contexto de la ciencia social computacional, como la identificación de componentes centrales en una red, de comunidades, o de caminos. También examinaremos el uso de redes para modelar, almacenar y consultar conocimiento, dando origen a los Grafos de Conocimiento (Knowledge Graphs), y destacando Wikidata, el fundamento detrás de la información en Wikipedia. La actividad tendrá también una componente práctica, donde las asistentes podrán experimentar y desarrollar códigos de análisis de redes en un trabajo con datos sociales reales.

Sesgos algorítmicos en PLN

Cronograma tentativo*

Lunes 9Martes 10Miércoles 11Jueves 12Viernes 13
09:00-10:30Introducción a las Ciencias Sociales ComputacionalesMétodos manuales y automatizados para el análisis de datos textualesProcesamiento de Lenguaje Natural en la última década: desde Word2Vec a GPT-4Modelado y visualización de datos textuales
11:00-12:30Coffee breakCoffee breakCoffee breakCoffee break
11:00-12:30Bases de Datos de Grafos/Network ScienceMétodos manuales y automatizados para el análisis de datos textualesProcesamiento de Lenguaje Natural en la última década: desde Word2Vec a GPT-4Modelado y visualización de datos textuales
12:30-14:00Receso almuerzoReceso almuerzoReceso almuerzoReceso almuerzo
14:00-16:00Bases de Datos de Grafos/Network Science Sesgos algorítmicos en PLN.Sociedades intensas en datos e investigación socialModelado y visualización de datos textuales
18:00-21:00Panel Apertura: Relevancia y desafíos del uso de herramientas computacionales y de la ciencia de datos para la investigación social
*El cronograma puede tener cambios.

Docentes

Dr. Juan Pablo Luna

Doctor en Ciencia Política de la Universidad de Carolina del Norte en Chapel Hill, Estados Unidos. Es autor de los libros “Segmented representation: political party strategies in unequal democracies” (Oxford University Press, 2014) y de “En vez del optimismo. Crisis de representación política en el Chile actual” (Catalonia, CIPER, 2017). En 2014 co-editó el libro “The resilience of the Latin American Right” (Johns Hopkins University Press). Es editor asociado de Latin American Politics and Society (revista académica editada por Cambridge University Press). Ha sido profesor visitante en las universidades de Columbia (2018), Brown (2016), Harvard (2013), Sciences-Po (2013 y 2019) y Princeton (2008).

Dr. Juan Reutter

Doctor en Ciencia de la Computación por la Universidad de Edimburgo, Escocia, Director del Instituto Milenio Fundamentos de los Datos. Sus áreas de interés son los principios matemáticos en ciencia de datos, gestión de datos, web y bases de datos de grafos. Recibió el premio Ramón Salas Edwards del Instituto de Ingenieros de Chile, el Cor Baayen Award del Consorcio Europeo de Investigación en Informática y Matemáticas, y el premio a la mejor tesis en ciencia de la computación del Reino Unido otorgado por el Council of Professors and Heads of Computing. Su investigación ha sido resaltada con los premios al Mejor Paper en las conferencias ACM-PODS en 2011 e ISWC en 2019, y recientemente el ICLR Outstanding Paper Award.

Dra. Lorena Etcheverry

Ingeniera de Computación, Magíster y Doctorado en Computación por la Universidad de la República (UdeLaR), donde se desempeña como Profesora Adjunta en régimen de DT del Instituto de Computación de la Facultad de Ingeniería (FING). Investigadora Nivel I del Sistema Nacional de Investigadores (SNI) e investigadora Grado 3 del PEDECIBA Informática. Además, coordina la Maestría en Ciencias de Datos y Aprendizaje Automático de la FING e integra el Centro Interdisciplinario en Ciencia de Datos de la UdelaR (CICADA.uy). Su área de interés es la gestión de datos, especialmente las bases de datos de grafos, los grafos de conocimiento y los sistemas de análisis de datos. Más recientemente, se ha dedicado a aspectos éticos y de privacidad en la ciencia de datos, específicamente a la anonimización de datos y a técnicas analíticas que preservan la privacidad, así como a la detección y mitigación de sesgos algorítmicos.

Dra. Magdalena Saldaña

Doctora en Periodismo y Comunicación de Masas, Universidad de Texas en Austin, Estados Unidos. Sus áreas de investigación incluyen medios digitales, comunicación política, opinión pública y estudios latinoamericanos. Se desempeña además como editora asociada de la revista académica Digital Journalism, y es directora de la División de Teorías y Métodos de la Comunicación en la Association for Education in Journalism and Mass Communication (AEJMC), de Estados Unidos.

Dr. Sebastián Valenzuela

Doctor en Comunicación de la Universidad de Texas en Austin, Estados Unidos (2011), Investigador Principal del Núcleo Milenio e Desigualdades y Oportunidades Digitales e Investigador Asociado del Instituto Milenio Fundamentos de los Datos. Ha sido investigador asociado del Centro de Investigación para la Gestión Integrada del Riesgo de Desastres (CIGIDEN) y profesor visitante en la University of Wisconsin-Madison, Estados Unidos. Su investigación se centra en la opinión pública, la comunicación política, las redes sociales digitales y el periodismo, temas sobre los que ha escrito en más de 60 publicaciones académicas. Su trabajo ha sido premiado por asociaciones internacionales, incluyendo ICA, AEJMC y WAPOR. Actualmente, es también director de Investigación y Creación de la Facultad de Comunicaciones de la Pontificia Universidad Católica.

Dra. Natalia da Silva

Doctora en Estadística por la Universidad Estatal de Iowa. Es profesora Adjunta en el Instituto de Estadística de la Facultad de Ciencias Económicas y Administración (FCEA) de la Universidad de la República. Sus intereses y líneas de investigación se centran en los métodos de aprendizaje supervisado, predicción, análisis exploratorios, gráficos estadísticos, investigación reproducible, visualización y meta-análisis. Es co-fundadora de R-Ladies Ames y R-Ladies Montevideo. Trabaja en diferentes iniciativas para lograr una comunidad de R cada vez más fuerte en América Latina.

Dr. Felipe Bravo

Realizó su doctorado en el grupo Machine Learning de la Universidad de Waikato, Nueva Zelanda, donde también trabajó como Research Fellow durante dos años. Actualmente mantiene un puesto de Investigador Asociado Honorífico en este grupo. Anteriormente, recibió dos títulos profesionales en ingeniería en computación e ingeniería industrial, y un magíster en ciencias de la computación en la Universidad de Chile. Trabajó durante tres años como ingeniero de investigación en Yahoo! Labs Latin America. Sus intereses de investigación y experiencia se centran en la adquisición de conocimientos e información a partir del lenguaje natural, abarcando las áreas del procesamiento del lenguaje natural (NLP), el aprendizaje automático (ML), la inteligencia artificial (AI) y la recuperación de información (IR). En su investigación, ha desarrollado varios métodos de NLP y ML para el análisis de opiniones y emociones en medios de comunicación social, que han sido publicados en conferencias y revistas de prestigio como por ejemplo, IJCAI, ECAI, JMLR y Knowledge-based Systems. Ha formado parte del comité de programa en conferencias importantes en procesamiento de lenguaje natural e inteligencia artificial, tales como ACL, EMNLP, NAACL, IJCAI y ECAI.

MSc. Elina Gómez

Licenciada en Sociología, Magíster en Estudios Contemporáneos de América Latina y candidata a Doctora en Sociología por la Facultad de Ciencias Sociales de la Universidad de la República. Se desempeña como docente e investigadora en la Unidad de Métodos y Acceso a Datos (UMAD) de la Facultad de Ciencias Sociales. Su trabajo se centra en el campo de las ciencias sociales computacionales y procesamiento masivo de texto. Brinda cursos a nivel de grado y formación permanente en programación y análisis de texto con R.

MSc. Nicolás Schmidt

Candidato a Doctor en Ciencia Política (Udelar), Magíster y Licenciado en Ciencia Política. Es integrante del equipo de coordinación de la Unidad de Métodos y Acceso a Datos de la FCS. Su agenda de investigación se centra en el campo de los partidos políticos, los sistemas electorales y los regímenes políticos, así como en métodos estadísticos aplicados a la ciencia política.

Para postularse completar:

Cierre de postulaciones: 31 de agosto de 2023.

*La participación a la escuela será confirmada por correo electrónico. 

Por consultas: escuela.computacionales@cienciassociales.edu.uy