Categorías
Análisis de contenido Reconocimiento de datos Teorización Uncategorized

Pensar los datos cuantificados: #ScholarStrike en el contexto de la COVID-19

Si bien la pandemia de COVID-19 impuso por primera vez en años un contexto global compartido, este pronto comenzó a convivir con la coyuntura local de cada país. Twitter, como es esperable, no fue ajeno a ello, y pronto comenzaron a surgir hashtags específicos que deban cuenta de ese proceso de localización de la pandemia (por ejemplo, en Argentina, #coronacrisis, en referencia al derrumbe financiero a consecuencia de una larga cuarentena y una débil economía heredada del periodo anterior). No obstante, otros hashtags menos representativos de la situación sanitaria pronto comenzaron a resignificarse, e incluso a surgir, dentro de este contexto. Para los Estados Unidos, este fue el caso de #BlackLivesMatter y #ScholarStrike.

En este post buscamos investigar en las particularidades de este último, siguiendo la línea de reflexiones que propusimos en nuestro post anterior (What can academic journals tell us about COVID-19 and Education?), es decir, utilizar plataformas de análisis cuantitativo (en el post anterior usamos AVOBMAT ) desarrolladas por terceros para realizar un ejercicio de minería de datos, a la vez que evaluamos las funcionalidades y limitaciones de la herramienta.

El caso de #ScholarStrike nos pareció ideal para trabajar con una herramienta “a medida”, ya que es un hashtag que tuvo fuerte presencia durante un tiempo acotado (previo a la iniciativa, durante la misma y algunos días posteriores). 

Para quienes no están al tanto de las noticias del Norte, Scholar Strike fue un movimiento comunitario en las universidades que buscó reconocer el creciente número de muertes de Afroamericanos y otras minorías por el uso excesivo de la violencia y la fuerza por parte de la policía. Durante dos días, del 8 al 9 de septiembre, profesores, personal universitario, estudiantes e incluso administrativos se apartaron de sus deberes y clases regulares para participar en clases (en algunos casos, abiertas) sobre la injusticia racial, la vigilancia policial y el racismo en Estados Unidos. Las universidades de Canadá realizaron su propia Scholar Strike del 9 al 10 de septiembre. En el sitio oficial del movimiento, se puede leer más sobre los fundamentos de Scholar Strike, asi como en su canal de YouTube, donde diferentes académicos colocaron clases abiertas y recursos. El sitio oficial también contiene una lista de recursos textuales y audiovisuales que pueden ser utilizados en las clases así como información sobre la cobertura de Scholar Strike en los medios. Scholar Strike Canada también creó un sitio web oficial, que incluye los detalles del programa de actividades, recursos y links a organizaciones que apoyaron la iniciativa. 

Nuestro objetivo fue hacer minería sobre este hashtag en Twitter, buscando asimismo coincidencias terminológicas con otros directamente relacionados, como #BlackLivesMatter, y con algunos más ligados a la crisis del coronavirus.

Para ello, echamos mano de dos plataformas comerciales de minería de Twitter: Brand24 y Audiense. Evidentemente, estas herramientas no son académicas, pero, como veremos mas adelante, se adaptan perfectamente al tipo de trabajo que queremos hacer con relación al análisis de datos cuantificados.

El sitio oficial de Brand24 describe a la plataforma como una “herramienta de monitoreo de redes sociales y páginas web con potentes posibilidades de análisis.”  (Brand24 is a web and social media monitoring tool with powerful analytics). La herramienta busca las palabras clave  que el usuario proporciona y las analiza en varios niveles. La herramienta está principalmente orientada para análisis de marcas y el uso de esos datos en marketing digital. Por otra parte, Audiense, según describe su página oficial, “proporciona información detallada sobre cualquier audiencia para impulsar estrategia de marketing social con datos procesables y enriquecidos en tiempo real con el fin de ofrecer resultados comerciales genuinos” . Cabe destacar, como puede verse por las descripciones oficiales de las herramientas, que ambas han sido desarrolladas para ser utilizadas en proyectos empresariales, aunque se adaptan, claro está, a cualquier tipo de búsqueda en redes sociales.

La labor con estas plataformas es radicalmente opuesta a la que venimos realizando en este proyecto. Si en la interacción con nuestra base de datos, establecemos un proceso de filtro y curaduría de los datos, para luego proceder al análisis a través de distintas herramientas y métodos (frecuencia de términos, topic modeling), aquí son pocos los filtros que podemos dar a la plataforma (elegir las redes, establecer variables de días) y es la plataforma la que arroja diariamente una serie de resultados que son asimismo interpretados en un análisis automático en la forma de porcentajes y visualizaciones e infografías.

Como decíamos, usamos las plataformas Brand24 y Audiense en su versión trial de 7 días. A grandes rasgos, comparativamente, Brand24 es una plataforma bastante superadora a Audiense. Al introducir las mismas búsquedas, lo primero que notamos fue que Audiense presenta un sesgo altísimo frente a la información. Todos los tweets que levantamos con el hashtag #ScholarStrike eran negativos. Todos provenían de seguidores de Trump o del presidente mismo.

Figura 1. Informe de Audiense sobre #ScholarStrike.

Brand24, por el contrario, arrojó los datos de una forma más neutral. Como decíamos, a la búsqueda, que automáticamente al finalizar envía un email al administrador del proyecto, le sigue la posibilidad de descarga de un informe. No se puede trabajar sobre los datos. Se cree en los datos y las infografías o se los descarta.

Veamos, a continuación, qué narrativa nos ofrece esta última plataforma para la búsqueda #ScholarStrike.

La primera búsqueda del hashtag la hicimos el día 13 y Brand24 realizó la búsqueda retrospectiva en los últimos 30 días (14 Aug 2020 – 13 Sep 2020). A las 24 horas, nos permitió la descarga de un informe y  una infografía. En el primero, podemos ver que, en términos generales, el sentimiento acerca de la huelga fue positivo (44 positivos contra 21 negativos):

Figura 2. Resumen de las menciones de #ScholarStrike en redes sociales en Brand24.

Evidentemente, al ser solo una huelga de días, las menciones solo se producen en ese periodo, pero es notable cómo crecen al tercer día de comenzada la misma:

Figura 3. Gráfico de volumen de menciones de #ScholarStrike en redes sociales a lo largo del mes de septiembre.

Luego, la plataforma nos arroja una visualización de los términos más destacados de todas las redes sociales.

Figura 4. Conjunto de términos más nombrados en redes sociales dentro del contexto de discusión de #ScholarStrike.

Con justa razón, professor, teaching, son términos clave, ya que la huelga se dio en ese ámbito, pero, como decíamos en un principio, el entrelazamiento con el movimiento Black Lives Matter es visible el términos como racial, issues, september, police, injustice, black.

Es interesante, aunque esperable, dado su uso político, que de las dos redes sociales más populares, Facebook y Twitter, es la segunda la que se destaca. Otro término destacado es Butler. Lo interesante aqui es que, fuera de contexto, Butler podria asociarse a la filósofa y teórica Judith Butler, quien ha tenido una intervención activa en el movimiento BLM,  a través de publicaciones en periódicos, y en redes sociales, y ha sido muy citada a partir de su tesis de la performatividad del género, tal y como lo muestran estas publicaciones: https://opinionator.blogs.nytimes.com/2015/01/12/whats-wrong-with-all-lives-matter/ o

https://iai.tv/articles/speaking-the-change-we-seek-judith-butler-performative-self-auid-1580. Sin embargo, este término hace referencia a Aethna Butler, profesora en estudios religiosos y estudios africanos y afro-americanos de la Universidad de Pensilvania, quien fue una de las organizadoras del Scholar Strike: https://www.insightintodiversity.com/professors-lead-a-nationwide-scholar-strike-for-racial-justice/ 

A continuación, la plataforma nos muestra los usuarios más activos y los más recientes en cuanto a su actividad en Twitter:

Figura 5. Menciones más populares y más recientes en Twitter con sus usuarios.

Resulta difícil saber si la herramienta está midiendo a los más populares por cantidad de Tweets o por retweets. Por lo que se ve en las imágenes siguientes, parece que la medición se hace a partir de las menciones y estas son las que miden el grado de influencia de un usuario en Twitter (figs 6 y 7).

No obstante, lo que más nos llama la atención es el usuario ISASaxonists, un grupo de medievalistas especialistas en lit medieval anglosajona (fig 5).

Figura 6. Perfiles públicos más activos en Twitter relacionados con #ScholarStrike.

Figura 7. Perfiles públicos más influyentes en Twitter.

En último lugar la plataforma muestra los hashtags más usados (y relacionados entre sí):

Figura 8. Hashtags más mencionados en Twitter, a partir de la búsqueda #ScholarStrike.

#ScholarStrike, #BlackLivesMatter, #covid son hashtags esperables. Una vez más, lo interesante aquí es el hashtag medievaltwitter, en 13 lugar, que, aunque la plataforma no lo explicita, debe estar relacionado, por ejemplo, con usuario ISASaxonists. De ser el caso, sería interesante pensar si tanto el hashtag medievaltwitter como los tweets del usuario ISASaxonists están relacionados con las acusaciones que ocurrieron en 2019 a la Sociedad Internacional Anglo-Sajona por su inhabilidad de dar cuenta de problemas de racismo, sexismo, diversidad e inclusión dentro de la misma. Parte de esta discusión fue publicada en revistas académicas en Estados Unidos durante septiembre de 2019:

https://www.insidehighered.com/news/2019/09/20/anglo-saxon-studies-group-says-it-will-change-its-name-amid-bigger-complaints-about.

En conclusión, explorar el contexto de #ScholarStrike con la plataform Brand24 nos permitió constatar algunas suposiciones previas (su relación con hashtags como BLM, Covid) pero iluminó otros hashtags menos esperables para un usuario no académico, como #medievaltwitter, y otros que aparecían tímidamente, pero pronto comenzaron a tener más impacto semanas siguientes, con la carrera electoral, como #bidenharris2020.

Gimena del Rio  / Marisol Fila

Categorías
7_Difusión Data Limpieza de datos Recolección

Acceso a nuestra colección de Twitter

Estamos felices de anunciar finalmente el lanzamiento de la interfaz para descargar una colección de tweets relacionados con la pandemia de Covid-19. Puedes elegir un rango de fecha, un área (México, Argentina, Colombia, Perú, Ecuador, España, área de Miami), y el idioma (sólo para el área de Miami, en inglés y español).

https://covid.dh.miami.edu/get/

Los textos fueron procesados eliminando acentos, puntuación, mención de usuarios (@usuarios) para proteger la privacidad, y reemplazando todos los enlaces con «URL». Los emojis son transliterados en un código UTF-8 y transformados en emojilabels. También decidimos unificar las diferentes ortografías de Covid-19 bajo una única forma, y todas las demás características, incluyendo los hashtags, son siempre conservadas.

¡Pero hay más! Hemos implementado una API simplificada para escoger su colección sin necesidad de acceder a la interfaz.

El punto de acceso a la API es: https://covid.dh.miami.edu/get/ y sirve para proporcionar los archivos .txt que quieras.

Hay tres variables principales para las consultas y cada una de ellas está separada por un «&»: idioma, geolocalización y fecha. Cada consulta comienza siempre con un «?» y se abrevia de la siguiente manera:

  • lang = es o en
  • geo = fl, ar, es, co, pe, ec, mx, all
  • fecha: mes-año-día, {mes}-año-mes, {año}-año, o un rango ‘{desde}año-mes-día-{hasta}año-mes-día’

Aquí hay algunos ejemplos:

  • Tweets en inglés, de Florida, del 24 de abril: https://covid.dh.miami.edu/get/?lang=en&geo=fl&date=2020-04-24
  • Tweets en español, de Florida, del 24 de abril: https://covid.dh.miami.edu/get/?lang=es&geo=fl&date=2020-04-24
  • Tweets en español, de Colombia, del 17 de mayo: https://covid.dh.miami.edu/get/?lang=es&geo=co&date=2020-05-17
  • Todos los tweets en español de Florida: https://covid.dh.miami.edu/get/?lang=es&geo=fl&date=all
  • Tweets de Argentina del 24 al 28 de abril: https://covid.dh.miami.edu/get/?lang=es&geo=ar&date=from-2020-04-24-to-2020-04-28
  • Todos los tweets de España del mes de abril: https://covid.dh.miami.edu/get/?lang=es&geo=es&date=month-2020-04

Por favor, ¡diviértete! 😉

Recuerde: si el archivo aún no se ha generado en la base de datos, tardará algunos minutos en hacerlo.

Traducción: Romina De León

Categorías
Herramientas Limpieza de datos Modelización Visualización

Los temas de la crisis: topic modeling sobre la COVID-19

En este post, presentaremos otra manera de explorar nuestro dataset de tweets sobre el Covid-19 con el objetivo de detectar temas o tópicos emergentes de interés para nuestro estudio de las narrativas sociales acerca de la pandemia. Para ello, realizamos un procesamiento de aprendizaje automático no supervisado con la ayuda de diferentes librerías para Python.

En este caso, trabajamos con material en español pero el mismo procesamiento puede aplicarse al corpus en inglés, con algunas diferencias en los parámetros de lengua.

«Preparar datos es 80% del trabajo de data science»

Ya es sabido (ver fuente) que cuando se trabaja con grandes corpus, la mayor parte del tiempo se dedica a limpiar y organizar los datos. ¡Y nuestro caso no es la excepción! Esta tarea es muy importante ya que no sólo reduce el volumen de los datos facilitando su procesamiento automático, sino que también tiene una enorme influencia en la calidad de los resultados.

En primer lugar, filtramos las stopwords y los emojis. Usamos listas genéricas disponibles en librerías standard (NLTK, emoji) que actualizamos continuamente con ítems específicos de nuestro corpus en base a los resultados obtenidos (‘retwitt’, ‘covid19’, etc.).

Otro paso importante del preprocesamiento es la detección de categorías (Part of Speech) y la lematización. Usamos Stanza (de Stanford NLP) porque da mejores resultados para tratar la morfología del español. En inglés, cuya morfología flexiva es más reducida, es posible usar Spacy con buenos resultados y un tiempo de procesamiento mucho menor.

Una vez que terminamos el preprocesamiento, podemos detectar automáticamente los tópicos predominantes en nuestro corpus con aprendizaje automático gracias a Gensim, una librería de Python para topic modelling. Realizamos un aprendizaje no surpervisado porque no tenemos manera de saber de antemano cuáles son los tópicos ni cuántos son. Entrenamos modelos con el algoritmo LDA para 3 a 30 tópicos.

Coherencia de los modelos evaluada con c_npmi, c_uci y u_mass para todos los tweets en español del 25 de abril

Los gráficos de coherencia de los tópicos generados para todos los tweets en español del 25 de abril nos muestran que la conversación en nuestro corpus de coronavirus se encuentra muy concentrada, ya que la coherencia disminuye marcadamente a medida que el número de tópicos aumenta. Si se diera el caso contrario (mayor índice de coherencia al aumentar el número de tópicos) sería importante encontrar un compromiso entre los resultados de los scores de coherencia y un número de tópicos al alcance de la interpretación humana, ya que resulta difícil imaginar un análisis humano que maneje más de una docena de tópicos para el mismo corpus.

La visualización de los resultados en gráficos es de gran ayuda para facilitar el análisis. Una forma de graficar los tópicos es usando pyLDAvis, una librería para visualizar de manera interactiva las palabras que conforman los tópicos configurados por los modelos.

En el gráfico precedente (click aquí para abrir el gráfico en una pestaña nueva) en el que se grafican 7 tópicos para el 25 de abril para los tweets en español en todos los países/regiones de nuestra muestra (Argentina, Colombia, Ecuador, España, Florida, México, Perú), podemos observar lo que señalamos más arriba: es difícil para un humano encontrar el criterio por el cual fueron agrupadas ciertas palabras como parte del mismo tópico. A medida que aumenta el número de tópicos, éstos se vuelven menos interpretables aunque tengan alto score de coherencia.

Probablemente, esto se deba a la amplitud de nuestra muestra: más allá del covid19, los usuarios de Twitter de cada país deben abordar diferentes temáticas que poco tienen que ver. Comparemos los resultados para Argentina y Colombia, por ejemplo.

Coherencia de los modelos evaluada con c_npmi, c_uci y u_mass para Argentina, mejores resultados para 3 y 5 tópicos
Coherencia de los modelos evaluada con c_npmi, c_uci y u_mass para Colombia, mejores resultados para 3 y 7 tópicos

Otro tipo de visualización útil para el topic modelling es el gráfico de Circle Pack, donde los colores representan los diferentes tópicos y el tamaño de las esferas la frecuencia de las palabras. Vamos a comparar el Circle Pack del 25 de abril de Argentina y Colombia para 3 tópicos porque ambos recibieron un score alto de coherencia para ese número.

Tópicos para tweets sobre el covid19 en Colombia el 25 de abril de 2020

En el gráfico de Colombia, vemos un tópico (color rojo teja) que relaciona la pandemia con la política, que incluye palabras como «gobierno», «presidente», «país»; otro tópico (color azul) que aborda cuestiones más vinculadas a lo sanitario, que incluye «vacuna», «virus», «prueba» y otro tópico (color verde) que parece más vinculado a las estadísticas diarias de números de casos, muertos y contagiados.

Tópicos para tweets sobre el covid19 en Argentina el 25 de abril de 2020

Para interpretar el Circle Pack de Argentina, es imprescindible conocer el tema de actualidad de ese día particular (ver noticia): un bebé de la ciudad de Santa Fé que fue nombrado Ciro Covid el 24 de abril. La pregunta «¿Quién va a ponerle de nombre a su bebé Ciro Covid?» que predominó en Twitter Argentina al día siguiente, no sólo está representada claramente en el tópico verde, sino que invadió también los tweets con partes diarios de números de nuevos casos y fallecidos (tópico color rojo teja). En una medida mucho menor, otro tema abordado ese día en ese país, fue la polémica sobre otorgar libertad condicional a presos como medida de prevención, representado por el color azul.

Una vez más, confirmamos que el aporte de una mirada humanista interesada en el conocimiento de los datos y su contextualización es de gran ayuda para asignar significados a los resultados del procesamiento automático.

Para más detalles sobre el procesamiento realizado para obtener los tópicos, descargue la notebook disponible en el repositorio de GitHub del proyecto.

Categorías
Análisis de contenido Teorización Visualización

¿Qué pueden decirnos las publicaciones académicas sobre el COVID-19 y la Educación?

La aparición del coronavirus ha puesto en nuestro lenguaje cotidiano nuevos términos, como pandemia o infodemia. Este último, de acuerdo a Wikipedia, puede ser definido como: 

“El término infodemia se emplea para referirse a la sobreabundancia de información (ya sea rigurosa o falsa) sobre un tema concreto, como por ejemplo en el caso del coronavirus​. El término se deriva de la unión entre la palabra información y la palabra epidemia. Se relaciona con conceptos similares como fake news o infoxicación, en la medida que la cantidad y exposición de éstos se intensifican.”

Una buena forma de sobrevivir a la infodemia es analizar datos. AVOBMAT (Análisis y visualización de metadatos y textos bibliográficos / Analysis and Visualization of Bibliographic Metadata and Texts – https://avobmat.hu/) es una herramienta de investigación de minería de datos que se diseñó principalmente para la investigación en humanidades digitales. Es un poderoso kit de herramientas digitales para analizar y visualizar metadatos y textos bibliográficos. AVOBMAT agregó un conjunto de datos sobre COVID-19 a su nueva herramienta de investigación de minería de textos. Es un recurso de más de 138,000 artículos académicos (lamentablemente, solo en inglés), que incluye más de 69,000 artículos completos, sobre COVID-19, SARS-CoV-2 y coronavirus relacionados. Pensamos que antes de profundizar en el vasto océano de Twitter para ver qué está sucediendo en relación con la pandemia y la educación (educación superior/universitaria, enseñanza remota/a distancia), debemos construir un marco de referencia que pueda apoyar e informar nuestra hipótesis. Utilizamos AVOBMAT para explorar lo que las publicaciones científicas publicaron entre 2019 y  2020 sobre estos temas.

Primero, hicimos una búsqueda general con Lucene: establecimos un período (2019 y 2020) y elegimos algunas palabras generales como «programa de estudios», «educación» y «coronavirus» (no solo COVID-19, sino todas las enfermedades por coronavirus). La búsqueda nos mostró 298 artículos (por supuesto, todos en inglés): http://dighum.bibl.u-szeged.hu/avobmat-covid/home

Luego, pensamos qué podría decirnos esta búsqueda general en un enfoque más cercano y detallado, aunque aún distante. Elegimos la opción de visualización de WordCloud y este fue el resultado:

Nube de palabras en AVOBMAT

Algo que casi esperábamos, pero que la nube confirmó es la referencia a ciudades y países (Wuhan, Hubei, China, Vellingiri) y a meses específicos (diciembre, febrero, marzo). Teniendo en cuenta que Estados Unidos entró en una situación más crítica en abril, descubrimos la presencia del Oriente. Sin embargo, esto también abre una pregunta sobre otros países como Italia o España e incluso el Reino Unido, donde se estaban pasando por momentos críticos a principios de 2020. Podemos explicar estos resultados argumentando la lenta respuesta de la producción y publicación académica al abordar este nuevo contexto, pero quizás también con un interés no tan alto en los temas que estábamos buscando (programa de estudios, educación, coronavirus).

Sin embargo, la explicación en sí está en el coronavirus, como el SARS-CoV (2002-2003) y el MERS-CoV (2012-hasta el presente). Todos los otros coronavirus atacaron principalmente a países del Este y no del Oeste. Esto explica la presencia en la nube de algunas de las ciudades que mencionamos anteriormente. En realidad, no fue sino hasta marzo de 2020 que algunas revistas sobre educación superior estadounidenses, como Inside Higher Ed y The Chronicle of Higher Ed, comenzaron a publicar artículos que hablaban sobre Covid-19 y educación superior en los Estados Unidos. Publicaciones anteriores del 2020 o incluso en enero y febrero de 2020 hablaban sobre nuevos desafíos en la educación universitaria en China, Corea del Sur o Europa (Italia, España, Reino Unido) (Véase, por ejemplo, la búsqueda que hicimos para la revista Inside Higher Ed)

En definitiva, es realmente interesante que la educación esté en esta nube relacionada con la medicina (atención médica, farmacéuticos, emergencias, cuarentena, transmisión) y, obviamente, con cara, máscara … y Google. Por supuesto, no es solo el cuerpo físico presente aquí sino también términos interesantes como psiquiatra, mental, etc.

Uso y contexto del término educación

Pero finalmente, si hacemos una lectura muy cercana y analizamos los metadatos que obtuvimos en la búsqueda general, podemos encontrar en los artículos que, la mayoría de las veces, el término educación está relacionado con las variables que los investigadores usan para estudiar la enfermedad. Por ejemplo, este es un pasaje en el artículo “A County-level Dataset for Informing the United States’ Response to COVID-19” («Un conjunto de datos a nivel de condado para informar la respuesta de los Estados Unidos a COVID-19») por Benjamin D. Killeen et al (2020), en el que los autores afirman que han utilizado «300 variables que resumen las estimaciones de población, demografía, etnia, vivienda, educación, empleo e ingresos, clima, puntajes de tránsito y métricas relacionadas con el sistema de salud » (“300 variables that summarize population estimates, demographics, ethnicity, housing, education, employment and income, climate, transit scores, and healthcare system-related metrics.” – https://arxiv.org/pdf/2004.00756.pdf)

En otros casos, el término educación está muy relacionado con un Ministerio (en el caso de Irán, el trabajo del Ministerio de Salud y Educación Médica es muy citado (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7085938/)

Visualización de revistas académicas que contienen los términos de búsqueda en sus artículos

Por lo tanto, no es fácil entender lo que nos dice esta nube.

Si hacemos una consulta similar con Lucene pero reemplazamos coronavirus con Covid-19, más educación y programa de estudios, encontramos 458 artículos que nos muestran estas palabras:

Nube de palabras con AVOBMAT

Por supuesto, las ciudades (Hubei, Wuhan, China) y los meses (enero, febrero, marzo) todavía están allí. Vemos términos relacionados con enfermedades mentales (psiquiatra, mental), pero la cuarentena ahora comparte semántica con un sinónimo que se ha utilizado ampliamente en los países anglófonos: el encierro (lockdown). Y también tenemos palabras familiares para Google (por ejemplo, Internet) y las nuevas incorporaciones, como Whatsapp, y otros términos relacionados con nuestra nueva vida, como en línea, a distancia y telemedicina.

Sin embargo, ¿qué pasa con la educación, entendida como la enseñanza y el aprendizaje? Detallamos un poco más nuestra búsqueda usando términos como enseñanza, universidades, aprendizaje, estudiantes y COVID-19. Como resultado, obtuvimos 199 artículos en los que estas fueron las palabras más utilizadas:

Nube de palabras con AVOBMAT

El encuentro versus el encierro, moodle, moocs, distancia, los gimnasios nos dieron una imagen muy realista del escenario educativo en estos días. Incluso la visualización de metadatos nos dice que estos temas se abordan desde las Ciencias Médicas, y nos da una imagen detallada de nuestra situación global con el  COVID-19.

Visualización de revistas académicas que contienen los términos de búsqueda en sus artículos

Como sospechábamos, la mayoría de los artículos publicados sobre COVID-19 y los diferentes enfoques sobre temas relacionados con la educación, la educación superior y universitaria, etc., están relacionados con estudios en las ciencias médicas. Por un lado, como se esperaba, esta es una disciplina dominante en un contexto de pandemia, pero también muestra cómo las Ciencias Médicas han mejorado el lento tiempo de la escritura académica. Por supuesto, nos damos cuenta de todas las publicaciones sobre este tema, ya que muchos servicios de recolección de otras latitudes no están incluidos como parte del servicio AVOBMAT. Sin embargo, nos da una idea general para avanzar en nuestro próximo post a un enfoque sobre lo que los tweets dicen sobre estos temas. ¡En breve, más análisis cercano y distante!

Marisol Fila y Gimena del Rio Riande

Categorías
Análisis de contenido Visualización

Analizar un corpus de Twitter con Voyant (I)

La primera etapa del trabajo con datos es conocer con qué corpus se va a trabajar. Nuestro proyecto, por ejemplo, se interesa especialmente por el contexto lingüístico y humanístico sobre el discurso que se generó en Twitter debido a la pandemia de Covid-19. Algunas preguntas que nos hicimos, desde el inicio, incluyen la proporción de información diaria acerca del corpus, las palabras más utilizadas, la ocurrencia de términos y la comparación cronológica, geográfica y lingüística.

El enorme volumen de datos hace que la lectura humana sea imposible. Afortunadamente, el aprendizaje automático contribuye a que los humanistas comprendan aspectos fundamentales del corpus y, que puedan desarrollar preguntas más críticas para la investigación. Sin embargo, emplear métodos digitales en las Humanidades no equivale a reemplazar con software la lectura humana. La informática hace factible operaciones que de otro modo requerirían mucho tiempo o serían inimaginables, mostrando relaciones y patrones de un gran volumen de datos. Por lo cual, los humanistas digitales aplican el análisis crítico y su experticia en las Humanidades para procurar que estos patrones y sus implicaciones tengan sentido. En otras palabras, a través de las computadoras podemos trabajar en un método de reconocimiento de información esencial sobre grandes volúmenes de texto que la lectura manual no puede alcanzar o detectar por sí sola. Los resultados que se generan son solo el comienzo de cada proyecto de HD y no el resultado final. El análisis humano y el conocimiento de Humanidades siguen siendo el núcleo de la labor en HD.

Voyant Tools es una de las herramientas que utilizamos para obtener una vista general de nuestro corpus. Se trata de un software en línea, útil para el análisis de grandes cantidades de textos, que cuenta con funciones como la comparación de corpus, cuantificación de frecuencia de palabras, análisis de ocurrencias, interpretación de términos clave, etc. No requiere instalación y es compatible con la mayoría de los sistemas operativos. A continuación, se presenta un ejemplo, o más bien un ensayo del trabajo con Voyant Tools para llevar a cabo las primeras exploraciones textuales con nuestro corpus, que se actualiza diariamente y se encuentra disponible en https://github.com/dh-miami/narratives_covid19/tree/master/twitter-corpus (consulta nuestro anterior post en ¿Cómo hidratar un conjunto de Tweets?).

Para ello, seleccionamos el corpus de tweets en inglés sobre Florida del 28 de abril de 2020, el día en que el total de casos en los EE. UU. alcanzó el millón. Voyant Tools lee archivos de texto plano (txt.) ya sea pegándolo en el cuadro de diálogo o subiendo un archivo. Los resultados que obtuvimos después de subir el corpus hidratado son los siguientes:

Captura de pantalla que muestra todos los resultados obtenidos

A partir de la lectura del resumen, sabemos que el 28 de abril, nuestro corpus consta de 21.878 palabras, de las cuales 4.955 son únicas. La densidad del vocabulario se calcula dividiendo el número de palabras únicas por el número de palabras totales. Cuanto más cerca de 1, más denso y diverso es el corpus. Con un índice de densidad de 0,226, podemos saber que el corpus no es tan diverso a esa fecha. Una vez que ejecutemos las evaluaciones de toda la muestra de nuestros datos, comprenderemos si esta densidad es una norma en todo el corpus o un hallazgo significativo.

Resumen del corpus en inglés del 28 de abril en Florida

Asimismo, podemos ver que las palabras, como user y url, que figuran en todos los textos de Twitter no poseen significado alguno, y solo distraen los resultados de las más frecuentes, así como los cirrus. Podemos remover estos términos haciendo clic en definir opciones para esta herramienta en la esquina superior derecha del cuadro de cirrus, editando la lista de palabras excluidas. Voyant dispone de una lista predeterminada de palabras excluidas (stopwords): esta función detecta y elimina automáticamente dichos términos. Para llevar un registro de sus resultados, es mejor mantener una lista propia de las palabras suprimidas.

El siguiente es el nuevo cirrus después de eliminar user y url.

Visualización de Cirrus con los 45 términos más frecuentes

Las 5 palabras más frecuentes en el corpus fueron «covid19» (844 ocurrencias), «coronavirus» (77), «pandemic» (77), «people» (57) y «help» (51 ocurrencias). Como nuestra colección completa de tweets trata sobre la pandemia Covid-19, es probable que las palabras «covid19», «coronavirus» y «pandemic» aparezcan en la mayoría de los corpus diarios. Para ver más de cerca el aspecto del 28 de abril, eliminamos estos términos y generamos un nuevo gráfico de cirrus.

Las 45 palabras más frecuentes excluyendo «covid19», «coronavirus» y «pandemic»

Finalmente, estas son las 5 palabras más frecuentes: «people» (57 registros), «help» (51), «new» (45), «just»(44 ) y «testing» (44 registros). Basándonos en estas palabras, podemos especular que los nuevos casos y los temas relacionados con los testeos fueron una parte significativa en las conversaciones del 28 de abril. En nuestros próximos posteos, seguiremos registrando las palabras más frecuentes de cada día y analizando otras funcionalidades de Voyant Tools.

Categorías
Limpieza de datos Métodos

¿Cómo hidratar un conjunto de Tweets?

El discurso público generado en Twitter es uno de los principales focos de atención en nuestro proyecto de investigación. Asimismo, la gran cantidad de datos de Twitter ha atraído el interés de investigadores de disciplinas y campos diversos para explorar diferentes aspectos de la sociedad. Esta entrada se concibe a modo de tutorial sobre cómo usar DocNow Hydrator con el fin de «hidratar» los tweets. Nuestro proyecto, como ya hemos indicado, está ofreciendo una serie de datasets o conjuntos de datos, que recogen tweets relacionados con la Covid-19 y que pueden ser descargados desde nuestro respositorio de GitHub.

Debido a los términos de desarrollo de Twitter y a la ética de investigación, la mayoría de los TweetSets (conjunto de datos de Twitter) que podemos extraer de la Interfaz de Programación de Aplicaciones (API) de Twitter así como de las bases de datos de terceros son tweets «deshidratados». En otras palabras, en lugar de recopilar el contenido de los tweets, las geolocalizaciones, el tiempo, las imágenes y otra información sobre los tweets, lo que los investigadores obtienen es un archivo de texto plano que consiste en una lista de identificadores únicos de cada uno de los tweets (tweets IDs). Estos IDs permiten recuperar todos los metadatos del tweet, incluyendo el texto, y deben ser «hidratados» para recuperar los metadatos y convertirse en una fuente significativa de investigación. El gran tamaño de los metadatos relacionados con cada uno los tweets es una de las razones principales por las que los datasets ofrecen solo identificadores «deshidratados». Así, un archivo que ofrece sólo una serie de números (IDs) es mucho más manejable que, por ejemplo, una hoja csv con miles de tweets con sus metadatos.

Una muestra de identificadores de tweet (IDs) deshidratados.

DocNow Hydrator es un programa de código abierto utilizado para hidratar las identificadores de los tweets, y puede descargarse desde Github. Antes de comenzar a utilizar Hydrator debemos vincular nuestra cuenta de Twitter en «Settings» (Configuración).

Página «Configuración» de Hydrator para vincular la cuenta de Twitter

Una vez que Hydrator está configurado, puedes subir tu archivo de identificadores de tweets. En nuestro caso, utilizamos nuestro conjunto de datos sobre las Narrativas Digitales de la Covid-19, que actualizamos diariamente.

La pestaña «Add» (añadir) de Hydrator se utiliza para subir archivos de tweet IDs

Si tu archivo ha sido procesado correctamente, Hydrator te mostrará la ruta del archivo y calculará el número total de tweet IDs detectados. En «Title» (título) puedes renombrar el archivo hidratado, mientras que el resto de las casillas pueden ser ignoradas. Luego haz clic en «Add dataset» (añadir conjunto de datos).

Después de subir un archivo de tweet IDs.

Haz clic en «Start» para hidratar las tweet IDs.

El nuevo conjunto de datos generado «COVID0401» está disponible en la pestaña «Datasets».

Aparecerá una nueva pestaña que te solicitará ubicación y nombre para el archivo de tweets IDs hidratados. Hydrator generará un archivo .json por defecto. Convertir el documento en un archivo .csv lo hará más accesible para ser consultado por Excel u otros procesadores de archivos.

Guarda el documento hidratado en formato .csv y selecciona la ubicación para almacenarlo.

Hydrator comenzará el proceso de hidratación. El tiempo de ejecución dependerá de la cantidad de tweet IDs.

La barra de progreso se pondrá verde cuando se complete la hidratación.

El archivo .csv completo presentará toda la información relacionada a los tweet IDs originales.

Por motivos de privacidad, no mostramos el contenido específico del archivo hidratado

Con ello, los investigadores pueden analizar geolocalizaciones, imágenes, emojis, el discurso delos tweets, hashtags, información temporal, así como otra relacionada con metadatos. Si utilizas nuestro conjunto de datos, nos gustaría mucho que compartieras tu experiencia con nosotros. !Síguenos en nuestro blog y gracias por mantenerte al día con nuestro proyecto!

Categorías
Datos Recolección

Un conjunto de datos de Twitter para la narrativa digital

A finales de abril empezamos a familiarizarnos con la API de Twitter y a preguntarnos cómo capturar las conversaciones públicas que están ocurriendo en esta red social.

Entendimos rápidamente que necesitábamos un plan y una metodología para organizar nuestro corpus, conseguir nuestros objetivos, y dividir las diferentes tareas entre los miembros del equipo.

Los conjuntos de datos en inglés son numerosos (véase la publicación “Minería de Twitter y datasets sobre la Covid-19” del 23 de abril de 2020). Para empezar con un corpus más definido, decidimos centrarnos en conjuntos de datos en español, en general y por áreas. También quisimos dar un tratamiento especial al área del sur de Florida y abordarla desde una perspectiva bilingüe, debido a su diversidad lingüística, especialmente en inglés y español. Con esto en mente, una parte del equipo analiza las conversaciones en inglés y español, centrándose en el área del sur de Florida y Miami. Mientras que el equipo de CONICET se encarga de explorar los datos en español, es decir, de Argentina.

Para ampliar nuestro conjunto de datos, hemos decidido cosechar también todos los tweets en español, y crear conjuntos de datos específicos para otras partes de América Latina (México, Colombia, Perú, Ecuador), y España. Para una mejor organización de nuestro corpus, creamos una base de datos relacional que colecta la información relacionada con tweets específicos e ingiere automáticamente cientos de miles de tweets al día.

Tenemos diferentes queries o búsquedas en marcha, que corresponden a los conjuntos de datos en nuestra carpeta ‘twitter-corpus‘ en GitHub. En resumen, hay tres tipos principales de búsquedas:

  1. Búsqueda general para español cosechando todos los tweets que contienen los siguientes hashtags y palabras clave: covidcoronaviruspandemiacuarentenaconfinamientoquedateencasadesescaladadistanciamiento social
  2. Búsqueda específica para inglés en Miami y el sur de Florida. Los hashtags y las palabras clave cosechadas son: covidcoronaviruspandemicquarantinestayathomeoutbreaklockdownsocialdistancing.
  3. Búsquedas específicas con las mismas palabras clave y hashtags para español en Argentina, México, Colombia, Perú, Ecuador, España, utilizando la geolocalización del tweet cuando sea posible y/o la información del usuario

Las carpetas se organizan por día (YEAR-MONTH-DAY). En cada una hay 9 archivos de texto plano denominados “dhcovid”, seguidos de fecha (YEAR-MONTH-DAY), idioma (“en” para inglés y “es” para español), y abreviatura de región (“fl”, “ar”, “mx”, “co”, “pe”, “ec”, “es”):

  1. dhcovid_YEAR-MONTH-DAY_es_fl.txt: Conjunto de datos que contiene tweets geolocalizados en el sur de Florida. La geolocalización es rastreada por las coordenadas del tweet, por el lugar o por la información del usuario.
  2. dhcovid_YEAR-MONTH-DAY_en_fl.txt: Este archivo contiene solo tweets en inglés que refieren al área de Miami y el sur de Florida. Esta elección se debe a la existencia de múltiples proyectos que recogen datos en inglés, nuestro proyecto está particularmente interesado en esta área debido a nuestra institución de origen (Universidad de Miami) y porque pretendemos estudiar las conversaciones desde un punto de vista bilingüe (EN/ES).
  3. dhcovid_YEAR-MONTH-DAY_es_ar.txt: Conjunto de datos que contienen tweets geolocalizados en Argentina (por georreferencia, por lugar o por usuario).
  4. dhcovid_YEAR-MONTH-DAY_es_mx.txt: Conjunto de datos que contienen tweets geolocalizados en México (por georreferencia, por lugar o por usuario).
  5. dhcovid_YEAR-MONTH-DAY_es_co.txt: Conjunto de datos que contienen tweets geolocalizados en Colombia(por georreferencia, por lugar o por usuario).
  6. dhcovid_YEAR-MONTH-DAY_es_pe.txt: Conjunto de datos que contienen tweets geolocalizados en Perú (por georreferencia, por lugar o por usuario).
  7. dhcovid_YEAR-MONTH-DAY_es_ec.txt: Conjunto de datos que contienen tweets geolocalizados en Ecuador (por georreferencia, por lugar o por usuario).
  8. dhcovid_YEAR-MONTH-DAY_es_es.txt: Conjunto de datos que contienen tweets geolocalizados en España (por georreferencia, por lugar o por usuario).
  9. dhcovid_YEAR-MONTH-DAY_es.txt Este conjunto de datos contiene todos los tweets en español, independientemente de su geolocalización.

Desde el 23 de mayo, tenemos un total de:

  1. Español del sur de Florida (es_fl): 6,440 tweets
  2. Inglés del sur de Florida (en_fl): 22,618 tweets
  3. Español de Argentina (es_ar): 64,398 tweets
  4. Español de Mexico (es_mx): 402,804 tweets
  5. Español de Colombia (es_co): 164,613 tweets
  6. Español de Peru (es_pe): 55,008 tweets
  7. Español de Ecuador (es_ec): 49,374 tweets
  8. Español de España (es_es): 188,503 tweets
  9. Español (es): 2,311,482 tweets.

No incluimos los retweets, solo los tweets originales.

El corpus consiste en una lista de Tweet IDs. Una forma de obtener el tweet original es utilizando “hidratador de Twitter”, que toma el Id y descarga todos los metadatos en un archivo CSV.

Figura 1. Captura de pantalla de una lista de tweets IDs.

Empezamos a recoger nuestros conjuntos de datos el 24 de abril de 2020. Para fechas anteriores (enero – 24 de abril), esperamos utilizar el conjunto de datos del PanaceaLab, debido a que es uno de los pocos que recoge datos en todos los idiomas, y esperamos conseguirlo en los próximos meses.

word cloud

Hemos publicado una primera versión de nuestro conjunto de datos en Zenodo: Susanna Allés Torrent, Gimena del Rio Riande, Nidia Hernández, Romina De León, Jerry Bonnell y Dieyun Song. (2020). Digital Narratives of Covid-19: a Twitter Dataset (Version 1.0) [Data set]. Zenodo. http://doi.org/10.5281/zenodo.3824950

Traducción: Romina De León

Categorías
Análisis de contenido Curricula Visualización

COVID-19 y educación superior. Una mirada desde las HD

El 2020 comenzó con la noticia sobre un nuevo virus. En unas semanas se convirtió en pandemia global y desde entonces todos hemos estado preocupado por este tema. La Educación Superior no quedó al margen y en los últimos meses, hemos visto cómo las discusiones sobre la pandemia han llegado incluso a los programas de estudios.

Desde las Humanidades hasta las Ciencias, todas las disciplinas están discutiendo sobre causas, consecuencias locales y globales, historia, política… todo con relación a la COVID-19. En línea con el espíritu de nuestro proyecto, creemos que las Humanidades Digitales pueden ayudarnos a comprender qué, cómo y dónde se discuten estos temas en la Educación Superior.

En los próximos meses, iremos publicando análisis y visualizaciones sobre la forma en la que los programas de estudio han ido reaccionando ante la pandemia global y bajo qué perspectivas. Dado que nos basamos en fuentes que se han puesto a disposición del público, nuestro corpus inicial estará compuesto por programas de estudio de los EE. UU., pero nuestro objetivo es abrirlo a América Latina a medida que surja nuevo material. ¡Estén atentos!

Categorías
Datos Recolección

Minería de Twitter y datasets sobre la Covid-19

El único tema en estos días: el coronavirus, Covid-19, la pandemia, SARS, la crisis, la enfermedad, el enemigo, la supervivencia… Todos estamos bajo la misma situación global y preocupados por los impactos y consecuencias que este evento está teniendo y tendrá en nuestras vidas.

Asimismo, esta pandemia puede ser abordada desde infinitas perspectivas, por ello, creemos que las Humanidades Digitales pueden contribuir. Nuestro principal interés se centra en las narrativas digitales que emergen de este brote. ¿Cuáles son las narrativas entorno a la pandemia? Ciertamente, no son únicas ni monolíticas.

El distanciamiento social pone en primera línea a las redes sociales, algunas de ellas están abiertas a la minería y a la recuperación de lo que la gente está diciendo. El mejor ejemplo de ello es Twitter, que posee una API para recuperar tweets, que contienen los textos e interacciones sociales. Numerosos investigadores y proyectos ya están minando datos sobre la Covid-19 y proporcionando conjuntos de datos de tweets para ser descargados y explorados. Aquí tienes una lista de estos conjuntos de datos:

  • Covid-19 Twitter chatter dataset for scientific use” (Panacea Lab) es un conjunto de datos en línea, almacenado en GitHub y distribuido con un DOI de Zenodo (la versión numérica se actualiza casi cada semana). Recogen datos desde el 27 de enero y en todos los idiomas, pero –como explican– los de mayor prevalencia son: inglés, español y francés. Presentan los conjuntos de datos en dos formatos diferentes: uno que contiene todas las menciones y los retweets, mientras que el otro es una versión limpia que solo contiene los tweets. También realizan tareas de PLN, proporcionando las 1.000 palabras más frecuentes y las principales ocurrencias. Complementan su conjunto de datos construyendo estadísticas generales. Este corpus –tal como lo establecen los Términos de servicio de Twitter– consiste en una lista de identificadores de tweets (Tweet IDs), que necesitan ser hidratados. Puede consultar también las publicaciones electrónicas publicadas en arXiv “A large-scale COVID-19 Twitter chatter dataset for open scientific research – an international collaboration”.
  • COVID-19-TweetIDs (E.Chen, K. Lerman y E. Ferrara) es otra colección en curso de tweets asociados con la pandemia. Comenzaron a reunir datos el 28 de enero. Ellos además de recolectar hashtags, utilizan la API de streaming de Twitter para rastrear cuentas de usuario específicas y palabras clave concretas. Han estructurado su repositorio GitHub por mes, día y hora. Cada carpeta de mes contiene un archivo .txt por día y hora con los Tweet IDs, estos deben ser hidratados. Consulta las publicaciones de arXiv “COVID-19: The First Public Coronavirus Twitter Dataset”.
  • Coronavirus Tweet Ids” (D. Kerchner y L. Wrubel) contiene los Tweet IDs de 155.206.805 Tweets relacionados con el Coronavirus. Su fecha de inicio fue el 3 de marzo de 2020 y publican una nueva versión cada dos semanas aproximadamente. Para construir las colecciones utilizan el Social Feed Manager.
  • Corona Virus (COVID-19) Tweets Dataset” (R. Lamsal) provee un conjunto de datos en CSV con losTweet IDs. Esta iniciativa monitorea en tiempo real la actividad en Twitter siguiendo solo los tweets en inglés “en”, y las palabras “corona”, “covid”, “covid-19”, “coronavirus” y las variantes de “sars-cov-2”. Simultáneamente, tienen sentiment.live, un sitio que visualiza el análisis de los sentimientos del feed de Twitter.

Hay muchos otros catálogos, proyectos y repositorios que reúnen colecciones de Twitter. Recomendamos también que eches un vistazo a:

y que visites el impactante Covid-19 Dashboard, que permite rastrear el número de casos en todo el mundo.

En este auge de datos, nuestro proyecto Narrativas digitales de la Covid-19 también busca crear un conjunto de datos de Twitter concebido bajo estos criterios:

  • Por lengua: inglés, español
  • Por región: Sur de Florida, Miami
  • Por fecha: 27 de enero –
  • Por hashtags (covid, covid-19, coronavirus, etc.)

Somos algo novatos en el uso de estas técnicas, así que tened paciencia mientras publicamos tutoriales sobre cómo lo estamos haciendo, y ¡únete a nosotros!

Traducción: Romina De León

Categorías
Humanidades Digitales Organización Preservación

Recursos del proyecto

Te interesa saber más o colaborar con nuestro proyecto?

Nuestra plataforma de divulgación será este sitio web creado con WordPress y alojado en la University of Miami donde publicaremos recursos sobre la Covid-19 desde una perspectiva humanística y lingüística y documentaremos nuestro trabajo.

Todos los datos del proyecto se almacenan en nuestro repositorio en Github, proporcionando una lista de datos relacionados con la pandemia, y un corpus bilingüe de Twitter en inglés y español, especialmente enfocado en el área del sur de Florida y Miami. También usamos GitHub para documentar el desarrollo del proyecto y escribimos entradas en nuestro blog sobre el trabajo realizado.

Asimismo, tenemos una biblioteca en Zotero, donde puede unirse y agregar cualquier lectura que considere interesante.

Encuentras nuestros tweets bajo el hashtag #DHCOVID