Cada día se mueven por Twitter millones de contenidos que muestran información, opinión y enlaces a narrativas de todo tipo. Analizar este volumen tan grande de datos es posible gracias a la aplicación de técnicas informáticas en investigaciones de las ciencias sociales, una combinación que empieza a despegar en España, pero que requiere de algunos conocimientos sobre ciencia de datos.
Big Data en comunicación de la ciencia, ¿por qué no intentarlo?
En el campo de la investigación en Ciencias Sociales actualmente vemos que se están abriendo nuevas líneas que vinculan las metodologías tradicionales con las oportunidades que brinda el conocido como “Data Science”, la ciencia de los datos.
La pregunta es si podemos analizar una parte de los datos públicos disponibles en la red social Twitter para conocer opiniones, sentimientos y actitudes hacia los temas de comunicación de la ciencia que se comparten y avanzar así hacia la predicción de tendencias futuras.
A pesar de que Twitter no es usado por todos los ciudadanos y por tanto no es posible generalizar los estudios que se basan en esta red, sí que es cierto que los usuarios expresan de una forma más natural y sincera sus sentimientos hacia determinados temas (evitando por ejemplo los sesgos de deseabilidad social cuando una persona es consultada sobre determinados temas).
La manera en que se distribuyen contenidos sobre ciencia está adaptándose a una presencia creciente de tecnologías, y la red social Twitter se ha convertido en un importante aliado que aporta inmediatez. El uso de Twitter como fuente de datos despierta el interés de los investigadores por su enorme potencial de generar conocimiento y para buscar nuevas maneras de comprender a la sociedad y sus mensajes. Además se ha demostrado que la opinión que se muestra en Twitter tiene una vinculación directa con la actualidad científica nacional e internacional.
Es la red más usada por periodistas de ciencia, universidades, centros de investigación y científicos. Lo que la convierte en relevante es su volumen de usuarios, la generación libre de contenidos y su información en tiempo real. La inmediatez es una de las ventajas principales, pero también tiene como desventaja la saturación que sufre. Por ello, como herramienta de comunicación científica tiene un enorme potencial pero a su vez requiere de un uso eficiente.
Los sentimientos de los mensajes pueden proporcionar un valor interesante acerca de la aceptación que tienen los temas de actualidad relacionados con ciencia, las tendencias sociales o posibles corrientes de opinión. Sólo hay que entrar un día en Twitter para ver que se suscitan largos debates sobre todo tipo de tópicos, que son alimentados por multitud de usuarios de diferentes orígenes y que pueden aportar información sobre lo que todas esas personas piensan o sienten con respecto a esos temas. Esta cuestión está siendo ampliamente explotada en campos como la política, pero en el caso de la comunicación de la ciencia no hay nada previo en idioma español.

Estudio del sentimiento en Twitter: la opinión publica de la ciencia en español.
Partiendo de esta base, investigadores del Observatorio de los Contenidos Audiovisuales de la Universidad de Salamanca, han desarrollado un prototipo, denominado OpScience, para el análisis del sentimiento de los mensajes sobre temas científicos en Twitter utilizando algoritmos de aprendizaje automático supervisado. El objetivo final es que sea capaz de predecir cuál es el sentimiento de los mensajes que se publican en tiempo real en Twitter, y gracias a ello, poder realizar estudios de tendencias futuras.
Pero, exactamente ¿cómo funciona?.
El trabajo ha consistido en tres pasos efectivos: la creación de un conjunto de textos para entrenar el modelo (el corpus), la programación del modelo clasificador con algoritmos de aprendizaje automático (el prototipo) y por último una prueba en tiempo real para comprobar su rendimiento.

La clave de la personalización de este modelo hacia la comunicación científica está en que para realizar el entrenamiento del clasificador se utiliza un conjunto específico de textos sobre temas científicos descargados de Twitter, etiquetados previamente por codificadores humanos, como positivos o negativos (el corpus). Es una diferencia fundamental de los modelos en los que se utilizan diccionarios. Es decir, que el clasificador aprende y entrena con los mensajes que se le facilita en su contexto, de modo que se puede decir que está especializado en ese tema concreto. Esta labor es ardua. Para construir un corpus de entrenamiento se descargaron previamente más de 200.000 tuits, que fueron procesados siguiendo una metodología estricta, que finalmente desembocaba en el corpus de entrenamiento formado por 10.000 textos etiquetados, mitad positivos y mitad negativos, sobre ciencia en español.
Para desarrollar el clasificador de sentimiento bipolar (positivo-negativo) de mensajes publicados en tiempo real en Twitter se utilizan técnicas de aprendizaje automático (el prototipo). Las herramientas de trabajo son lenguajes de programación como Python, librerías especializadas como Tweepy[1], NLTK[2] y ScikitLearn[3], y las aplicaciones para desarrolladores de Twitter[4]. Esta fase es la programación de diversos algoritmos que hagan lo que les pedimos, aprender de los ejemplos que le damos en forma de corpus para poder discernir si un mensaje será positivo o negativo en el futuro.
Después del entrenamiento del modelo, se puso a prueba con nuevos mensajes publicados en tiempo real, filtrando por palabras clave y etiquetas específicas, como “ciencia” o “comunicaciencia”. Se obtuvieron unos resultados de precisión de un 72%, de acierto en la predicción del sentimiento positivo o negativo, lo que de momento se sitúa en la media al alza de otros modelos similares en otros idiomas y ámbitos.

Sabemos que los mensajes que expresan opinión en Twitter están directamente vinculados con la actualidad científica nacional e internacional, por lo que nos puede dar un punto de anclaje para comparar el devenir diario y sacar conclusiones. Las redes sociales tienen un importante papel en comunicación científica y el estudio de los sentimientos de los mensajes es un nuevo elemento para evaluar el interés del público, detectar pulsos de la conversación sobre temas candentes y potencialmente intervenir.
Más información:
- [1] http://www.tweepy.org/
- [2] https://www.nltk.org/
- [3] http://scikit-learn.org/
- [4] Twitter Application Manager: https://apps.twitter.com/