Del data-driven al data-feeling: análisis de sentimiento en tiempo real de mensajes en español sobre divulgación científica usando técnicas de aprendizaje automático.
- Patricia Sánchez Holgado 1
- Manuel Martín Merino
- David Blanco Herrero 1
-
1
Universidad de Salamanca
info
-
2
Universidad Pontificia de Salamanca
info
ISSN: 1856-9536
Ano de publicación: 2020
Volume: 13
Número: 1
Tipo: Artigo
Outras publicacións en: Disertaciones: Anuario electrónico de estudios en Comunicación Social
Resumo
As mudanças produzidas nos últimos anos nos modelos de comunicação social têm levado a todos os setores a se adaptar aos novos meios para alcançar a seu público. A comunicação da ciência não é uma exceção. A maneira em que se distribuem conteúdos sobre ciência está adaptando-se a uma presença crescente de tecnologias, e a rede social Twitter se tem convertido em um importante aliado devido a seu grande volume de usuários. Neste trabalho se utilizam técnicas de aprendizagem automática para desenvolver um classificador de sentimento de mensagens publicados em tempo real no Twitter. Para isto, descarregaramse 200 000 tweets destinados a construir um corpus de treino limpo e processado de 10 000 textos etiquetados, metade positivos e metade negativos, sobre ciência em espanhol. O corpus permite treinar o modelo de aprendizagem automático e construir um protótipo, OpScience, capaz de determinar o sentimento de mensagens publicados no Twitter em tempo real. Os resultados de concordância do classificador situam-se em um 72 %. Isto pode ajudar a valorar temas de comunicação científica em um espaço de debate social e predecir interesses ou tendências futuras, como se conseguiu comprovar em uma prova em janeiro de 2019
Referencias bibliográficas
- Alonso Berrocal, J. L., Gómez Díaz, R., Figuerola, C. G., Zazo Rodríguez, Á. F., & Cordón García, J. A. (2012).
- Propuesta de estudio del campo semántico de los libros electrónicos en Twitter. Scire: Representación y
- Organización Del Conocimiento, 18(2), 87-97. Recuperado de http://eprints.rclis.org/29310/
- Arcila-Calderón, C., Barbosa-Caro, E., & Cabezuelo-Lorenzo, F. (2016). Técnicas Big Data: Análisis de textos
- a gran escala para la investigación científica y periodística. El Profesional de La Información, 25(4), 623-631.
- Doi: 10.3145/epi.2016.jul.12
- Arcila-Calderón, C., Calderín-Cruz, M., & Sánchez-Holgado, P. (2019). Adopción de redes sociales por
- revistas científicas de ciencias sociales. El Profesional de La Informacion, 28(1), 1699-2407. Doi: 10.3145/
- epi.2019.ene.05
- Baker, M. (2015). Social media: A network boost. Nature, 518(7538), 263-265. Doi: 10.1038/nj7538-263a
- Bird, S., Klein, E., & Loper, E. (2009). Natural Language Processing with Python. O’Reilly. Recuperado de
- http://www.nltk.org/book_1ed/
- Bollen, J., Mao, H., & Pepe, A. (2011). Modeling Public Mood and Emotion: Twitter Sentiment and Socio-Economic Phenomena. En: Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media.
- Association for the Advancement of Artificial Intelligence (www.aaai.org). Recuperado de https://www.
- aaai.org/ocs/index.php/ICWSM/ICWSM11/paper/viewPaper/2826
- Bonetta, L. (2009). Should You Be Tweeting? Cell, 139(3), 452-453. Doi: 10.1016/J.CELL.2009.10.017
- Brossard, D. & Scheufele, D. A. (2013). Science, New Media, and the Public. Science, 339(6115), 40-41. Doi:
- science.1232329
- Campos-Freire, F. & Rúas-Araújo, J. (2016). Uso de las redes sociales digitales profesionales y científicas:
- el caso de las 3 universidades gallegas. El Profesional de La Información, 25(3), 431-440. Doi: 10.3145/
- epi.2016.may.13
- Carlos Díaz-Galiano, M., et al. (2019). TASS 2018: The Strength of Deep Learning in Language Understanding
- Tasks. Procesamiento del Lenguaje Natural, 62, 77-84. Doi: 10.26342/2019-62-9
- Cha, M., Benevenuto, F., Haddadi, H., & Gummadi, K. (2012). The World of Connections and Information
- Flow in Twitter. IEEE Transactions on Systems, Man, and Cybernetics - Part A: Systems and Humans, 42(4),
- -998. Doi: 10.1109/TSMCA.2012.2183359
- Chen, S. C., Yen, D. C., & Hwang, M. I. (2012). Factors influencing the continuance intention to the usage of
- Web 2.0: An empirical study. Computers in Human Behavior, 28(3), 933-941. Doi: 10.1016/J.CHB.2011.12.014
- Côté, I. M. & Darling, E. S. (2018). Scientists on Twitter: Preaching to the choir or singing from the rooftops?
- FACETS, 3(1), 682-694. Doi: 10.1139/facets-2018-0002
- Cruz Mata, F., Troyano Jiménez, J. A., de Salamanca Ros, F., & Ortega Rodríguez, F. J. (2008). Clasificación
- de documentos basada en la opinión: experimentos con un corpus de críticas de cine en español. Procesamiento Del Lenguaje Natural, 41, 73-80. Recuperado de https://core.ac.uk/download/pdf/16361408.pdf
- Darling, E., Shiffman, D., Cȏté, I., & Drew, J. (2013). The role of Twitter in the life cycle of a scientific publication. Ideas in Ecology and Evolution, 6, 32-43. Doi: 10.4033/iee.2013.6.6.f
- Díaz-Galiano, M. C., Martínez-Cámara, E., Ángel García-Cumbreras, M., García-Vega, M., & Villena-Román,
- J. (2018). The democratization of deep learning in TASS 2017. Procesamiento de Lenguaje Natural, 60,
- -44. Doi: 10.26342/2018-60-4
- Dubiau, L. & Ale, J. M. (2013). Análisis de Sentimientos sobre un Corpus en Español: Experimentación con
- un Caso de Estudio. En: 14th Argentine Symposium on Artificial Intelligence, ASAI 2013 (pp. 36-47). Recuperado de http://42jaiio.sadio.org.ar/proceedings/simposios/Trabajos/ASAI/04.pdf
- Fowks, J. (2017). Mecanismos de la posverdad. Lima: Fondo de Cultura Económica.
- García Cumbreras, M. Á., Villena Román, J., Martínez-Cámara, E., Díaz Galiano, M. C., Martín-Valdivia, M. T., &
- Ureña-López, L. A. (2016). Resumen de TASS 2016. En: TASS 2016: Workshop on Sentiment Analysis at SEPLN
- Proceedings (pp. 13-21). Recuperado de http://ceur-ws.org/Vol-1702/tass2016_proceedings_v24.pdf
- Garcia Esparza, S., O’Mahony, M. P., & Smyth, B. (2012). Mining the real-time web: A novel approach to
- product recommendation. Knowledge-Based Systems, 29, 3-11. Doi: 10.1016/J.KNOSYS.2011.07.007
- García Esparza, S., O’mahony, M. P., & Smyth, B. (2012). Mining the real-time web: A novel approach to
- product recommendation. Knowledge-Based Systems, 29, 3-11. Doi: 10.1016/j.knosys.2011.07.007
- Go, A., Bhayani, R., & Huang, L. (2009). Twitter Sentiment Classification using Distant Supervision. Recuperado
- de http://www-cs.stanford.edu/people/alecmgo/papers/TwitterDistantSupervision09.pdf
- Henriquez Miranda, C., & Guzman, J. (2017). A review of sentiment analysis in spanish. Tecciencia, 12(22),
- -48. Doi: 10.18180/tecciencia.2017.22.5
- Hurtado, L.-F., Pla, F., & Buscaldi, D. (2015). ELiRF-UPV en TASS 2015: Análisis de Sentimientos en Twitter.
- En: Workshop on Sentiment Analysis at SEPLN co-located with 31st SEPLN Conference (SEPLN 2015) (pp. 75-79).
- Alicante. Recuperado de http://ceur-ws.org/Vol-1397/elirf_upv.pdf
- Jarreau, P. B. (2015). All the Science That Is Fit to Blog: An Analysis of Science Blogging Practices. Lousiana
- State University. Recuperado de https://digitalcommons.lsu.edu/gradschool_dissertations/1051
- Java, A., Song, X., Finin, T., & Tseng, B. (2007). Why We Twitter: Understanding Microblogging Usage and Communities. En: 9th WEBKDD and 1st SNA-KDD Workshop. San Jose, California: ACM. Doi: 10.1145/1348549.1348556
- Kahle, K., Sharon, A. J., & Baram-Tsabari, A. (2016). Footprints of Fascination: Digital Traces of Public Engagement with Particle Physics on CERN’s Social Media Platforms. PLOS ONE, 11(5), e0156409. Doi: 10.1371/
- journal.pone.0156409
- Kouloumpis, E., Wilson, T., & Moore, J. (2011). Twitter sentiment analysis: The good the bad and
- the omg! Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media
- (ICWSM 11), 538-541. Recuperado de http://www.aaai.org/ocs/index.php/ICWSM/ICWSM11/paper/
- download/2857/3251?iframe=true&width=90%25&height=90%25
- Krippendorff, K. (2004). Reliability in Content Analysis: Some Common Misconceptions and Recommendations. Human Communication Research, 30(3), 411-433. Doi: 10.1111/j.1468-2958.2004.tb00738.x
- Krippendorff, K. (2011). Computing Krippendorff’ s Alpha-Reliability. ScholarlyCommons. University of
- Pennsylvania. Recuperado de http://repository.upenn.edu/asc_papers/43 (no sirve el link)
- Krippendorff, K. & Hayes, A. F. (2007). Answering the Call for a Standard Reliability Measure for Coding
- Data. Communication Methods and Measures, 1(1), 77-89. Doi: 10.1080/19312450709336664
- Kwak, H., Lee, C., Park, H., & Moon, S. (2010). What is Twitter, a social network or a news media? En: Proceedings
- of the 19th international conference on World wide web - WWW ’10 (p. 591). Nueva York: ACM Press. Doi:
- 1772690.1772751
- Lee, K., Palsetia, D., Narayanan, R., Patwary, M. M. A., Agrawal, A., & Choudhary, A. (2011). Twitter Trending
- Topic Classification. En: IEEE 2011 IEEE 11th International Conference on Data Mining Workshops (pp. 251-258).
- Doi: 10.1109/ICDMW.2011.171
- Li, G. & Liu, F. (2012). Application of a clustering method on sentiment analysis. Journal of Information
- Science, 38(2), 127-139. Doi: 10.1177/0165551511432670
- Liang, X., et al. (2014). Building Buzz: (Scientists) Communicating Science In New Media Environments.
- Journalism and Mass Communication Quarterly, 91(4), 772-791. Doi: 10.1177/1077699014550092
- Mandavilli, A. (2011). Trial by Twitter. Nature, 469, 286–287. Recuperado de https://www.nature.com/
- news/2011/110119/pdf/469286a.pdf
- Martínez-Cámara, E., Díaz-Galiano, M. C., García-Cumbreras, A., García-Vega, M., & Villena-Román, J. (2017).
- Resumen de TASS 2017. En: TASS 2017: Workshop on Semantic Analysis at SEPLN Proceeding (pp. 13-21).
- Recuperado de http://www.sepln.org/workshops/tass/.
- Martínez-Cámara, E., Martín-Valdivia, M. T., Ureña-López, L. A., & Montejo-Ráez, A. (2014). Sentiment
- analysis in Twitter. Natural Language Engineering, 20(1), 1-28. Doi: 10.1017/S1351324912000332
- Montenegro, V. & Escudero, H. (2013). Las redes sociales y la difusión de la tecnología y la innovación.
- En: III Congreso Internacional de Comunicación Pública de la Ciencia. Santa Fe , Argentina. Recuperado de
- http://studylib.es/doc/7718559/untitled---copuci-2017
- Narr, S., De Luca, E. W., & Albayrak, S. (2011). Extracting semantic annotations from twitter. En: Proceedings
- of the fourth workshop on Exploiting semantic annotations in information retrieval - ESAIR ’11 (p. 15). Nueva
- York: ACM Press. Doi: 10.1145/2064713.2064723
- O’Connor, B., Balasubramanyan, R., Routledge, B. R., & Smith, N. A. (2010). From Tweets to Polls: Linking
- Text Sentiment to Public Opinion Time Series. En: Association for the Advancement of Artificial Intelligence.
- Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media (pp. 122-129). Recuperado de https://www.aaai.org/ocs/index.php/ICWSM/ICWSM10/paper/viewFile/1536/1842
- Pak, A. & Paroubek, P. (2010). Twitter as a Corpus for Sentiment Analysis and Opinion Mining. En: Proceedings
- of the Seventh conference on International Language Resources and Evaluation (LREC’10) (pp. 1320-1326).
- Recuperado de http://www.lrec-conf.org/proceedings/lrec2010/pdf/385_Paper.pdf
- Pedregosa, F., et al. (2011). Scikit-learn: Machine Learning in {P}ython. Journal of Machine Learning Research,
- , 2825-2830. Recuperado de http://www.jmlr.org/papers/volume12/pedregosa11a/pedregosa11a.pdf
- Pérez-Rodríguez, A. V., González-Pedraz, C., & Alonso Berrocal, J. L. (2018). Twitter como herramienta
- de comunicación científica en España. Principales agentes y redes de comunicación. Communication
- papers: media literacy and gender studies, 7(13), 95-111. Recuperado de https://dialnet.unirioja.es/servlet/
- articulo?codigo=6442315
- Peters, H. P., Dunwoody, S., Allgaier, J., Lo, Y.-Y., & Brossard, D. (2014). Public communication of science 2.0:
- Is the communication of science via the "new media" online a genuine transformation or old
- wine in new bottles? EMBO Reports, 15(7), 749-753. Doi: 10.15252/embr.201438979
- Pont-Sorribes, C., Cortiñas-Rovira, S., & Di Bonito, I. (2013). Challenges and opportunities for science journalists in adopting new technologies: the case of Spain. SISSA-International School for Advanced Studies,
- Journal of Science Communication, 12(3). Doi: 10.22323/2.12030205
- Quiñónez Gómez, H. & Sánchez Colmenares, M. (2016). Uso de Twitter en el periodismo científico. Los
- casos de los diarios El Nacional y El Universal en Venezuela. Question, 1(52), 212-231. Recuperado de
- http://perio.unlp.edu.ar/ojs/index.php/question/article/view/3490
- Ribas, C. (2012). La divulgación y la comunicación de la ciencia, en la encrucijada. Sociedad Española de
- Bioquímica y Biología Molecular (SEBBM), 173, 10-12. Recuperado de https://www.academia.edu/4630023/
- La_comunicación_de_la_ciencia_en_la_encrucijada
- Rosá, A., Chiruzzo, L., Etcheverry, M., & Castro, S. (2017). RETUYT en TASS 2017: Análisis de sentimiento de
- Tweets en Español utilizando svm y cnn. En: TASS 2017: Workshop on Semantic Analysis at SEPLN (pp. 77-83).
- Recuperado de http://arxiv.org/abs/1710.06393
- Saif, H., He, Y., & Alani, H. (2012). Semantic Sentiment Analysis of Twitter. En: Cudré-Mauroux P. et al. (eds).
- The Semantic Web – ISWC 2012. ISWC 2012. Lecture Notes in Computer Science. International Semantic
- Web Conference (ISWC 2012), 7649. 508-524. Doi: 10.1007/978-3-642-35176-1_32
- Segarra-Saavedra, J., Tur-Viñes, V., & Hidalgo-Marí, T. (2017). Uso de Twitter como herramienta de difusión
- en las revistas científicas españolas de Comunicación. En: 7a Conferencia internacional sobre revistas de
- ciencias sociales y humanidades, Revista Mediterrána de Comunicación. Recuperado de http://thinkepi.
- net/notas/crecs_2017/J_16_30_Segarra.pdf
- Sidorov, G. et al. (2013). Empirical Study of Machine Learning Based Approach for Opinion Mining in Tweets.
- En: Batyrshin I., González Mendoza M. (eds.) Advances in Artificial Intelligence. MICAI 2012. Lecture Notes in
- Computer Science, 7629. Springer, Berlin, Heidelberg . Doi: 10.1007/978-3-642-37807-2_1
- Van Zoonen, W. & Van der Meer, Toni, G. L. A. (2016). Social media research: The application of supervised
- machine learning in organizational communication research. Computers in Human Behavior, 63, 132-141.
- Doi: 10.1016/J.CHB.2016.05.028
- Whitman Cobb, W. N. (2015). Trending now: Using big data to examine public opinion of space policy.
- Space Policy, 32, 11-16. Doi: 10.1016/J.SPACEPOL.2015.02.008
- Yerva, S. R., Miklós, Z., & Aberer, K. (2012). Quality-aware similarity assessment for entity matching in Web
- data. Information Systems, 37(4), 336-351. Doi: 10.1016/J.IS.2011.09.007