En:
Revista Comunicación, Política y Seguridad, no. 3
Editor:
Universidad de Buenos Aires. Facultad de Ciencias Sociales. Instituto de Investigaciones Gino Germani
Fecha:
2021
Tipo de documento: 
Artículos
Formato:
application/pdf
Idioma:
es
Contenido: 
Este trabajo explora la aplicación de técnicas de procesamiento de lenguaje natural y web scraping para el estudio de contenido de noticias digitales a gran escala. Para ello, trabajamos con datos primarios construidos a partir de la técnica de web scraping utilizando como soporte empírico las noticias publicadas desde julio a septiembre 2019 en los portales Clarín , La Nación, Infobae, Página 12, Télam, Perfil , Crónica y Minuto Uno. En el procesamiento del corpus empleamos la técnica de procesamiento de lenguaje natural para la detección de tópicos con la implementación del método Latent Dirichlet Allocation (LDA). Los resultados muestran que los principales tópicos de la agenda mediática digital durante el contexto de las elecciones Primarias Abiertas Simultáneas y Obligatorias son las elecciones, los espectáculos, el deporte, la seguridad y la política exterior. El caso securitario es un tópico estable y relevante de la agenda mediática digital, aunque su prevalencia no aumenta durante el mes electoral. La conclusión principal es que la combinación de las técnicas web scraping y procesamiento de lenguaje natural pueden ser útiles para incrementar la escalabilidad (aumentar la captura de información y reducir los tiempos de selección y análisis de tópicos) en los estudios de contenido de noticias. Palabras clave: tópicos, procesamiento de lenguaje natural, web scraping y noticias digitales. Abstract: This paper explores the application of natural language processing and web scraping techniques for the study of large-scale digital news content. For this purpose, we work with primary data constructed from the web scraping technique using as empirical support the news published from July to September 2019 in the portals Clarín, La Nación, Infobae, Página 12, Télam, Perfil, Crónica and Minuto Uno. In the corpus processing we employed the natural language processing technique for topic detection with the implementation of the Latent Dirichlet Allocation (LDA) method. The results show that the main topics of the digital media agenda during the context of the Simultaneous and Mandatory Open Primary Elections are elections, entertainment, sports, security and foreign policy. The security case is a stable and relevant topic of the digital media agenda, although its prevalence does not increase during the electoral month. The main conclusion is that the combination of web scraping and natural language processing techniques can be useful to increase scalability (increase information capture and reduce topic selection and analysis times) in news content studies Keywords: topics, natural language processing, web scraping techniques and digital news
Identificador(es):
https://publicaciones.sociales.uba.ar/index.php/revistacomunicacion/article/view/6627
ISSN 26837374
Filiación Institucional: 
Derechos:
info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-nd/2.5/ar/
Licencia de uso:
Licencia Creative Commons

Descargar texto: 3_6.htm

Cita bibliográfica:

Florencia Nathalia Piñeyrúa  (2021). Aportes desde el procesamiento de lenguaje natural para incrementar la escalabilidad en los estudios sobre tópicos de noticias digitales securitarias.  Revista Comunicación, Política y Seguridad, no. 3  (Artículos).  Universidad de Buenos Aires. Facultad de Ciencias Sociales. Instituto de Investigaciones Gino Germani.  [consultado:  ] Disponible en el Repositorio Digital Institucional de la Universidad de Buenos Aires:  <https://publicaciones.sociales.uba.ar/index.php/revistacomunicacion/article/view/6627>