NewsAnalyzer : un analitzador de notícies etiquetades


Autoria(s): Castaño Ribes, Rafel
Contribuinte(s)

Universitat Oberta de Catalunya

Data(s)

26/07/2011

Resumo

En aquest treball es pretén abordar la problemàtica de confirmar o refutar si determinades fonts de notícies online mostren algun tipus de biaix que a priori un lector podria detectar per simple intuïció. Per simplificar les tasques d'anàlisi es treballa amb fonts de notícies que disposen d'APIs d'accés als seus articles i que, a més a més, proporcionen anotacions semàntiques (etiquetes) associades a cada notícia a mode de classificació d'aquestes. Per complir amb els objectius plantejats s'analitza i millora un mètode descrit en la bibliografia que permet dur a terme una anàlisi de les etiquetes per tal d'obtenir i aplicar un vocabulari comú a les diferents fonts (procediment de normalització). El programari resultant es presenta com una aplicació implementada en Java i MySQL que recol·lecta notícies anotades semànticament de diferents fonts de notícies online (els diaris The Guardian i The New York Times), les analitza i permet visualitzar els resultats en funció del vocabulari normalitzat per tal d'extreure conclusions sobre quins són els temes més tractats per cada font. Finalment, s'analitzen els resultats obtinguts, es discuteixen i s'extreuen una sèrie de conclusions sobre el mètode de normalització i classificació emprats i es proposen possibles millores per al futur de l'aplicació.

En este trabajo se pretende abordar la problemática de confirmar o refutar si determinadas fuentes de noticias online muestran algún tipo de sesgo que a priori un lector podría detectar por simple intuición. Para simplificar las tareas de análisis se trabaja con fuentes de noticias que disponen de APIs de acceso a sus artículos y que, además, proporcionan anotaciones semánticas (etiquetas) asociadas a cada noticia a modo de clasificación de las mismas. Para cumplir con los objetivos planteados se analiza y mejora un método descrito en la bibliografía que permite llevar a cabo un análisis de las etiquetas para obtener y aplicar un vocabulario común a las diferentes fuentes (procedimiento de normalización). El software resultante se presenta como una aplicación implementada en Java y MySQL que recolecta noticias anotadas semánticamente de diferentes fuentes de noticias online (los diarios The Guardian y The New York Times), las analiza y permite visualizar los resultados en función del vocabulario normalizado para extraer conclusiones sobre cuáles son los temas más tratados por cada fuente. Finalmente, se analizan los resultados obtenidos, se discuten y se extraen una serie de conclusiones sobre el método de normalización y clasificación utilizados y se proponen posibles mejoras para el futuro de la aplicación.

This paper aims to tackle the problem of confirming or refuting whether certain online newspapers show some kind of a priori bias that a reader could detect by simple intuition.

Identificador

http://hdl.handle.net/10609/8016

Idioma(s)

cat

Publicador

Universitat Oberta de Catalunya

Direitos

<a href="http://www.gnu.org/licenses/gpl.html">http://www.gnu.org/licenses/gpl.html</a>

Palavras-Chave #anotacions semàntiques #normalització d'etiquetes #anàlisi de notícies #anotaciones semánticas #semantic annotations #normalización de etiquetas #standard tags #análisis de noticias #news analysis #Electronic newspapers #Mass media #Premsa electrònica -- Innovacions tecnològiques #Mitjans de comunicació de massa #Prensa electrónica -- Innovaciones tecnológicas #Medios de comunicación de masas
Tipo

Bachelor thesis