En este post describo en cierto detalle el análisis que realizamos para campañas políticas y elecciones, utilizando nuestro proyecto eleccions25n.cat como ejemplo.

En Websays tenemos ahora mismo varios proyectos de monitorización de campañas políticas en las redes, en España e Italia. Para mostrar nuestro trabajo al público hemos creado una página abierta en la que mostramos ejemplos de análisis de la campaña electoral catalana: eleccions25n.cat.

Cómo obtener los datos o el problema de la ambigüedad.

El motor de búsqueda de Websays recoge datos de múltiples medios: redes sociales (principalmente las partes públicas de Facebook y Twitter), blogs, forums, noticias online, y páginas web en general.

La primera tarea es definir un “perfil de búsqueda” para determinar qué datos vamos a recoger y medir. Esto puede parece fácil pero es una de las tareas más difíciles, debido a la ambigüedad inherente en el lenguaje! Por ejemplo, CUP puede ser la “Candidatura d’Unitat Popular” pero también es “taza” en inglés, las siglas de la famosa “Cambridge University Press”, las siglas de un aeropuerto venezolano, etc.

Inicialmente y para cada político y partido decidimos un conjunto de palabras clave o búsquedas (como “CIU”, “Artur Más”, etc.) A partir de ahí comenzamos a marcar en el sistema las menciones que son correctas y las que no son.

Por ejemplo “CIU propone un referendum” sería correcta, pero “CIU Centro de Inspección de Uranio” no. También indicamos al sistema de algunos términos que no son a priori relevantes para el tema (e.g. “Uranio”) y de los que sí lo son (e.g. “referendum “).

El motor de Websays analiza automáticamente todas las menciones relevantes y no relevantes y los términos y re-configura las búsquedas de manera a obtener el mayor número de menciones relevantes y el menor de erróneas (para esto utilizamos un sistema de “filtering” de última generación, si estais interesados podeis ver artículos sobre el tema aquí).

Esto se necesario hacerlo continuamente y a diario, al estar constantemente apareciendo nuevos temas en el discurso. El sistema de Websays se reconfigura automáticamente varias veces al día para maximizar el volumen de menciones relevantes obtenidas.

Detección de sentimiento o polaridad de las menciones

El siguiente paso es configurar el “detector de sentimiento o polaridad” de Websays. Websays utiliza tecnología punta en análisis del lenguage automático para determinar automáticamente si una mención es más bien positiva o negativa respecto a la entidad buscada. Por ejemplo “odio al CIU” es una mención negativa respecto a CIU, pero “CIU propone un referendum” no lo es.

La tecnóloga de detección del sentimiento es aún algo primitiva, y requiere que el sistema sea configurado a base de ejemplos positivos y negativos de la misma manera que configuramos el sistema de relevancia descrito más arriba.

Nuestros analistas revisan decenas de miles de menciones indicando al sistema su polaridad de manera que el sistema aprenda rápidamente a detectar las menciones negativas en el discurso político. Aunque no se puede pretender una gran exactitud en la detección, sobretodo en temas tan complejos como la política, la supervisión constante del sistema por parte de analistas permite llegar a una alta fiabilidad en la detección de las menciones más claramente positivas y negativas.

Determinación del Impacto de las menciones

No todas las menciones tienen el mismo impacto. No es lo mismo un artículo en El Periódico que un tweet jamás retweeteado. No es lo mismo un post en Facebook con 700 likes y 340 comentarios que uno sin likes ni comentarios.

Es importante asignar a cada mención una medida impacto que tenga esto en cuenta. Este artículo de nuestro blog explica en más detalles cómo calculamos el impacto de una mención. A groso modo, el impacto de una mención en Websays depende del impacto interno de la mención («me gusta»s, comentarios, etc.) y el impacto externo de la mención (re-tweets, links externos a la mención, etc.):

IMPACTO(m) = 1+ retweets(m) + likes(m) + comments(m) + incoming links(m)

dónde:

likes(m) es el número de likes de la mención m (por ejemplo si es un Facebook post o comment, o un blog post)
incoming_links(m) es el número de referencias externas a la mención m (por ejemplo si la mención es un video, puede que lo referencien en tweets y blog posts).

Rankings

Con todos los datos recogidos es posible definir un gran número de indicadores, ordenaciones, rankings, etc. que son accesibles desde el Dashboard de Websays.

Explicaré aquí los rankings más básicos y generales utilizados para la página www.eleccions25n.cat.

Para medir el impacto de un autor a en un periodo de tiempo t simplemente sumamos el impacto de las menciones qué ha escrito durante este periodo:

IMPACTO(a,t) = Σ(menciones m de autor a en periodo t) IMPACTO(m)

Para medir la popularidad de un político o partido sumaremos el impacto de sus menciones. Consideramos que las menciones negativas no deben afectar a la popularidad de un candidato o partido (en todo caso afectarían a su impopularidad), por los que las eliminamos de la suma:

Popularidad (t) = Σ(menciones m en periodo t) IMPACTO(m) * d1(m)

d1(m) = 0 si la mención m es negativa, 1 si no lo és.

De la misma manera podemos definir una métrica de impopularidad o «polémica» considerando solo las menciones negativas:

Impopularidad (t) = Σ(menciones m en periodo t) IMPACTO(m) * (1-d1(m))

Obviamente, jugando con estas medidas se pueden definir y nombrar muchas otras métricas. Hemos experimentado con muchas y continuaremos haciéndolo, pero por ahora estas son las que nos dieron los resultados más interesantes.

Shirk these writemyessay4me.org/ discussions in favour of solitary thinking!

Midiendo la conversación política en la red

Cómo obtener los datos o el problema de la ambigüedad.

Detección de sentimiento o polaridad de las menciones

Determinación del Impacto de las menciones

Rankings