En Websays somos pioneros en el desarrollo de tecnología de escucha activa y análisis semántico, lo que nos permite captar y analizar las opiniones en el mundo online (redes sociales, blogs, forums, comentarios de noticias…). Esta tecnología se aplica sobretodo en el mundo del Marketing, pero también tiene aplicaciones interesantísimas en el ámbito de la política y la gobernanza.
En particular Websays desarrolla tecnología para análisis y medición en tiempo real de la conversación política. Las elecciones catalanas del 2011 (ver página) y las Italianas del 2012 (ver página) fueron los primero ejemplos de páginas de seguimiento de elecciones. Esta semana hemos lanzado un nuevo experimento en medición para la elecciones catalanas del 2015: elecciones27s.websays.com.
En este artículo daré una introducción de los problemas técnicos a los que nos enfrentamos para desarrollar aplicaciones de este tipo.
El problema de la ambigüedad
El motor de búsqueda de Websays recoge datos de múltiples medios: redes sociales (principalmente las partes públicas de Facebook y Twitter), blogs, forums, noticias online, y páginas web en general.
La primera tarea es definir un “perfil de búsqueda” para determinar qué datos vamos a recoger y medir. Esto puede parece fácil pero es una de las tareas más difíciles, debido a la ambigüedad inherente en el lenguaje! Por ejemplo, CUP puede ser la “Candidatura d’Unitat Popular” pero también es “taza” en inglés, las siglas de la famosa “Cambridge University Press”, las siglas de un aeropuerto venezolano, etc.
Inicialmente y para cada político y partido decidimos un conjunto de palabras clave o búsquedas (como “CIU”, “Artur Más”, etc.) A partir de ahí comenzamos a marcar en el sistema las menciones que son correctas y las que no son.
Por ejemplo “CIU propone un referendum” sería correcta, pero “CIU Centro de Inspección de Uranio” no. También indicamos al sistema de algunos términos que no son a priori relevantes para el tema (e.g. “Uranio”) y de los que sí lo son (e.g. “referendum “).
El motor de Websays analiza automáticamente todas las menciones relevantes y no relevantes y los términos y re-configura las búsquedas de manera a obtener el mayor número de menciones relevantes y el menor de erróneas (para esto utilizamos un sistema de “filtering” de última generación, si estais interesados podeis ver artículos sobre el tema aquí).
Esto se necesario hacerlo continuamente y a diario, al estar constantemente apareciendo nuevos temas en el discurso. El sistema de Websays se reconfigura automáticamente varias veces al día para maximizar el volumen de menciones relevantes obtenidas.
Detección de sentimiento
El siguiente paso es configurar el “detector de sentimiento o polaridad” de Websays. Websays utiliza tecnología punta en análisis del lenguage automático para determinar automáticamente si una mención es más bien positiva o negativa respecto a la entidad buscada. Por ejemplo “odio al CIU” es una mención negativa respecto a CIU, pero “CIU propone un referendum” no lo es.
La tecnóloga de detección del sentimiento es aún algo primitiva, y requiere que el sistema sea configurado a base de ejemplos positivos y negativos de la misma manera que configuramos el sistema de relevancia descrito más arriba.
Nuestros analistas revisan decenas de miles de menciones indicando al sistema su polaridad de manera que el sistema aprenda rápidamente a detectar las menciones negativas en el discurso político. Aunque no se puede pretender una gran exactitud en la detección, sobretodo en temas tan complejos como la política, la supervisión constante del sistema por parte de analistas permite llegar a una alta fiabilidad en la detección de las menciones más claramente positivas y negativas.
Determinación del Impacto de las menciones
No todas las menciones tienen el mismo impacto. No es lo mismo un artículo en El Periódico que un tweet jamás retweeteado. No es lo mismo un post en Facebook con 700 likes y 340 comentarios que uno sin likes ni comentarios.
Es importante asignar a cada mención una medida impacto que tenga esto en cuenta. Este artículo de nuestro blog explica en más detalles cómo calculamos el impacto de una mención. A groso modo, el impacto de una mención en Websays depende del impacto interno de la mención («me gusta»s, comentarios, etc.) y el impacto externo de la mención (re-tweets, links externos a la mención, etc.):
IMPACTO(m) = 1+ retweets(m) + likes(m) + comments(m) + incoming links(m)
dónde:
- likes(m) es el número de likes de la mención m (por ejemplo si es un Facebook post o comment, o un blog post)
- incoming_links(m) es el número de referencias externas a la mención m (por ejemplo si la mención es un video, puede que lo referencien en tweets y blog posts).
Rankings
Con todos los datos recogidos es posible definir un gran número de indicadores, ordenaciones, rankings, etc. que son accesibles desde el Dashboard de Websays.
Explicaré aquí los rankings más básicos y generales utilizados para la página www.eleccions25n.cat.
Para medir el impacto de un autor a en un periodo de tiempo t simplemente sumamos el impacto de las menciones qué ha escrito durante este periodo:
IMPACTO(a,t) = Σ(menciones m de autor a en periodo t) IMPACTO(m)
Para medir la popularidad de un político o partido sumaremos el impacto de sus menciones. Consideramos que las menciones negativas no deben afectar a la popularidad de un candidato o partido (en todo caso afectarían a su impopularidad), por los que las eliminamos de la suma:
Popularidad (t) = Σ(menciones m en periodo t) IMPACTO(m) * d1(m)
d1(m) = 0 si la mención m es negativa, 1 si no lo és.
De la misma manera podemos definir una métrica de impopularidad o «polémica» considerando solo las menciones negativas:
Impopularidad (t) = Σ(menciones m en periodo t) IMPACTO(m) * (1-d1(m))
Obviamente, jugando con estas medidas se pueden definir y nombrar muchas otras métricas. Hemos experimentado con muchas y continuaremos haciéndolo, pero por ahora estas son las que nos dieron los resultados más interesantes.