ZOOM
GALERÍA
0 COMENTARIOS

¿Hasta qué punto puede ser peligroso el uso de los big data?

Trump, el big data y los algoritmos de aprendizaje

Hace unos meses, mientras veíamos desde la vieja y civilizada Europa los discursos histriónicos de Donald Trump, en plena campaña por la presidencia de los EE.UU., muchos nos reíamos pensando que era tan absolutamente idiota en sus planteamientos, tan descaradamente incorrecto, chabacano y vulgar que, simplemente, parecía de locos que pudiera ganar. Pero ganó.

Desde entonces no han parado de sucederse las críticas y análisis. Se ve lo que antes no se vio y se entiende lo que antes no se entendió. Estaría bien si, además, los países tomaran nota para cuando aparezcan nuevos Trump en sus respectivos países, porque aparecerán, y posiblemente también ganarán (si es que no ocupan ya la silla presidencial). De entre todas las publicaciones y claves que se han dado hasta ahora sobre la victoria de Trump, hay dos artículos que merece la pena rescatar.

Uno de ellos es de Cathy O’Neil publicado en Mathbase en agosto de 2016. El otro es de Hannes Grassegger y Mikael Krogerus, y se publicó el 28 de enero de este año en Motherboard. Y antes de meternos en resumirlos, queremos recomendaros dos lecturas que, a la luz de los acontecimientos, pueden ayudar a entender mejor todo esto: Los peligros de no pensar por uno mismo y ¿Qué debe preocuparte del big data? Y ahora vamos con los artículos sobre Trump, el big data, y los algoritmos de aprendizaje.

Si cambiamos a Trump por un algoritmo automático el resultado será el mismo

En el primero, Cathy O’Neil hace un curioso y acertado paralelismo entre Trump y los algoritmos de aprendizaje en el que, básicamente, afirma que Trump funciona igual que estos algoritmos. ¿No se han dado cuenta? Trump no se comporta igual que el resto de la gente, y da la impresión de que no hay ningún principio moral que no pueda saltarse y, desde luego, ninguno que sirva de guía a su discurso. Quizá estamos ante el caos en estado puro, pero para O’Neil, a pesar de la falta de eje, hay un método muy claro dentro de su oratoria y sus puestas en escena: no aburrir. Como los buenos vendedores, hacer espectáculo y darle a la gente lo que quiere.

Con un objetivo tan concreto, el modo de actuar se vuelve muy sencillo y pura experimentación. Dice cualquier cosa, conduce la conversación a un punto y observa. Si la gente responde con entusiasmo sigue por ahí; si no les gusta, abandona. Cuanto más agitada y exacerbada sea la respuesta de la gente, mejor. Como dice O’Neil, “cualquier cosa menos ser aburrido”. El proceso se repite continuamente, de manera que va aprendiendo de sus experiencias y perfeccionando su forma de encender las emociones (bajas por lo general) de sus oyentes.

De alguna manera, O’Neil usa el ejemplo de Trump para poner sobre la mesa las consecuencias que pueden tener estos algoritmos de aprendizaje sobre la Inteligencia Artificial que ahora estamos creando. Una de esas consecuencias es que los datos para aprender siempre están sesgados por prejuicios. En el caso de los asistentes a los mitines de Trump, O’Neil los describe como una clase particular de “raritos” (weirdo), y esa sería una de las razones por las que sus discursos siempre termina hablando sobre sus “zonas seguras” de aprendizaje, lo que sabe que la gente va a aplaudir. Por eso, la gente que le escucha en los mitines salta enfervorizada, mientras que al resto del mundo todo eso le chirría: no es el camino adecuado.

El proceso de aprendizaje maquinal de Trump no le impide cambiar el rumbo de sus alegatos si la multitud lo pide o cree que puede gustarles aún más. Funciona exactamente igual que el algoritmo: es frío, objetivo y amoral, no tiene creencias reales ni ideas propias; todo se va construyendo conforme la respuesta del medio, en este caso del público, conduce sus palabras y acciones en un sentido o en otro.

Como explica O’Neil, si se reemplazase a Trump por un robot con un sistema de aprendizaje automático, con una mala definición de lo que es el éxito (en el caso de Trump en el castigo por aburrimiento), el resultado posiblemente sería el mismo. Su movimiento se basa únicamente en los números, pero en datos extremadamente sesgados.

Cada quien con su sesgo

O’Neil hace una reflexión que conviene que todos nos hagamos también: Los algoritmos automáticos de aprendizaje pueden proporcionarnos cosas que no queremos aunque carezcan absolutamente de intenciones ocultas. Un ejemplo: Si habitualmente lees los mismos periódicos online puede que nunca te des cuenta, porque vas a navegar siempre por lugares afines a ti (que serán los que te ofrezcan continuamente los robots de los navegadores; esto es lo que te gusta, esto es lo que te doy), y hasta es posible que acabes pensando que la mayoría de las opiniones y visiones del mundo son como las tuyas, sencillamente porque no ves otras cosas. Si un día, por la razón que sea, llegas a una noticia o un medio diferente de los habituales y entras a leerla (aunque sea para escandalizarte), de pronto te sorprenderá ver que aparecen en tu navegador noticias y fotos que nunca antes habían despertado tu interés, o porque realmente no te interesaban o porque el algoritmo determinó que no te interesarían.

Esta retroalimentación es una forma fría de mantener los sesgos y, por tanto, los perfiles de público que tanto cuesta identificar, pero no deja de ser una acción mecánica del algoritmo, que ni siente ni padece, y no tiene ningún interés en tus gustos, salvo para mantenerte contento dentro de un mundo parcializado en base a lo que te gusta y lo que no. Lo que plantea O’Neil es bastante irónico porque la gente, de alguna forma, se siente harta de los políticos y casi podría preferir que un algoritmo frío y puramente racional tome las decisiones acertadas. Aunque antes sería necesario definir qué es lo racional, y preguntarse por qué ese empeño en amputarle la racionalidad a lo humano y dotarla de vida independiente.

Lo cierto, explica O’Neil, es que los robots son entrenados por las personas, son los propios gustos personales y subjetivos de las personas las que enseñan a la IA que es lo que quieren. La IA lo único que hace es dárselo. La cuestión entonces es ¿sabemos lo que queremos? ¿somos capaces de valorar lo mejor para el conjunto por encima de lo que deseamos personalmente? ¿sabemos opinar, o realmente nos pasamos el día valorando y hablando de cosas que en verdad no entendemos? El robot es simplemente una máquina, funciona sobre una variante algo más compleja que el estímulo-respuesta, pero un estímulo que, a fin de cuentas, le damos nosotros.

Al robot no le preocupa si tienes acceso a las ayudas sociales, si la sanidad cubre el tratamiento de tu hijo o si la nueva película de la saga Star Wars aporta algo interesante o es sólo una forma de estrujar al máximo el merchandising. A la máquina le da igual, pero si no entendemos cómo funciona, nos veremos expuestos a una permanente desinformación y a las acciones propagandísticas de los que sepan cómo usar estos métodos. Una vez más, cuando dejamos en manos de otros, incluso de un aséptico robot, la toma de decisiones, estamos poniendo solitos una cadena alrededor de nuestro cuello. Cuestionarse las cosas no es sólo un derecho, es una obligación para la gente que aspira a ser libre. Si no, algún Trump le dará lo que quiere.

Datos para volver el mundo del revés

Vamos ahora con el artículo de Grassegger y Krogerus. Su historia comienza hablando del psicólogo de Stanford Michal Kosinski, que desarrolló un sistema para analizar detalladamente a la gente según su actividad en Facebook. Como experto en psicometría, Kosinski solía dar charlas por todo el mundo sobre los peligros del big data y la revolución digital. Estaba en su hotel de Zúrich, antes justamente de dar una de sus charlas, cuando conoció la noticia de la elección como presidente de Donald Trump.

En los días sucesivos estuvo viendo por televisión las diferentes celebraciones de la victoria y los resultados que se habían obtenido en cada estado, y se dio cuenta de que aquello podía estar relacionado con una investigación sobre el uso de los datos que llevaba tiempo realizando.

Tal y como publicó un medio AEDE que no desea ser enlazado, al poco de ganar Mariano Rajoy las elecciones en nuestro país se difundió también la noticia de que, detrás de aquella victoria estuvo implicada la empresa TMG (The Messina Group) y más concretamente una de sus empleadas, Isabelle Wrigth, que trabajo estrechamente con el PP mediante el análisis del big data extraído de las redes sociales. La misma empresa que ayudó a Obama en su campaña. En el caso de Trump, cuando se supo el resultado de las elecciones una empresa británica lanzó un comunicado para echarse flores por la victoria. Se trataba de Cambridge Analytica, cuyo CEO es Alexander James Ashburner Nix. La compañía de Nix, dedicada al análisis de big data, estuvo detrás de la campaña de Trump, pero también detrás de la campaña británica a favor del Brexit.

¿Hasta qué punto puede ser peligroso el uso de los big data?

La recolección y uso de los big data es mucho más complejo de lo que el gran publico supone. Es más, cuando le hablas a la gente sobre cómo las cookies que circulan por Internet recopilan información sobre todo lo que hacemos en la red, o de los ataques de los hackers, la respuesta suele ser: “No van a sacar nada interesante de mi, más que las deudas”. La cuestión es que el mundo online y el offline están más relacionados de lo que creemos.

Cada vez que usamos una tarjeta de crédito o la de fidelización de la perfumería, cuando vamos al médico, cuando nos anotamos a una actividad por Eventbrite, cuando hacemos una búsqueda en Google, al enviar un email, cuando chateamos por Whatsapp, si jugamos a Candy Crush, si conectamos la tele a Netflix, si hablamos con un teleoperador, cuando tomamos un vuelo o viajamos en autobús, o incluso si hacemos running mientras llevamos encima el móvil, sin ni siquiera hace falta tener una app de control de actividad, se están obteniendo, recopilando y analizando cientos de datos sobre nuestros hábitos de vida o preferencias. No hace falta estar delante de una pantalla, los datos se recogen y siguen su propio camino. En teoría los datos son anónimos, lo que quiere decir que se sabe lo que se ha hecho, pero no quién lo ha hecho, pero lo cierto es que existen tecnologías de rastreo inverso que parecen haber demostrado lo fácil que es poner nombre, apellidos y número de la seguridad social a esos datos anónimos.

Una persona normal, como tu abuela, podría preguntarse para qué querría nadie saber todo eso de ella. Hace algunos años alguna revista especializada en informática habría explicado que, de esa manera, los buscadores venden publicidad por medio de un servicio que es gratuito. Así que si buscas “cambiar el aceite al coche” en Google, no tardarán mucho en aparecer anuncios de talleres por tu zona con ofertas para cambiarte el aceite del coche. Pero las posibilidades del big data van mucho más allá, y las campañas de Obama, Rajoy, el brexit y Trump lo demuestran.

En 2014 Kosisnki trabajaba en el centro de psicometría de la Universidad de Cambridge. Anteriormente, en los 80, dos equipos de psicólogos desarrollaron un modelo para evaluar la personalidad de los seres humanos en base a cinco grandes rasgos, conocido como “big fives” u OCEAN:

  • Grado de apertura a nuevas experiencias
  • Grado de perfeccionismo
  • Grado de sociabilización o extroversión
  • Grado de cooperación o consideración hacia otros
  • Grado de facilidad para sentirse molesto por algo

Esta evaluación, que se realizaba haciendo a las personas rellenar largos y complejos cuestionarios, se usó como estándar en psicometría. Al menos hasta que hicieron su aparición en escena Facebook y Kosinski. Cuando Facebook todavía no era lo que es hoy, David Stillwell, colega de Kosinski, creó una aplicación para la red social llamada MyPersonality, de manera que la gente rellenaba diversos cuestionarios psicométricos, incluyendo preguntas del big five. Los usuarios recibieron sus respectivos perfiles de personalidad y se les dio la opción de compartir sus datos de perfil de Facebook con los investigadores. Lo sorprendente es que mientras que Kosinski esperaba que sólo unos cientos de universitarios rellenaran el cuestionario, en poco tiempo vio que millones de personas estaban revelando datos de sí mismos realmente íntimos. Así fue como, de pronto, dos investigadores doctorales estuvieron en posesión de el conjunto de datos personales, combinado con información psicométrica, más grande jamás recopilada.

Stillwell y Kosinski trabajaron durante varios años proporcionando a la gente cuestionarios online y calculando los big fives a través de sus respuestas. Compararon los resultados con todos los datos de Facebook de los encuestados: lo que marcaron como “me gusta”, lo que compartieron y publicaron, su género, edad, lugar de residencia y todos los demás datos que hicieron públicos, con lo que pudieron ir estableciendo correlaciones entre todos esos datos. Así encontraron conexiones tan curiosas como que los hombres a los que gustaba la marca de cosméticos MAC solían ser gays, mientras que un buen marcador de heterosexualidad era que gustara el grupo de rap Wu-Tang Clan. También se vio que los seguidores de Lady Gaga solían ser extrovertidos, mientras que los aficionados a la filosofía tendían más a la introversión.

Por sí mismo, cada uno de esos datos no tenía apenas valor, pero en conjunto, esos miles de millones de pequeños ítems de información podían ser enormemente relevantes, y Kosinski logró perfeccionar hasta tal punto el sistema que sólo sobre una base promedio de 68 “me gusta” podía acertar en un 95% el color de la piel de la persona, en un 88% su orientación sexual y en un 85% su afinidad por los republicanos o los demócratas. Las investigaciones fueron más allá, y eran capaces de determinar con bastante precisión el nivel de inteligencia, la religión, y hasta el consumo de alcohol, tabaco o drogas. Conforme el modelo mejoraba más y más eran incluso capaces de predecir las respuestas que iba a dar un sujeto.

Kosinski podía hacer una evaluación tipo “compañero de trabajo” con 10 “me gusta”, con 70 ya sabía más de una persona que sus propios amigos, con 150 más de lo que sabían sus padres y con 300, más de lo que podía llegar a saber alguien tan cercano como la pareja.

Según cuentan Grassegger y Krogerus, cuando Kosinski publicó los resultados de sus investigaciones recibió dos llamadas de Facebook; una para amenazarle con una demanda y otra para ofrecerle trabajo. Unas semanas después de aquello, la información sobre los gustos de los usuarios de Facebook pasó a ser privada por defecto, lo que no impidió que Kosinski siguiera recopilando información, simplemente pidiendo el consentimiento de los usuarios para acceder a sus datos, igual que hacen ahora la mayor parte de las aplicaciones y servicios online. Pero Facebook no era lo único que podía aportar información valiosa sobre la gente, por lo que elaborar perfiles psicológicos así de eficientes no depende siquiera de estar online.

Una de las aplicaciones más interesantes de la herramienta de Kosinski fue que podía emplearse al revés, para localizar perfiles muy concretos, por ejemplo, a todos los demócratas indecisos. Kosinski no tardó en ver su potencial, pero también su peligro inherente. ¿Qué pasa si alguien usa esos datos para manipular? En 2014, una persona llamada Aleksandr Kogan ofreció a Kosisnski y su equipo una gran cantidad de dinero para acceder a la base de datos de MyPersonality. En un principio Kogan no reveló el nombre de la empresa para la que trabajaba. Cuando finalmente lo hizo esta resulto ser Strategic Communication Laboratories, autodenominada como la principal agencia de gestión electoral. Su trabajo consistía en ofrecer marketing según perfiles psicológicos. Aunque esta información ya fue suficiente para que Kosinski sintiera rechazo. Intentó ir más allá y averiguar quién estaba detrás de SCL. Los hilos se perdían en los enrevesados trucos de ocultación de empresas como los revelados en los Papeles de Panamá, pero de vez en cuando asomaban y mostraban la relación de esta compañía con las elecciones de Ucrania o Nigeria, ayudando al monarca de Nepal contra los rebeldes o influyendo en Europa Oriental y Afganistán sobre la OTAN. En 2013 de SLC salió una nueva empresa con la intención de participar en las elecciones de EE.UU. Esa empresa era Cambridge Analytica.

Tirara de donde tirara, todo le conducía a informaciones bastante turbias sobre la empresa y sobre Kogan, que acabó cambiándose el nombre por Dr. Specter y mudándose a Singapur.

Kosinski sospechaba que SCL había logrado reproducir la herramienta de Kosinski y la había vendido a la empresa que ahora se encargaba de “influir” en los procesos electorales. Apenas unos años después Cambridge Analytica saltaba a los medios como la empresa de big data que había ayudado a la campaña pro brexit de Nigel Farage, y los colegas y amigos de Kosinski le increpaban continuamente acusándole de haber favorecido eso. Kosinski no tenía nada que ver, pero su método sí. Un método que poco después, a través de Alexander Nix, llegaba a manos de Donald Trump.

El nuevo presidente electo

Trump, de 70 años, no es precisamente un experto en el mundo digital. No escribe emails, no tiene ordenador en su despacho y no ha sido hasta hace muy poco que se entregó a Twitter desde un smartphone para asediar incesantemente a su oponente, Hillary Clinton.

Cuando se supo que Trump había contratado a Cambridge Analytica dos años antes de las elecciones, sus adversarios políticos sonrieron de medio lado, pensando que unos británicos estirados no iban a llegar a comprender jamás la compleja idiosincrasia del pueblo americano. No hacía falta, para eso estaban las herramientas de análisis. Según explicaba Nix, las campañas tradicionales se han basado hasta ahora en conceptos demográficos, y establecían mensajes específicos para todas las mujeres por ser mujeres, mensajes específicos para todos los afroamericanos por ser afroamericanos. Así que mientras los demás usaban la demografía, Nix se centraba en la psicometría, gracias a lo cual se pudo ayudar a modelar adecuadamente a los electores de Trump.

Grassegger y Krogerus defienden que posiblemente el papel de Cambridge Analytica no fue el responsable del éxito de Trump o del brexit, pero sin duda contribuyeron con un impulso extra a la victoria final. Nix achaca el éxito de su empresa en la combinación de tres elementos: la ciencia del comportamiento basada en el modelo OCEAN, el análisis big data y la orientación segmentada de los anuncios, para alinearla lo más posible con la personalidad de cada individuo.

Para ello la compañía compra datos personales de diferentes fuentes como los registros de la propiedad, los datos de los coches, de compras, miembros de clubes, etc. Nada complicado, dado que en EE.UU. todos los datos personales están en venta, al contrario que en Europa, donde los usuarios deben permitir expresamente el uso de sus datos. Al combinar estos datos con las listas electorales del partido Republicano, los perfiles de personalidad y los big five, obtuvieron información de personas reales con sus miedos, necesidades, intereses y direcciones, así hasta 220 millones de personas en Norteamérica.

De esa manera, tal y como revelaba O’Neil en el primer artículo, los aparentemente contradictorios mensajes de Trump se convirtieron en su fuerte, porque suponían un mensaje personalizado para cada tipo de votante, un algoritmo preciso en acción que se adaptaban perfectamente a los deseos de la audiencia. Se usaron mensajes “oscuros” patrocinados en Facebook para que sólo fuesen vistos por perfiles específicos con la intención de alejar de las urnas a los votantes de Clinton. Según Nix, el día del tercer debate presidencial entre Trump y Clinton llegaron a probar 175.000 variaciones diferentes de anuncios hasta localizar las versiones más adecuadas, aunque generalmente diferenciadas sólo en detalles pequeños, pero eficaces psicológicamente como los diferentes títulos, los colores, las leyendas, fotos o videos. Después de eso logran afinar tanto que pueden dirigir su mensaje específicamente a una aldea o a un bloque de apartamentos, y cita como ejemplo el distrito de Little Haiti, en Miami, donde se facilitó a los habitantes noticias sobre el fracaso de la Fundación Clinton para ayudar tras el terremoto de Haití.

Mujeres jóvenes, afroamericanos, izquierdistas indecisos… el perfil de los posibles votantes de Clinton se fue atacando sutilmente para evitar que votaran por ella. ¿Qué pasaría si sólo los afroamericanos pudieran ver en su Facebook vídeos en los que Clinton llama “depredadores” a los hombres negros? La empresa de Nix llegó a ganar por estas acciones más de 15 millones de dólares. Dividió la población de los EE.UU. en 32 tipos de personalidades y luego se centró en 17 estados, porque de la misma manera que Kosinski estableció la relación entre el gusto por los cosméticos MAC y una ligera propensión a ser gay, Nix descubrió que la preferencia por los coches de fabricación nacional era un buen indicador de un potencial votante de Trump. Fue sobre los datos como se tomó la decisión de centrarse en Michigan y Wisconsin en las últimas semanas de campaña. Los datos daban la pauta del mensaje y Trump hacia de altavoz. Irónicamente, a pesar de los ataques de Trump al mundo de la ciencia, ha sido la ciencia la que ha ayudado a ponerle ahí. Irónico, sí.

No comments yet.

Deja un comentario