" />
Cables de red
ZOOM
GALERÍA
0 COMENTARIOS

La tecnología de los datos masivos se enfrenta al reto cómo y para qué usar esos datos

¿Qué debe preocuparte de Big Data?

Hace algunos años, cuando empecé a saber más acerca de los servicios gratuitos de Internet, las cookies y el trasiego de datos privados, me planteé la posibilidad de escribir sobre el tema. Sin embargo, el medio en el que trabajaba entonces no disponía de espacio físico suficiente para tratar el tema con cierta profundidad y, para ser sinceros, no me sentía del todo cómoda haciéndolo. Había una parte en la que se mezclaba paranoias personales que no sabía cómo abordar para que resultase lo más objetivo posible. Pasado un tiempo, el término Big Data (o datos masivos) comenzó a dejarse oír en los medios, a cobrar mayor importancia las políticas de protección de datos y a hacerse más notoria la falta de seguridad que hay sobre los mismos con el caso Snowden y la NSA en primer plano. Hace unos meses me propuse, finalmente, ponerme manos a la obra y comenzar a poner en orden la documentación que había ido recopilado. Si algo sobraba era información sobre el tema. Asistí a varios eventos de IBM, donde se tocaba ampliamente, desde el punto de vista más comercial, la gestión de Big Data. En La 2 de TVE, una entrevista a tres bandas (Fernando Villaespín, Juan Manuel García Campo y Antonio Martínez Ron) en el programa “Torres y Reyes” estuvo dedicada a esto. Los periódicos se hacen eco del tema un día sí y otro también, y el número de enero de 2014 de Investigación y Ciencia dedica un informe especial a los Macrodatos.

¿Qué más se podía aportar cuando los datos masivos ya se habían convertido en un tema popular del que todo el mundo hablaba? La primera conclusión que veo en todo lo que rodea los Big Data es que son, sencillamente, una herramienta. Algo con utilidad en muchos frentes: sanidad, economía, marketing, publicidad, psicología, defensa… Lo preocupante no es lo que son, sino para qué se usan y, sobre todo, quién los usa. Pero vamos a empezar por el principio (y a terminar por el final, como dirían Les Luthiers).

¿Qué es Big Data?

Hace miles de años, Egipto ya tenía un censo donde registraba tanto las propiedades como a los propietarios. También era importante, dadas las limitaciones físicas del territorio fértil del país, mantener una nivel de población lo más estable posible. Ese censo era de gran utilidad para lograrlo. La tablillas de barro de Mesopotamia registraban prácticamente todas las cuestiones burocráticas y administrativas de interés para las sociedades que habitaron entre los dos ríos. En las antiguas Grecia y Roma se realizaban censos de población periódicos con los que gestionar la recaudación de impuestos y los recursos de que disponían los territorios. Algo no muy diferente sucedió desde antiguo en China.

Durante muchos, muchos siglos, la recopilación y gestión de estos datos se hizo de forma totalmente artesanal, con funcionarios desplazándose hasta los lugares más recónditos de sus fronteras, anotando, uno a uno, los habitantes, bienes y demás datos de interés para el buen funcionamiento del Estado. El problema solía ser que, para cuando el recuento se había acabado y los datos estaban en manos de los administradores y gobernantes, estos ya hacía tiempo que se habían arrugado de puro viejos.

El inicio de la demografía

El inicio de la demografíaDurante el siglo XIV, la figura de Ibn Jaldún se convierte en la de un historiador fundamental que, a su vez, es objeto de estudio histórico a través de la forma que tuvo de enfocar el análisis de la población en sus obras. Europa no empezó a aprovechar parte de sus ingentes posibilidades hasta el siglo XIX.

Pero los estados no sólo han necesitado saber el número de habitantes por municipios, su sexo, edad, estado civil o sus profesiones y capacitaciones. Con ello esperaban obtener informaciones derivadas que les ayudasen a prever tendencias de crecimiento o decrecimiento, ajustar impuestos o manejar las reservas de alimentos. Históricamente se considera a Ibn Jaldún (siglo XIV) el primer demógrafo de la historia. Su fundamental aportación fue la representación de los datos estadísticos y la obtención, a partir de ahí, de nuevos datos que él, hábilmente supo analizar e interrelacionar en sus obras. En su visión de la Historia, Ibn Jaldún entiende que saber analizar adecuadamente los acontecimientos pasados nos permiten entender por qué pasa lo que pasa en el presente y a dónde nos puede llevar el futuro.

Posteriormente, en el siglo XVIII, el británico Thomas Robert Malthus analizó los datos de población del momento y hablaba ya de la constante en la tendencia de crecimiento de esta, muy por encima de la producción de alimentos. Es por esos mismos años, ya más metidos en el siglo XIX, que alborea la estadística como ciencia capaz de recoger y clasificar los datos. Y se llamaba estadística porque nació de la necesidad de los estados de conocer más acerca de lo que pasaba dentro de sus fronteras. Eso no quiere decir que en las civilizaciones antiguas no la pusieran en práctica. Lo que pasa es que no fue hasta los últimos siglos que se logró una sistematización y un mayor desarrollo de las técnicas de recolección y análisis de datos. Pero no de todos los datos. El objetivo en este caso era, partiendo de una pequeña muestra de datos que representasen al total, obtener resultado precisos y extrapolables a la mayor parte del conjunto.

La gran revolución de esto fue que ya no era necesario ir persona por persona preguntando, sino que se podía encuestar a unos pocos y suponer que el resto de la población arrojaría datos similares. Las posibilidades de obtener resultados más rápido y de forma más barata creció, pero no su fiabilidad. Con el tiempo aparecieron fórmulas de corrección que ayudaban a afinar más las predicciones, balanceando los posibles fallos en la toma de datos y aprendiendo la forma correcta de seleccionar la muestra.

La Estadística abrió las puertas a todo tipo de encuestas y sondeos de cara elecciones o referéndums y, por supuesto, no sólo encargados por los gobiernos. Empresas de todo tipo querían saber la opinión de los ciudadanos, consumidores, público, clientes y usuarios: Valora del 1 al 10, siendo 1 nada satisfecho y 10 muy satisfecho, tu grado de satisfacción con la atención recibida. Con la llegada de la era digital, la comodidad de realizar encuestas online y de digitalizar los resultados rápidamente aumentó la cantidad de datos procesados. Pero aquí no acaba todo.

El valor del big data está en los resultados de las correlaciones 

Las administraciones públicas, las compañías de seguros y los bancos han sido, tradicionalmente, quienes disponían de más información sobre nosotros: edad, sexo, estado civil, estudios, deudas, préstamos, hipotecas, cuentas, capacidad de ahorro, empleo, cursos extracurriculares, becas, ayudas, enfermedades, accidentes, pleitos, etc. Con esos datos en la mano los bancos nos han ofrecido (o no) tarjetas de crédito y préstamos personales con ciertas garantías de pago por nuestra parte sin que tengamos siquiera que solicitarla. Luego vinieron las compañías telefónicas: a quién llamas con más frecuencia, a qué horas, durante cuánto tiempo, ¿días de semana o findes? Perfecto para elaborar planes personalizados según usos de los grupos mayoritarios de población y asegurarse los clientes. Eso es ir a tiro hecho. Pero, ¿y si esos datos se pudiesen cruzar con los bancarios? ¿o los de nacionalidad del censo? ¿Y los de salud o impagos con las compañías de seguros? ¿Cómo acertar con los precios de las tarifas para que, por ejemplo, los estudiantes (eternos pelaos) se interesen y se enganchen a la compañía? ¿Y con los inmigrantes? ¿Podrían valorar las aseguradoras la conveniencia o no de firmar una póliza con alguien?

El mayor valor de los datos masivos está precisamente en la capacidad de hacer correlaciones inteligentes. Un ejemplo de ello lo pone la cadena Walmart, según explican en el libro “Big Data. La revolución de los datos masivos”, Viktor Mayer-Schönberger y Kenneth Cukier. Gracias al análisis de sus datos de venta, descubrieron que había una relación entre el aviso de aproximación de un huracán y el aumento de ventas de linternas y un dulce llamado Pop-Tarts. Las razones de que esto pasara eran lo de menos, sólo tuvieron que estar pendientes a las alertas meteorológicas y colocar, antes de un huracán, los Pop-Tarts en el frontal de las tiendas, cerca de los habituales kits para huracanes y que se dispararan las ventas.

Todavía nos movemos dentro del mundo de la probabilidad y el sondeo. El principal inconveniente de esto es que, por regla general (más de lo que se cree), la gente miente en las encuestas. Una investigación del University College of London, con datos del Ministerio de Hacienda y Aduanas británico, concluyó precisamente eso, que la gente miente en las encuestas, y que la razón es que tratan de adaptar su respuesta a lo que suponen que otros responderán, más preocupados por su imagen que por la importancia del estudio. Los médicos y los abogados no se sorprenderán con esto. Un viejo refrán recomienda: “Al médico, confesor y letrado, háblales claro”, pero casi nadie lo hace, y los profesionales de la salud y las leyes acumulan un buen montón de experiencias propias con pacientes y clientes para demostrarlo. Si, como afirmaba el Dr. House “todo el mundo miente”, ¿cuánta verdad se puede esperar de una encuesta? Claro que, por esa regla de tres, ¿cuánta verdad se puede esperar de las redes sociales? Incluso cuando las propias redes quieran venderse afirmando que la gente es más propensa a decir la verdad en el medio virtual que en el real.

Con Internet, el uso de los datos dio una nueva vuelta de tuerca. Los servicios de correo online, los buscadores y las redes sociales empezaron a acumular enormes cantidades de datos sobre los usuarios, sus amistades, gustos, costumbres, aficiones, preocupaciones, familias, trabajos, opiniones, viajes, lecturas, canciones… y lo mejor, sin tener que preguntar nada. Todos esos datos son aportados por los usuarios de Internet de forma voluntaria y constante. Y lo que es más curioso; gratis. Y el dossier personal de información entregada incluye fotos, compras online, gestiones bancarias, trámites administrativos, vídeos, audios, opiniones políticas, valoraciones de productos y empresas, comentamos nuestras enemistades con otros usuarios de la red, contamos lo que vamos a hacer y lo que hemos hecho… Hasta hay quien da su DNI, número de cuenta bancaria y domicilio personal, y justo en esto van y se les ocurre ser sinceros. No por nada sitios como Facebook denominan “Biografía” la página principal de cada perfil. Si a esto le sumamos todas las bibliotecas, documentos y archivos que se han digitalizado en los últimos años, la cantidad de datos almacenados es abrumadora.

Se llega a poner como ejemplo que Google procesa a diario más de 24 petabytes, lo que equivale a miles de veces el total de textos impresos de la Biblioteca del Congreso de Estados Unidos. Con toda esa información disponible prácticamente en tiempo real, lo único que había que hacer era saber cómo usarla. El problema de tener entre manos un volumen tan mastodóntico de datos, es que hay que crear algoritmos que sean capaces de procesar todos ellos de manera eficaz. Un procesamiento que facilite la tarea de después: analizarlos en busca de pistas con las que “adivinar” el futuro.

Como en los juegos de Súper Mario, las empresas luchan a toda costa por conseguir el oro: los datos privados de las personas.Como en los juegos de Súper Mario, las empresas luchan a toda costa por conseguir el oro: ahora ese oro son los datos privados de las personas.

Se ha llegado a denominar los Big Data como el “nuevo recurso natural”. De hecho, en uno de los encuentros organizados por IBM, donde se trataba el tema de los datos masivos, se comparaba la obtención de los Big Data con el proceso de extracción del oro: hacer prospecciones para localizar vetas, cavar hasta ellas, extraer el mineral el bruto, separarlo de lo que no vale, fundirlo hasta obtener un lingote de oro y trabajarlo en forma de joya para añadirle aún más valor. Como nuevo “oro”, los datos masivos también necesitan sus propias cajas de seguridad que los protejan de robos.

No deja de ser una ironía que los derechos de explotación y lucro de nuestras vidas (cedidas gratuitamente) pertenezca a otros. Personalmente me maravilla hasta qué punto, la ausencia de una educación real en las personas (no de la de acumular datos, sino de esa que enseña a pensar por uno mismo y a tener una sólida ética personal), facilita la generación y proliferación de este tipo de negocios.

¿Cómo se saca oro de esta mina?

Uno de los “pico y pala” con que los mineros de Internet cavan en busca de oro se llama cookie. Según explica Google en su sección Políticas y principios: “Una cookie es un pequeño fragmento de texto que los sitios web que visitas envían al navegador y que permite que el sitio web recuerde información sobre tu visita, como tu idioma preferido y otras opciones, lo que puede facilitar tu próxima visita y hacer que el sitio te resulte más útil.” También dice: “Google utiliza cookies con diversos fines, entre los que se incluyen recordar tus preferencias de SafeSearch, aumentar la relevancia de los anuncios que ves, contar el número de visitas que recibimos para acceder a una página, ayudarte a registrarte en nuestros servicios y proteger tus datos”.

Google recoge todo tipo de información sobre el usuario de la red. No sólo para recordar las preferencias de navegación y evitarte la “terrible” incomodidad de teclear más de dos veces la misma cosa. Al gran buscador le hemos dado nuestro teléfono y numerosos datos personales, pero lo que no le hemos dado se lo ha tomado por sí mismo. Lee nuestros chats, el correo, incluidos los adjuntos, sabe a quién le escribimos y lo que le escribimos, nuestra filiación y relación con esas personas, conoce nuestras ubicaciones habituales y pretende, además, conocer nuestros gustos y preferencias.

Cualquiera que use Chrome y tenga cuenta de Gmail no habrá tardado en darse cuenta de que Google le ofrece, con frecuencia, publicidad relacionada con conversaciones de Hangouts que ha tenido con amigos o con correos que ha cruzado con la familia. Google asegura que en ningún momento los correos son leídos por personas, sólo por robots (o, lo que es lo mismo, las cookies) y con la única intención de poder ofrecer publicidad y promociones de las cosas que realmente nos interesan. Sin embargo, a falta de disponer del mismo arsenal de información que Google, me atrevería a decir que el número de personas del mundo realmente interesadas en recibir publicidad, no alcanza ni para darle el nombre de “nicho de mercado”.

Las cookies de google leen correos,chats y adjuntos

Los GPS son otro de los dispositivos de pesca de datos. En este caso sobre la ubicación de las personas, además de los medios de transporte que emplea en sus desplazamientos, la velocidad a la que lo hacen, dónde se detienen, cuánto tiempo y, también, quién está en las inmediaciones o, directamente, con nosotros. Los datos de geoposicionamiento por satélite se pueden recoger a través de los dispositivos que se instalan en los coches. Muchas empresas de mensajería controlan la posición y rutas de sus vehículos gracias a esta tecnología. También es posible saber con bastante exactitud dónde se encuentra una persona triangulando su posición según los routers wifi o torres de telefonía que enlaza y la intensidad de la señal recibida. La ventaja de este sistema es que puede ubicar a alguien allí donde el GPS no llega, que es en el interior de los edificios. Mientras Google recorría las ciudades del mundo con sus coches para trazar los mapas de Google Street View se supo que, cuando sus cámaras tomaban fotos del entorno, otros dispositivos captaban información de los routers wifi (muchos de ellos privados) que había y dónde estaban estos. El revuelo no fue precisamente pequeño cuando también se hizo público que habían llegado a captar fragmentos de conversaciones en Messenger con nombres de usuario incluidos. Mejor pedir perdón que permiso, dicen algunos. Google pidió perdón por el descuido.

Los operadores de telefonía también recopilan y analizan datos de sus usuarios. Primeramente lo hacían para mejorar el servicio prestado a sus clientes. Posteriormente, esos datos, y otros muchos recopilados sistemáticamente como la ubicación (aunque no haya una app específica que pueda hacerlo), se han usado para ofrecerles algo que todo el mundo (aunque no lo sepa) desea tener: publicidad personalizada según el lugar donde se encuentre en ese momento.

¿Pero no hay una ley de protección de datos? Como con las meigas, haberla, haila. Pero una ley no es un sistema de seguridad, y la frecuencia con la que la Ley de Protección de Datos se ignora, lo demuestra. Según la Agencia Española de Protección de Datos, la protección de datos es un derecho fundamental que “reconoce al ciudadano la facultad de controlar sus datos personales y la capacidad para disponer y decidir sobre los mismos”. También aclara que un dato de carácter personal es “cualquier información que permita identificarte o hacerte identificable”, y que “la ley reconoce a toda persona el derecho a saber por qué, para qué y cómo van a ser tratados sus datos personales y a decidir acerca de su uso”. Esto último incluye que las compañías que almacenan datos personales, deben informar de forma clara, meridiana y inequívocamente comprensible, sobre la identidad y dirección de la compañía, sobre la existencia del fichero o el tratamiento en el que van a incluir nuestros datos, la finalidad de los mismos, si los van a facilitar a terceros y cómo podemos acceder a nuestros datos y rectificarlos. Esto es, entre otras cosas, lo que dice la ley pero, en la realidad, lo que suele pasar es algo bien distinto.

Ofrecer una mejor experiencia de uso suele ser el argumento de las compañías para justificar la petición de todo tipo de datos de los usuarios.Ofrecer una mejor experiencia de uso suele ser el argumento de las compañías para justificar la petición de todo tipo de datos de los usuarios.

Sin embargo, diversos experimentos demuestran que, por muy anónimos que sean los datos que se recopilan, es tanta la información disponible, que el algoritmo adecuado puede coger un conjunto de datos y vincularlos unívocamente a una persona. Con la ley en la mano, los datos personales sólo pueden recogerse y emplearse si el usuario ha dado su consentimiento para ello. Con una única excepción. Solamente si los datos personales se recogen por necesidades de la Administración Pública para el ejercicio de sus propias funciones, se podrán obtener sin el consentimiento de la persona. Pero incluso habiendo dado nuestro consentimiento, este debe ser libre (salvo como decíamos en algunas cuestiones de la Administración Pública que pueden obligarnos a dar nuestros datos), previo e informado o, lo que es lo mismo, antes de dar el consentimiento, nos tienen que haber explicado clarísimamente para qué se van a usar los datos. Decir, simplemente, que piden nuestros datos para mejorar nuestra experiencia de navegación, de usuario, con la cuenta, con la aplicación, etc. etc. etc., por poner algunos ejemplos, no es decir claramente para qué se van a usar los datos.Google ya ha sido denunciado en varios países por saltarse sus respectivas leyes de protección de datos, España incluida.

Antes de que la gente comenzara a preguntarse cómo podían las redes sociales como Facebook ganar tanto dinero si eran gratuitas (valga lo mismo para algunos servicios online y apps), estas ya llevaban mucho recopilando todo tipo de información acerca de los millones de usuarios que, voluntariamente, habían compartido sus relaciones de amistad, amor y familia, vacaciones, fotos, estudios, ciudades, opiniones, vídeos, proyectos, música, intereses, inquietudes y cualquier otra cosa que se nos pueda ocurrir.

Con unos mil millones de usuarios en todo el mundo interconectados entre sí, Facebook dispone, ella solita, de una porción de la tarta de datos equivalente al 10% del total del planeta. Su botón “Me gusta” es, posiblemente, una de las invenciones más rentables de los últimos tiempos. Twitter, por su parte, ha logrado sacarle partido a los pensamientos y estados de ánimo que la gente vuelca, a veces de forma impulsiva, en sus 140 caracteres.

Los gobiernos disponen también de su propio e inmenso Big Data: datos del censo, altas y bajas en la seguridad social, subvenciones y ayudas estatales, escolarización, creación y cierre de empresas, patrimonio, herencias, historial médico, cuentas con Hacienda, vehículos, procesos judiciales, mascotas… Casi cualquier ámbito de la vida que se nos pase por la cabeza requiere, en algún u otro momento, pasar ante la administración pública y rellenar un formulario con nuestros datos. Ni que decir tiene del banco, la compañía de seguros, la financiera, el supermercado, la gasolinera, etc. Acerca de la pregunta “¿Cómo se saca oro de esta mina?”, la respuesta es “Tu cógelo todo, que cualquier cosa puede valer”.

¿Para qué se usa?

La empresa Quantifying Movie Magic aseguraba, en junio de 2013, que podía predecir, con un nivel de acierto del 94%, el éxito o fracaso que tendría una película sólo analizando las búsquedas que hacían en Google los usuarios. Tres años antes, en 2010, informáticos del Social Computing Lab de HP realizaron una investigación en la que aseguraban poder calcular, gracias al número y frecuencia de publicaciones de tuits sobre un film concreto, si triunfaría en las taquillas. En un alarde de futurología aseguraban también ser capaces de predecir cuál sería la recaudación, dólar arriba, dólar abajo. Y ya, como una vez que aprendes a ver el porvenir lo mismo te da ocho que ochenta, vendían en invento como una herramienta perfecta para conocer, previamente, tanto el resultado de los procesos electorales como el éxito de los productos antes de llegar al mercado.

teclea el captcha

Cómo conocer el lenguaje naturalLos códigos captcha se inventaron para evitar el spam. Fueron inventados por Luis Von Ahn cuando tenía 22 años. Algún tiempo después mejoró el sistema con los ReCaptcha. Estos nuevos códigos ofrecen una “palabra temblona” que reconoce al usuario como humano y lo distingue de las máquinas de crear spam. Sin embargo, pide el desciframiento de otra clave, que es la “foto” de una palabra. Se trata de fragmentos de textos digitalizados que los OCR no han sido capaces de descifrar y que ahora, gracias a los millones de personas que introducen captchas a diario, se han descifrado, ahorrándose los millones de dólares que habría costado contratar a las personas que lo hicieran.

Las dotes adivinatorias de las redes sociales han estado desde entonces en el punto de mira. De tener el algoritmo capaz de avanzar con cierta exactitud este tipo de cosas, una empresa podría hacerse realmente de oro. Lo que no está tan claro es si esta lectura de los Big Data es realmente posible. Daniel Gayo, profesor de informática de la Universidad de Oviedo, afirma categóricamente que no se puede. Las razones que alega para ello no están exentas de sentido lógico: No todo el mundo está usando Twitter, por lo que no se puede considerar que sean una muestra significativa de la población electoral. Luego, no todos los que dan su opinión en Twitter, opinan sobre política, ni todo lo que se dice en Twitter es cierto, o como decía Anatole France: “Si 50 millones de personas creen una tontería, sigue siendo una tontería”. Por último, hay que tener en cuenta que, por muchas herramientas de análisis que se creen, hay algo que todavía no hay ninguna capaz de hacer, que es reconocer el sarcasmo y la ironía de los escribientes, algo de lo que no están exentos precisamente los comentarios sobre política.

¿Pueden los sistemas de análisis de sentimientos estar seguros al 100% de las interpretaciones que hacen? Parece que no es tan sencillo. Es posible que el denominado análisis de sentimientos no pueda, de momento, convertirse en un medio predictivo fiable, pero que las grandes corporaciones de los datos lo están intentando, eso sí que es seguro. Sin ir más lejos, Facebook se ha puesto manos a la obra para sacar provecho de un caudal de información “psicopersonal”, que debe parecerle a esta compañía poco más valioso que el yelmo de Mambrino. Resumiendo. Imagina que acabas de tener esa gota que colma el vaso de la paciencia y decides desahogarte en tu muro. Empiezas a redactar pero, antes de dar a publicar, te arrepientes de algunos de los pasajes más duros y los borras. Y como te has tomado el tiempo de releer, añades esto, quitas aquello y, tras eso, apruebas interiormente un mensaje tal vez más correcto y menos cargado de emoción. ¿A que pensabas que era una suerte que tu idea inicial se hubiese quedado detrás del Intro? ¿y a que creías que sólo tú sabrías jamás lo que habías estado a punto de decir? Al menos en la segunda pregunta, te equivocas de pe a pa. Resulta que Facebook ha estado guardando todo lo que escribes. Aunque no lo publiques. ¿Qué implicaciones tiene esto? ¿qué utilidad tiene que las compañías conozcan nuestros filtros de autocensura? ¿aquello que nosotros mismos somos incapaces de decir pero que, evidentemente, pensamos?

Según la web Ars Technica, en el caso de las compras online, para detectar cuáles son los factores que hacen que el usuario se arrepienta de un proceso de compra antes de llevarlo a cabo. El hecho de que no se respete la privacidad de la propia conciencia y su derecho a repensar las cosas parece que no tiene tanta importancia, si lo comparamos con la necesidad imperiosa de conseguir que el potencial cliente llegue hasta el final cuando de comprar se trata.

FACEBOOK GUARDA TODO LO QUE ESCRIBES AUNQUE NO LO PUBLIQUES

Por cierto. Los movimientos del ratón sobre la pantalla también están monitoreados, fundamentalmente para saber lo que el usuario sigue con la mirada sobre un monitor, en qué orden y durante cuánto tiempo. Una vez más, la Ley de Protección de Datos es usada para hacer ejercicios de salto.

El oro es más valioso si se sabe qué hacer con él, y más aún si se encuentran aplicaciones novedosas e innovadoras. Por ejemplo: prever si la persona pagará el crédito para decidir si se le concede o no. O ver si alguien está más predispuesto a tener algún tipo de enfermedad o accidente. Las compañías de seguros venderían su alma (o la tuya) por saber eso. ¿Y si se pudiese saber que una persona es un asesino y detenerle antes de que mate a nadie? Espera, eso era una película… Minority Report ¿no? Sin embargo, una investigación de la Universidad de Lund Sverker Sikström, en Suecia, analiza los perfiles y publicaciones en Facebook para determinar rasgos de psicopatía en las personas. Es más, con la idea de “Dime con quién andas y te diré quién eres”, hay investigaciones que estudian las relaciones de las personas a través de las redes sociales para etiquetar a los conjuntos de amistad por características psicológicas similares. Es algo así como que si entre tus amistades gente que no está al día en sus cuentas con Hacienda, se podría entender que tu mentalidad, afin a la de los defraudadores, es una defraudadora en potencia. Si estos datos se llegan a tomar en consideración en las entidades bancarias, revisa tu lista de amistades la próxima vez que te denieguen un crédito.

¿Te sientes vigilado? Puede que no estás muy desencaminado.¿Te sientes vigilado? Puede que no estés muy desencaminado.

Los usos que se da a los datos masivos son tan amplios como la capacidad progresiva de encontrar correlaciones. Las previsiones de PIB según la actividad económica mundial, prevenir las estafas a compañías de seguros, la reacción ante una nueva campaña de televisión, conocer la necesidad de crear nuevas infraestructuras de telefonía móvil y dónde, detectar los brotes de gripe que se producen a nivel mundial, determinar el valor de las vallas publicitarias según la cantidad de gente que pasa por esa zona, ampliar el crédito a una persona, perfeccionar el reconocimiento de voz y texto, pronósticos de negocio, detectar relaciones entre hábitos alimenticios y enfermedades, realizar recomendaciones de compra… casi cualquier cosa que se imagine podría tener una vinculación con el análisis de los Big Data.

Cómo reconocer el lenguaje natural

Una de las cuestiones fundamentales de la informática es la comunicación. Comunicarse con una máquina de manera que podamos decirle lo que queremos que haga y ella lo entienda. Desde que nuestro mundo se mueve, compate, ordena y busca a través de un ordenador, ha sido necesario avanzar en el lenguaje. Dado que ya no es un grupo reducido de expertos en ordenadores los que interaccionan con las máquinas, sino todo el mundo a través de un ordenador, tablet, teléfono, etc. lo más práctico es hacer que entiendan el lenguaje natural.

A la hora de teclear un término en un buscador ya no pensamos tanto en cómo expresarnos para que nos entienda. El desarrollo de tecnologías de interpretación del lenguaje y las cookies, permiten al buscador no sólo entender el sentido de una frase, sino también conocer con bastante precisión a qué se refiere una persona en concreto, extrayendo datos de su historial de navegación, entre otras cosas. Esta necesidad es lo que ha permitido una curiosa relación; la de la tecnología con los filólogos. Sobre esto TnL estuvo hablando con Josu Gómez, co fundador de Bitext, una empresa fundada por filólogos que consigue que las máquinas entiendan el lenguaje natural y puedan analizarlo, sin desviarse mucho del sentido real de las palabras.

Aquellos que en el colegio siempre se quejaron de que el análisis sintáctico y gramatical no servía para nada, tendrán ahora un argumento de peso para reconocer su error. “Básicamente, el lenguaje es lingüística. Para entender el castellano hay que coger el diccionario, con sus más de tres millones de palabras y, luego, tomar textos y aplicarles las reglas gramaticales. Si esto se emplea de forma flexible, es posible aplicar las reglas de construcción del lenguaje a medios tan diversos como los sms o Twitter y, a partir de ahí, aplicar módulos de negocio”, explica Josu Gómez.

Entre 2008 y 2010 las empresas se dieron cuenta de que tenían mucha información acumulada dentro, aunque necesitan las herramientas para buscarla y sacarle provecho. Luego se percatan de que fuera hay todavía más información que les interesa, como todo lo que dicen de ellos los usuarios en las redes sociales. Quieren saber lo que se dice de ellos, y para eso hay que determinar cuáles son las estructuras de los textos que albergan sentimientos. Según explica Gómez: “La estructura a la hora de hablar, el lenguaje natural, tiene unos parámetros bastante fijos”.

LAS MÁQUINAS TODAVÍA NO PUEDEN DETECTAR LA IRONÍA HUMANA

Un ejemplo. La frase “Está mejor” se puede catalogar como positiva, sin embargo, podría tener otras connotaciones, como que todavía no está bien del todo. En el caso de las frases comparativas, tendrá acepciones positivas para uno y negativas para el otro: “Apple está mejor que Samsung”. En casos como este, los sistemas de algoritmo sumarían un negativo más un positivo y el resultado sería una frase neutra, cuando en realidad sería positiva para Apple y negativa para Samsung.

Algo parecido ocurría con sentencias como “Pepephone tiene un buen servicio técnico”. La valoración positiva que se hace entonces no se puede aplicar al conjunto, sino a la particularidad de la que se dice que es buena, esto es, el servicio técnico. Lo que Bitext hizo fue etiquetar, uno a uno y personalmente, cada post como positivo y negativo, hasta un millón de cada tipo, y eso se usaba como ejemplo. Luego se metían diez mil post y el programa ya era capaz de decir cuáles eran positivos y cuáles negativos. En las páginas turísticas se suelen usar las puntuaciones de los usuarios con estrellas para valorar un lugar, pero eso no permite saber qué es, concretamente, lo que ha gustado o disgustado al usuario. Una frase que diga “Tuve un accidente y llamé a Mapfre” no puede poner la etiqueta negativa a la frase sólo porque incluye la palabra “accidente”. 

Bitext asegura que puede dar, hasta en un 80%, el significado y valoración real de cada frase. El margen de error es del 30%. Echando mano de la estadística, un 80% de acierto en un millón de post, da una pintura más aproximada de la realidad que un 100% en 10 post que, además, resulta imposible de lograr, según Gómez. Para Josu Gómez, en realidad, las máquinas no aprenden automáticamente, sino que mejoran según la programación que se hace de ellas.

En el caso de Bitext, las frases se revisan manualmente y se introducen en el sistema las correcciones necesarias para rectificar fallos o deficiencias. Los clientes quieren saber cuándo se está montando una campaña contra ellos, qué valoraciones se hacen de los partidos políticos antes de las elecciones o cuándo se va a hacer una protesta ante un banco o entidad pública.

Donde hay un hueco insalvable, de momento, es en la detección de la ironía o el sarcasmo. “En la actualidad es absolutamente imposible diferenciarlos sin tener a la persona delante y, aún así tampoco es algo fácil de identificar, precisamente porque la ironía está pensada para ser indetectable, para que tenga apariencia de realidad. Si a veces a nosotros mismos nos cuesta verla, a una máquina mucho más”, explica Gómez. Para poder detectarla, los programas deberían ser capaces de meterse en la mente del interlocutor. No andamos lejos, porque neurocientíficos de la Universidad de Berkley ya están dando pasos en el desarrollo de un sistema que permitirá “leer” el pensamiento.Y si queremos emparanoiarnos de verdad, la ciencia también está acercando a la realidad ficciones como la de aquella película de Schwarzenegger, Desafío total. Y es que investigadores del MIT han logrado implantar con éxito recuerdos falsos en ratones.

¿Es posible la privacidad?

Incluso cuando Internet aún no se había inventado, la privacidad como tal no existía. Si José Mota ha triunfado con su “Vieja del visillo” es porque retrata la realidad de los cotillas. Siempre ha habido que lidiar con los vecinos curiosos, preguntones y chismosos. Siendo realistas, a menos que uno viva en una isla desierta, o en algún lugar recóndito alejado de cualquier ser humano, la absoluta privacidad es imposible.

Es inevitable tener que dar información personal a las Administraciones públicas, a Hacienda, al banco o a las tiendas online para desenvolvernos en el mundo, pero sí que podemos aspirar a un razonable grado de privacidad. Para ello es bueno distinguir entre los datos personales que necesitamos dar para trámites o para recibir un servicio (por ejemplo, dar nuestra dirección y teléfono para que nos manden a casa una compra), y los datos que las empresas o instituciones recopilan al margen de esto, y de los que sacan un provecho.

La implantación de nuevas funcionalidades en los servicios online para “mejorar el uso”, especialmente los gratuitos (ojo, que un servicio sea de pago no quiere decir que no use los datos personales de sus usuarios), suele llevar aparejada una pequeña invasión en la intimidad de las personas, o un cierto grado de presión para inclinar la libertad de elección en un sentido o en otro. El servicio de geolocalización de Twitter, Shazam o Google, la integración de los mensajes de texto en Hangouts, el envío de correos a usuarios de Google + sin tener que conocer su email, la subida de fotos a Whatsapp, los mensajes de voz y vídeo… todos ellos recopilan datos que no tienen que ver directamente con la función original y que no sólo mejoran la experiencia de usuario.

Prácticamente nadie lee los términos y condiciones de uso de los servicios online, tal vez porque la necesidad o el deseo de disponer de ellos es mucho más imperioso que las posibles consecuencias de hacerlo. Si, por ejemplo, le echamos un vistazo a los términos de Candy Crush Saga, veremos cosas como las que siguen. El desarrollador, King, puede cambiar en cualquier momento las condiciones de uso, cambios que el usuario podrá ver si accede a la página about.king.com/consumer-terms, en inglés.

NADA ES GRATIS. NADA ES GRATIS. NADA ES GRATIS. NADA ES GRATIS…

Ellos entienden que mientras estés usando el juego, estás de acuerdo con las condiciones de uso. Básicamente, si no estás de acuerdo con que tengan tus datos bancarios, tus datos de usuario, tus interacciones en redes sociales, tu IP, tus mensajes y correspondencia con ellos, con sus acuerdos de transferencia de tus datos con terceros, no tengas el juego. Al enviar contenido a través del juego, se entiende que el usuario concede a King “el derecho a editar, adaptar, publicar y utilizar su entrada y cualquier trabajo derivativo que podamos crear a partir de ella, en todos y cada uno de los medios (ya existan ahora o en el futuro) para cualquier finalidad, a perpetuidad y sin que tengamos que realizar ningún pago en compensación”. ¿No te gusta lo que lees? Es fácil. Si no estás de acuerdo con esto, no juegues a Candy Crush. Si juegas a Candy Crush, es que estás de acuerdo.

Esta política de privacidad no es exclusiva de Candy Crush. No hay más que hacerse un buen café y empezar a pinchar los correspondientes enlaces de términos de uso, para ver que la inmensa mayoría tiene una política muy similar, aunque en algunos casos la redacción de la misma puede ser realmente críptica y ambigua. Ni las redes, ni los servicios, ni los juegos, son ya sólo para conectarse, para ampliar funcionalidades o para jugar. Nada es gratis. Nada es gratis.

El usuario tiene la responsabilidad de informarse bien y actuar en consecuencia.El usuario tiene la responsabilidad de informarse bien y actuar en consecuencia. 

Dentro del razonable grado de privacidad que podemos lograr, las compañías tienen una responsabilidad que cumplir en cuanto al tratamiento y seguridad de nuestra información, pero el usuario tiene la suya. Parte de esa responsabilidad es la de contar con la posibilidad de que las compañías acaben haciendo un uso de sus datos con el que no estará de acuerdo. Si tiene esto en cuenta de inicio, es posible que el sentido común le acompañe en el resto de sus acciones.

Para bien o para mal, el principal agujero de la seguridad total no es el software, el hardware, los protocolos ni nada por el estilo: el principal agujero de seguridad está en el propio ser humano. En algunas circunstancias, que sea así no es necesariamente malo. Mientras no descubran la forma de implantarnos el conocimiento con una pastillita, el aprendizaje necesita el ensayo y el error, y por muy perfectas que lleguen a ser las máquinas, lo que hay y habrá siempre detrás es un proceso de aprovechamiento de las experiencias humanas. Pocas cosas son tan valiosas como eso, por lo que pretender eliminarlo (que no minimizarlo) no puede ser otra cosa que contra natural.

En cualquier circunstancia, y con cualquier tipo de dispositivo y sistema operativo (móvil, tablet o PC, Android, iOS o Linux), es muy recomendable usar un buen antivirus y mantenerlo actualizado. Esa es una primera barrera para evitar problemas, aunque no es la única. Es también recomendable cambiar las contraseñas de los sitios a los que accedemos con cierta frecuencia y crearlas seguras (nada de 0000), borrar cookies, archivos temporales y datos de navegación después de cada sesión y hacer copias de seguridad de los datos. Leer siempre las políticas de privacidad antes de darnos de alta en un servicio. Y aún aceptándolas, no compartir ni exponer información personal sensible sobre uno mismo u otras personas, fotografías incluidas. No dejar nunca abiertas las sesiones de correo, redes sociales o comercio electrónico. Bloquear las ventanas emergentes y usar filtros restrictivos en la navegación y en los servicios de correo. No conectarse a wifis abiertas. No revelar contraseñas a terceros y disponer de una sesión de invitado si tenemos que prestar nuestro equipo a otras personas (incluso de la familia).

Hay que tener también cuidado con los archivos que descargamos o se descargan en nuestro ordenador. Si entramos en un ordenador de uso público o, simplemente, que no es el nuestro, cuidar que no esté activada la opción de guardar la contraseña… Las prácticas de seguridad son muy extensas, pero esencialmente obedecen al principio de sensatez.

En circunstancias normales, ese sentido común es suficiente para prevenir la fuga de datos y el uso indeseado de los mismos. El número de servicios, medios y programas que, cada día, anuncian el uso de cookies para mejorar la navegación del usuario no tendría mayor trascendencia si sólo fuese eso. La realidad indica que la comodidad que tiene para el usuario no tener que teclear su contraseña de acceso a un sitio, es el anzuelo perfecto para velar la intención de recolectar datos sobre los hábitos y formas de navegación del usuario.

Quizá, una de las ventajas de que ya no haya nada privado (como eso de Facebook guardando las “arrepentidas” redacciones de sus “amigos” o los trayectos del ratón) es que están empezando a transcender públicamente. A partir de cierto límite, las mejoras en la experiencia de navegación del usuario se convierten en espionaje. Ante eso, lo que podemos hacer para salvaguradar nuestra privacidad poco importa, porque la determinación de determinadas entidades (por encima de cualquier cosa) para conocer lo que hacemos y cómo lo hacemos hace inútiles muchas de nuestras medidas de protección. Especialmente si no son crackers o ciberdelincuentes quienes se saltan las normas, sino las propias empresas que nos prestan los servicios o los gobiernos que redactan las leyes de privacidad.

El caso Snowden ha destapado documentos e informes probatorios del espionaje sistemático de la NSA ya no sólo a países y ciudadanos extranjeros, sino a sus propios conciudadanos. Bajo la bandera de la seguridad nacional, la institución estadounidense ha recopilado sistemáticamente información de ciudadanos de todo el mundo, interceptado correos, datos de navegación y conversaciones, analizado relaciones personales, tendencias, ubicación y simpatías.

La cosa se vuelve más inquietante cuando Julian Assange afirma que el gobierno de EEUU puede matar con drones a sus propios ciudadanos sin molestarse en llevarlos a juicio, sólo con que la información obtenida sobre ellos les haga sospechosos de ser potenciales terroristas. Según informaciones aparecidas en los medios en febrero de 2013, el Departamento de Justicia de EE.UU. habría autorizado el asesinato selectivo (sin juicio y en secreto) de ciudadanos estadounidenses fuera del territorio nacional si se han obtenido datos que los vinculen a posibles acciones terroristas. Datos que, evidentemente, ya se han tomado la libertad de buscar.

¿Es lícito entonces espiar al mundo para evitar atentados y proteger al país? Habría que preguntar más bien si estamos ante un sistema infalible o si la propia NSA asume cierto grado de error o, como se denominan los errores militares, daños colaterales, cobrándose la vida de inocentes a los que ni siquiera se les dio la oportunidad de la defensa. Aún siendo ciertamente culpables, el traspaso de los límites de la propia justicia conlleva, indefectiblemente, el traspaso de más y más límites, hasta que no haya nada más que proteger, ni nada más que traspasar. Llegar a eso es el fin de cualquier cosa que se quisiera defender.

Conclusiones

Hace unos meses salió en mi móvil un aviso de hangouts acerca de la integración de los sms en su servicio. No sabía muy bien a qué se refería, pero acepté. A partir de entonces, todos los sms entraban a través de hangouts, al igual que las alertas. ¿Era malo eso? No, ni bueno ni malo, pero no me gustaba. Prefería que los mensajes llegasen a la bandeja de mensajes y los chats a la bandeja de hangouts. Con ayuda de un amigo desactivé la función desde las opciones de hangout. Entonces dejaron de funcionar los mensajes. Se produjo un bucle en el que una y otra vez se mostraba el mismo mensaje en la barra de notificaciones. Mensaje que no podía borrarse. El teléfono empezó a no funcionar bien. Lo reinicié varias veces pero no sirvió de nada. La única y más efectiva solución fue volver a activar los mensajes en hangouts. ¿Un fallo del programa? ¿lo hacen a propósito para obligar a los usuarios a regalarles los datos de nuestros sms a Google? No lo sé. Pero visto lo visto sólo puedo desconfiar.

Las prácticas de empresas como Google, Facebook, Twitter o de los diferentes gobiernos que, según se ha ido sabiendo, espían a sus ciudadanos, tienden a desviarnos de la cuestión fundamental. ¿Son los Big Data el enemigo? ¿Es cuestionable recoger información de los usuarios? ¿Tiene algo de malo ofrecer publicidad personalizada? ¿Sería recomendable estar fuera de todas las redes sociales? Creo que tanto en esta como en cualquier otras cuestión de la vida, hay que saber valorar las cosas en su justa medida. ¿Son los datos masivos, las redes sociales o las cookies dañinas? ¿Es necesario volcar nuestros esfuerzos en luchar contra ellos? Decididamente no.

BIG DATA NO ENTIENDE DEL BIEN Y DEL MAL. EL SER HUMANO SÍ

Hay un peligro inherente en la comodidad de quedarse en la superficie de las cosas. Mientras las noticias sobre las violaciones de la privacidad o el espionaje de la NSA saltan a los medios, nadie se cuestiona lo que hay en el fondo de todo esto. Ni los Big Data son perjudiciales ni las redes sociales son el diablo. En el ámbito de la salud, el acceso a datos masivos está ayudando a los investigadores a encontrar correlaciones que, hasta entonces, había pasado desapercibidas. Los avances en reconocimiento de texto, basados en el análisis de millones páginas escaneadas, permiten hacer búsquedas en documentos muy antiguos que, hasta entonces, sólo estaban en algún anaquel de una biblioteca lejana. El reconocimiento de voz permite ahora a los invidentes hacer consultas verbales a Google y recibir la respuesta también verbalmente. Los ejemplos de los beneficios de los estudios de datos masivos son enormes.

No se pueden hacer juicios de valor sobre esto. El problema no está ahí, sino en el uso que se hace de ello. ¿Y de qué depende el uso que se hace de los datos masivos? Pues, aunque suene ñoño, depende de los valores éticos de las personas que los usan.

Es el ser humano quien puede hacer del átomo una tecnología para curar o un arma de matar. ¿De qué dependen los valores éticos? Esos siempre dependen de la educación asimilada y del ejemplo recibido. Por educación no me refiero a haber estudiado en Oxford y provenir de un entorno culto o socialmente elevado. Dicho sencillamente, la educación es aquello que hace que una persona sea capaz de distinguir lo que está bien de lo que no está bien y, sabiéndolo, decida conscientemente hacer lo correcto. La mejor forma de enseñar esto es con el ejemplo. Desde este punto de vista, los Big Data pueden ser el nuevo “oro”, pero las personas éticas siempre han sido, y seguirán siendo, verdaderos diamantes.

A la pregunta de qué debe preocuparte de Big Data cuestiónate esto, ¿qué clase de personas son las que manejan Big Data? Dependiendo de la respuesta, preocúpate o no.

No comments yet.

Deja un comentario