Mis recomendaciones periodísticas para este Sant Jordi 2015

Hace un par de años recomendé para este día de Sant Jordi un libro de Nathan Yau sobre periodismo de datos, Visualize this. El que quiero recomendar este año es otro libro del mismo autor que en realidad complementa a aquel. Se titula Data Points: Visualization That Means Something. Recordemos que Nathan Yau es, entre otras cosas, el responsable de la interesantísima web sobre infográficos y periodismo de datos Flowingdata.

Podríamos decir que Data points es la teoría que subyace bajo los diseños y la programación que nos enseñaba Nathan Yau en su libro anterior. Es decir, con Visualize this aprendimos a utilizar las herramientas informáticas, los programas y los lenguajes de programación que nos permiten enseñar nuestros datos de forma más amena, entretenida y sobre todo hacen que se pueda entender mejor. Con Data points profundizamos en la forma en que debemos utilizar esas herramientas, en la teoría que subyace tras lo que la técnica nos permitía hacer.

Es cierto que en el primero de sus libros, obviamente, Yau explicaba al mismo tiempo las bases que debíamos respetar para confeccionar nuestras visualizaciones, pero sin duda este segundo volumen es mucho más completo. Aquí no hay ni una línea de programación. Todo es teórico y está muy bien editado, va acompañado con multitud de ilustraciones y gráficos realmente clarificadores. A mí me ha recordado a un libro similar que también recomendé aquí hace tres años, el de Alberto Cairo, El arte funcional.

Mi libro

El segundo libro que debo recomendar este año, si me permiten, es mi propio libro, No en van tornar. Editado hace escasos meses, ahora en Sant Jordi puede ser una buena oportunidad para hacerse con un ejemplar.

Coberta

En los estands del Centre d’Estudis de L’Hospitalet y de Omnium Cultural, en la rambla de Just Oliveras, en el centro de l’Hospitalet, puede adquirirse hoy. Como suelo recomendar libros relacionados con el periodismo, debo comentar que además de explicar numerosos casos de exiliados y emigrados relacionados con l’Hospitalet, creo que es un interesante ejemplo de investigación periodística.

Feliz Sant Jordi a todos.

Anuncios

Big data, la revolución de los datos masivos

Target, una compañía de descuento con cupones de Estados Unidos, envió una vez una promoción para mujeres embarazadas a una adolescente de instituto. Su padre, furioso, protestó ante la empresa inquiriendo si querían motivar a su hija a quedarse embarazada. Unos días después, cuando el responsable de la sección llamó al airado padre para pedir disculpas, fue éste quien se disculpó: su hija, realmente estaba embarazada. Target hace años que recopila, gestiona y deduce cosas de todos los datos que almacena de las compras de sus clientes. Con esos datos sobre compras registradas y un algoritmo informático la compañía es capaz de predecir cuales de sus clientas están en estado e, incluso, sabe la fecha prevista del parto con un razonable margen de error. Target y otras muchas empresas hace años que empezaron a almacenar todo tipo de datos sobre sus clientes. Los almacenan y procesan en un número tan exorbitante que están generando lo que los expertos llaman ya el mundo del ‘big data’. Bienvenidos a la época de los datos masivos.

Viktor Mayer y Kenneth Cukier han escrito un libro titulado Big data: La revolución de los datos masivos (Turner, 2013) en donde han recogido ese y otros muchos casos con los que explican de forma amena y clara lo que ellos consideran que va a ser una nueva era en el mundo, la de los datos masivos, que llegan a comparar con la que generó la imprenta de Gutenberg. Confieso que me picó la curiosidad sobre este libro tras leer en un artículo que era de las pocas obras de autores occidentales recomendadas por las autoridades chinas para la lectura de sus dirigentes este año. Tras leerlo entiendo que se incluyera en esa lista.

Portada de Big data

En esencia, Mayer y Cukier explican el fenómeno de la siguiente forma: hasta ahora, los estudios sobre datos se hacían en base a muestras más o menos amplias de datos que, debidamente estudiados, nos daban unos resultados y servían de base para buscar unas causas o explicaciones, pero en la era de los datos masivos el número de datos se acerca al máximo posible (ya no es una pequeña muestra) lo cual permite admitir que no sean tan correctos como deben ser las muestras y, además, ya no nos acercan al por qué de las cosas (a la causalidad) sino simplemente al qué sucede (la correlación entre variables). Esto tiene dos implicaciones: por un lado muchas veces es suficiente si averiguamos qué está sucediendo, si captamos la correlación entre las cosas, lo cual, además, es mucho más barato con los datos masivos recogidos por económicos sensores y analizados por los algoritmos de los ordenadores que una prolija investigación.

Es así como ya estamos siendo escrutados de forma minuciosa, muchas veces sin que nos lleguemos a dar cuenta. Y el fenómeno irá a más. Los ejemplos abundan en Big data: desde la acertada predicción del desarrollo de la gripe por parte de Google (mucho antes que lo puedan predecir los organismos oficiales) en función de las búsquedas registradas en su buscador; a saber lo que debe situar cerca de las cajas la empresa Wal Mart cuando se acerca un huracán (cajas de Pop-Tarts, un dulce para el desayuno). Analizando grandes cantidades de datos se encuentran correlaciones que, a simple vista, pueden pasar desapercibidas al ojo humano.

Esto es posible primero porque el precio de los sensores para recoger datos y de las memorias para almacenarlos han caído en picado en los últimos años. Eso cuando no lo pagamos los usuarios al comprar los aparatos (¿sabe cuántos datos pueden sacar las compañías telefónicas de sus llamadas y del uso de sus teléfonos o de su navegación por una pàgina web?).

Me interesa especialmente la aplicación de las tecnologías de los datos masivos en la gestión municipal. En Nueva York eran frecuentes las explosiones en el interior de las tapas del registro eléctrico debido a la vieja red de conducciones de la ciudad. Las tapas saltaban y volaban peligrosamente por los aires. Cruzaron datos de muy diferentes tipos para conseguir una predicción de qué tapas tenían más peligro de salir volando para así poder hacer una prevención mucho más acertada. Y lo consiguieron. En Nueva York, el alcalde Bloomberg creó una unidad para el análisis de los innumerables datos que se generan y almacenan en una ciudad. Tras un laborioso trabajo, el director analítico de la unidad y sus tres jóvenes científicos de datos han conseguido predecir aquellos edificios en los que el riego de que haya problemas parece más grave. De esta forma, los recursos se maximizan ya que se atiende antes aquellas situaciones que según apuntan todos los indicadores son susceptibles de convertirse en los problemas más graves. Todas las ciudades son susceptibles de predecir cosas con los datos de todo tipo que, de forma masiva, se generan en su territorio. Sólo hay que tener ‘mentalidad de datos’.

Claro que todo esto tiene sus peligros y sus posibles abusos, además de conllevar un cambio de mentalidad tanto en los científicos y analistas de datos como en las empresa, en los ciudadanos y en las propias leyes que rigen la privacidad. Los autores dedican un par de capítulos a este tema. En esencia, creen que la era de los datos masivos supondrá un cambio de rumbo: nos alejaremos de la responsabilidad individual de cada uno a ceder o no los datos y de la privacidad, para navegar hacia la responsabilidad de las empresas que utilicen esos datos, puesto que evitar que sean recogidos se convierte ya en una aspiración imposible en la práctica.

Sin duda una muy interesante lectura de por donde pasa ya nuestro presente y hacia donde va nuestro futuro porque no se engañen, participaremos todos con nuestros datos, aunque intentemos evitarlo.

.

DOCUMENTOS:

Reportaje sobre datos masivos en La Vanguardia basado en parte en este libro

//

Intentando innovar en el canal LHdigital (II): aplicación interactiva con Tableau

Aplicació Tots els noms de nadons a L'H

En mi medio, dentro de las limitaciones propias de la comunicación local y de los tiempos que corren, intento innovar. Pese a que las limitaciones son muchas -empezando por las mías propias-, en internet podemos encontrar un buen número de aplicaciones y servicios gratuitos que nos permiten hacer algunas cosas interesantes. Sigo siendo un aprendiz en el campo de la visualización de datos, la infografía y demás utensilios que permitan presentar la información en formatos más atractivos, pero es un campo en el que hay mucho camino por recorrer.

Hoy he publicado una aplicación interactiva en la versión gratuita en línea de Tableau que permite bucear en los datos de la onomástica de l’Hospitalet. Tots els noms de L’Hospitalet permite conocer qué nombres se han puesto a los bebés nacidos en l’Hospitalet en los 15 años que van de 1997 a 2011 y que tengan una frecuencia de aparición superior de 4 o superior. Son datos públicos facilitados por el IDESCAT bajo petición y que han conformado una hoja de cálculo base con más de 1200 registros. La aplicación permite conocer tendencias y datos curiosos, como la trayectoria paralela del éxito del nombre Iker y de la trayectoria del portero del Real Madrid Iker Casillas. Pero también se puede consultar para escoger nombre para un futuro nacimiento. Si quiere leer un análisis de las tendencias más interesantes que encontré entre en la noticia publicada en LHdigital. Para ir directamente al interactivo, clique aquí. Espero que les guste…

En cuanto a Tableau, se trata de un programa muy potente de análisis visual que también tiene una versión gratuita en línea. Es una solución utilizada, entre otros, por grandes medios como The Wall Street Journal, o por organismos como la UNESCO.

EDITADO 5-11-2013

Gráfico interactivo con los datos actualizados al año 2012 aquí