Analizando los Panama papers como proyecto tecnológico

Panama papers scale (Source: Süddeutsche Zeitung)La mayor parte de los análisis que hemos visto estos días sobre los Panama papers, la filtración de información confidencial más importante de la historia tanto desde el punto de vista de su relevancia como de su magnitud (2.6 Terabytes, 11.5 millones de documentos) hacen referencia a la naturaleza de la información revelada, a los implicados en las presuntas actividades de evasión de impuestos mediante el uso de paraísos fiscales o a las consecuencias de las revelaciones.

A mí, sin embargo, lo que de verdad me llamó la atención fue la dimensión y la complejidad del proyecto tecnológico que supone el análisis y la explotación de una cantidad de información tan masiva, un reto tanto desde el punto de vista de arquitectura de sistemas, como de organización o herramientas. A este tema, y a lo que supone de evolución del periodismo para adaptarse a lo que se le demanda en el siglo XXI, dediqué tanto mi participación en la barra tecnológica de La Noche en 24 horas, en RTVE (en su página, a partir del minuto 2:07:26) como mi columna en El Español de hoy, titulada “Los Panama Papers y el periodismo del siglo XXI“.

La recepción de los archivos por parte del periódico alemán más importante, la Süddeutsche Zeitung, y la comprobación de su impresionante magnitud y posibilidades desencadenó el contacto con el Consorcio Internacional de Periodistas de Investigación (ICIJ), una organización sin ánimo de lucro mantenida mediante donaciones de empresas y particulares, con una infraestructura de unas catorce personas de las que seis forman parte del equipo de datos e investigación, dirigido por la española Mar Cabra. La ICIJ ha logrado convertirse en referencia gracias a su trabajo en varios proyectos previos en el ámbito de la evasión de impuestos y los paraísos fiscales, tales como los Offshore Leaks, los Luxembourg Leaks o los Swiss Leaks, de magnitudes muy inferiores a esta. Trabaja habitualmente o bien mediante software de código abierto, o mediante su adaptación o desarrollo, o en ocasiones como este caso, mediante el uso de herramientas con licencia que les permiten utilizar de manera gratuita dado el interés.

En proyectos de este tipo, lo prioritario es tratar de cualificar rápidamente los documentos recibidos, prepararlos para su manejo, e identificar a los socios adecuados en cada país, que no siempre son necesariamente los medios más grandes o importantes, sino los que más entusiasmo o posibilidades de colaboración plantean. No hay un pago en función del acceso a la información – como tampoco lo hay por parte de la Süddeutsche Zeitung a la fuente ni al ICIJ – sino simplemente un compromiso de los medios a dedicar recursos a la investigación, que pueden ir desde el tiempo de los periodistas implicados, hasta viajes, formación, etc.

El papel de los medios colaboradores es, como veremos, fundamental: resultaría imposible llevar a cabo una investigación sin contar con un conocimiento directo del contexto de cada país o sin acceso a otras fuentes de investigación ajenas a la base de datos, que pueden ir desde archivos previos existentes en los medios hasta consultas a fuentes públicas o a repositorios públicos de transparencia creados por cada gobierno. Cualquiera que piense que el papel de los medios que reciben la exclusiva es simplemente el de consultar la base de datos y publicar no está teniendo en cuenta lo que supone investigar en semejante océano inabarcable de información.

A la recepción de documentos sigue su preparación: en un caso como este, tenemos desde documentos de texto, procesables directamente como tales tras una mera comprobación de relevancia – tengamos en cuenta que hablamos de un leak, un data dump, que puede contener grandes cantidades de documentos sencillamente irrelevantes o peligrosos en función de las posibilidades que ofrecen de desprotección de la fuente – hasta otros archivos como .pst de correo electrónico, que hay que descomprimir y de nuevo cualificar, o la gran pesadilla, las imágenes y los .pdf, que deben ser pasados por un proceso de reconocimiento de caracteres para poder convertirlos en información procesable. Para llevar a cabo este proceso a una velocidad razonable se dedicaron unos treinta servidores en paralelo, además de procesos de comprobación posteriores. Tras ese paso de consolidación de la base de datos comienza el trabajo de los periodistas: si en proyectos anteriores habían dado acceso a los datos mediante el envío de un disco duro, como en el caso del último proyecto de Wikileaks, o mediante un software de tipo foro que únicamente permitía conversaciones estructuradas en forma de hilo, en este caso se optó por la modificación de una red social (originalmente centrada en los contactos y que preguntaba en la pantalla de login si eras hombre o mujer 🙂 que posibilitaba interacciones más sofisticadas y potentes.

Para el proceso de autenticación y login se optó por Google Authenticator con verificación en dos pasos. Una vez dentro, la navegación en la base de datos se desarrolló mediante Nuix, un software de gestión documental habitualmente utilizado por despachos de abogados para el procesamiento de sumarios complejos o muy extensos, una herramienta con licencia y cara que, sin embargo, cedió un cierto número de licencias para el proyecto dado el interés que podía tener la propia mejora del programa ante un reto como este (hay una referencia al tema en el blog de la propia Nuix). Para crear relaciones y conexiones entre documentos que permitiesen estudiar flujos de datos, y para su visualización posterior se utilizó Linkurious, otra herramienta bajo licencia que colaboró voluntariamente y de manera gratuita, y que también ha escrito una interesante entrada en su blog sobre el tema.

Toda una arquitectura de servidores en la nube, con cifrado, seguridad con doble factor y herramientas analíticas sofisticadas para poder analizar una cantidad de información masiva y convertirla, por cada uno de los medios asociados, en noticias de interés referenciadas con las circunstancias de cada uno de los implicados. Periodistas convertidos en expertos gestores de información, con cursos y tutoriales en vídeo creados o impartidos por ICIJ, y trabajando con herramientas muy alejadas de las que habitualmente componen la equipación de un periodista. Decididamente, periodismo del siglo XXI. En este siglo vamos a ver dos tipos de prensa: la que intenta investigar y generar noticias mediante análisis de datos y tratando de publicar aquello que alguien no quiere que se publique – porque, como bien dice la frase habitualmente atribuída a George Orwell, lo demás son relaciones públicas – y los que se dediquen al entretenimiento, al sensacionalismo, a los titulares intrigantes y al spam. Un periodista tendrá que formarse en herramientas que, a día de hoy, quedan bastante lejos de los temarios de la gran mayoría de las Facultades de Periodismo. Y sin duda, deberá crearse todo un marco que, en aras de la transparencia, proteja todo lo relacionado con el periodismo de investigación y lo separe de lo que pueda constituirse en otro tipo de cuestiones. 

El caso Panama papers es todo un signo de los tiempos: cambian los negocios, porque lo que no sea razonablemente transparente será cada vez más obligado a serlo, cambia la investigación periodística, y terminará cambiando hasta los marcos legislativos que la regulan. Pero sobre todo, es un esfuerzo brutal y un proyecto de sistemas y tecnologías de información que debería estudiarse en las universidades.

 

Powered by WPeMatico