Contenido Exclusivo

¡Ya está aquí la Revista Digital “Los Mejores 20 CISO de México 2025”!

CIO Ediworld lo invita a sumergirse en el contenido de la...

¡Descarga la Revista Digital “Los Mejores 100 CIO de México 2025”!

Descarga la revista digital CIO Ediworld Edición Especial "Los...

¿Qué tecnología hay detrás del escándalo de los ‘Panama Papers’?

El escándalo de los ‘Panama Papers’ que ha filtrado documentos del bufete panameño Mossack Fonseca y que ha dejado al descubierto los paraísos fiscales de muchos líderes políticos y otras personalidades está marcando la actualidad informativa estos días.

El software que ha ayudado a filtrar esos documentos tan valiosos provenía de la compañía Nuix, con sede en Australia. Carl Barron, consultor senior de Nuix, nos ha contado información sobre cómo se ha desarrollado toda esta historia. La empresa, Nuix, tiene una fuerte relación con el International Consortium Investigate Journalists (ICIJ) desde hace más de cinco años, incluyendo una alianza con la corporación Australian Firepower contra el fraude. El ICIJ recomendó a Nuix al diario alemán Süddeutsche Zeitung (SZ), con el que han colaborado durante la investigación de los pagos de Panamá.

 “SZ nos consultó y trabajamos juntos en el hardware y los procesos de trabajo”, explicó Barron. “Nos involucramos con ambas partes, tanto con SZ como con el ICIJ. La investigación actual empezó en septiembre del año pasado, aunque no creo que los datos llegaran en un gran lote. Nos llevaría un día y medio indexar los 11.5 millones de documentos de la colección de 2.6 terabytes”. Los datos recogidos por el ICIJ y el SZ contenían algunos retos en cuando a reconocimiento óptico de caracteres (OCR). “Eran datos electrónicos algunos de ellos, pero basados en documentos en papel. Había una gran cantidad de correos electrónicos. En total, unos 11.5 millones de documentos y cerca de cinco millones de correos. Había documentos PDF e imágenes que necesitaban el OCR para convertir el texto en formato electrónico”, explicó Barron.

Indexación de documentos

Nuix se utilizó para indexar documentos, buscarlos e identificar las relaciones entre ellos. “Nuix es una potente herramienta de indexación que extrae textos y metadatos de los documentos, para luego poder hacer consultas muy simples o muy complejas o encontrar la relación entre nombres que aparecen en los documentos o los remitentes de otros correos electrónicos”, comentó Barron.

El proyecto empezó con una pequeña computadora y posteriormente SZ compró un servidor Windows para procesar los datos. El tamaño del volumen de datos era “bastante normal. No es una gran cantidad de datos pero entiendo que había una gran cantidad de OCR  por lo que el reto se convirtió en descubrir lo que era basura y lo que no”. Tras un despliegue inicial de consultoría en hardware y flujo de trabajo, SZ y el ICIJ estaban preparados para analizar el tesoro tras un firewall que mantuviera su trabajo en privado.

Para Barron, aún hay margen para futuras revelaciones cuando los periodistas e investigadores consigan añadir más criterios de búsqueda y encontrar nuevas relaciones entre los nombres y los datos.

-Computerworld España

Lo Más Reciente

Crecer ya no es contratar: el dilema de las empresas mexicanas en 2026

La productividad laboral de México retrocedió 0.1% en el...

La nueva fiscalización digital convierte los datos en un activo estratégico

Las autoridades fiscales en México operan cada vez más...

México 2026: fútbol, prime time y una audiencia hiperconectada

México llega al Mundial de fútbol 2026 con un...

IA Agéntica llega al core del retail

El retail en México enfrenta una presión creciente sobre...

Newsletter

Recibe lo último en noticias e información exclusiva.

Mireya Cortés
Mireya Cortés
Editora CIO Ediworld Online. La puedes contactar en mcortes@ediworld.com.mx

Crecer ya no es contratar: el dilema de las empresas mexicanas en 2026

La productividad laboral de México retrocedió 0.1% en el primer trimestre de 2026 y se mantiene por debajo de su nivel de 2018, de...

La nueva fiscalización digital convierte los datos en un activo estratégico

Las autoridades fiscales en México operan cada vez más como organizaciones impulsadas por datos, obligando a las empresas al desafío de conocer su propia...

México 2026: fútbol, prime time y una audiencia hiperconectada

México llega al Mundial de fútbol 2026 con un papel central. Además de ser uno de los tres países anfitriones, es una puerta de...