Mundo Hadoop

En su celo por recoger tantos datos operacionales como sea posible, las organizaciones que esperan obtener una ventaja mediante el uso de big data, o grandes volúmenes de datos, también tendrá que repensar la forma en que procesan, analizan y presentan ese material.

“Cuando toda esta información finalmente llega a la empresa, es difícil que entienda cómo desmenuzar los datos”, señaló Sharmila Shahani-Mulligan, CEO y co-fundadora de la startup de big data ClearStory Data. “Sabemos que esto ha sido un problema desde hace varios años”.

Shahani-Mulligan fue una de varias oradoras en la conferencia O’Reilly Strata + Hadoop World realizada el mes pasado en Nueva York, que ofreció consejos sobre cómo hacer el paso de datos a big data. Ella sugirió que el tablero ejecutivo está dando paso a la técnica emergente de narración interactiva, lo cual le da a los datos un contexto y significado aparentemente más fácil.

Mientras tanto, las organizaciones deben vigilar estrechamente a Google, aconsejó MC Srivas, director de tecnología del distribuidor de Hadoop MAPR Technologies. “Google, con su amplia y variada infraestructura, puede proporcionarnos una visión sobre a dónde va la informática en el futuro”, anotó Srivas, quien trabajaba en Google antes de co-fundar MapR.

Una de las reglas básicas a copiar de Google es que “más datos derrotan algoritmos complejos”, agregó Srivas. “Esto es algo que Google ha demostrado una y otra vez: La empresa que pueda procesar la mayor cantidad de datos va a tener una ventaja sobre todas los demás en el futuro”.

Un número de clientes MapR sigue ese principio, señaló Srivas.

Millennial Media, proveedor de publicidad móvil, recoge hasta aproximadamente 4TB de datos de los usuarios móviles cada día, combinándolos con petabytes de datos a la mano para construir perfiles de usuarios móviles.

Cisco recoge datos de sus servidores de seguridad en todo el mundo, que agregan un millón de eventos por segundo, todo para detectar mejor las amenazas de seguridad. La agencia de crédito TransHuman recoge datos de diversas fuentes para proporcionar las puntuaciones de crédito en tiempo real.

Pero una vez que una organización se ha comprometido a recoger más datos, la pregunta es qué hacer con ellos.

La visualización es una herramienta muy útil, pero tener una correcta visualización es de vital importancia, aconsejó Miriah Meyer, profesor asistente en la facultad de informática de la Universidad de Utah.

El paso más difícil e importante en la visualización está “ganando una comprensión de las necesidades del usuario, y luego será capaz de traducir eso en un conjunto de requisitos de visualización”, anotó Meyer.

Meyer trabajó con un investigador que comparó el genoma humano con el de los lagartos. El investigador intentó herramientas de visualización de datos off-the-shelf (fuera del estante), pero encontró que escondían muchos detalles pertinentes y no eran intuitivas a la hora de trabajar.

La herramienta que Meyer ayudó a crear, llamada Mizzbee, permitió que el investigador obtenga ideas a partir de los datos que no pudieron conocerse con el software de visualización genérica.

“Cuando se hace bien, la visualización tiene el potencial no solo para apoyar a la ciencia, sino también para influir en ella”, señaló Meyer. “Tenemos que ir más allá de pensar que la visualización se trata solo de fotos bonitas y en su lugar abrazar la idea de que se trata de una investigación profunda para darle sentido a las cosas”.

El tablero es una forma de visualización que se podría utilizar menos, mencionó Shahani-Mulligan.

Las organizaciones han estado utilizando cuadros de mando durante más de una década y no ha cambiado mucho durante ese tiempo, agrega Shahani-Mulligan. Mientras están muy bien para la captura de indicadores clave de rendimiento y métricas de rendimiento básicas, son demasiado frágiles para el análisis avanzado y oportuno de big data, agregó la ejecutiva.

Los tableros son parciales a la hora de mirar los datos de contextos predeterminados. Limitan la cantidad de datos que pueden ser vistos. Y no son interactivos. “Realmente no se puede excavar y ver lo que está pasando debajo de las imágenes”, añadió Shahani-Mulligan.

“Este es un problema que tenemos que resolver a medida que los datos se actualizan con mayor rapidez, a medida que los plazos para tomar decisiones son de un día o una semana, y a medida que más fuentes de datos estén disponibles”, indicó Shahani-Mulligan. “Tenemos que hacer posible que las empresas vean más información de lo que han sido capaces de hacer”.

Una nueva técnica, llamada narración interactiva, se compromete a proporcionar una forma de interactuar con los datos en formas más naturales, indicó Shahani-Mulligan. Clearstory utiliza el software de procesamiento de datos Spark de Apache como parte de un sistema de narración interactiva.

“La narración interactiva trata de unir más datos a la superficie, por lo que los ejecutivos de negocios realmente pueden verlos de una manera en la que tienen el contexto y el significado”, señaló Shahani-Mulligan. Ella estima que la narración interactiva podría ayudar a las empresas a tomar decisiones dos veces más rápido que utilizando herramientas tradicionales.

Gran parte del análisis de big data se basa en estadísticas, que algunos ingenieros de software saben cómo hacer en detalle, comentó el científico de datos en jefe de Pinterest, Rauser John, quien también trabajó en Amazon como arquitecto principal.

“Sospecho que muchas personas en esta audiencia están fingiendo cuando se trata de las estadísticas”, añadió Rauser, provocando una exclamación colectiva audible en la audiencia.

Sin embargo, no tener conocimiento íntimo en el análisis del poder, los modelos lineales generalizados u otros métodos estadísticos no significa que el análisis estadístico significativo no se pueda hacer, agregó. La estadística es un campo pesado en fórmulas matemáticas densas, pero los conceptos básicos son intuitivos para la mentalidad local. En lugar de ello, los ingenieros deben mirar de cerca lo que están estudiando, y traducir las preguntas que se hacen en una serie de métodos computacionales simples.

“Si puede programar una computadora, tiene acceso directo a las ideas más profundas y fundamentales en las estadísticas”, añadió Rauser.

– Joab Jackson, IDG News Service

Secciones

Síguenos

Contenido Exclusivo

Visión del CIO 2025 – Edición Monterrey, mejores decisiones para el CIO

CISO Forum 2025: Estrategias y desafíos para el CISO moderno

Microsoft y SAP transforman el futuro empresarial en México con RISE with SAP en la Región de Centros de Datos de Microsoft: México Central

Secciones

Síguenos

Mundo Hadoop: El tablero ejecutivo está de salida

Lo Más Reciente

Transportistas apuestan por la IA para flotas más seguras y eficientes

Deepfakes en TikTok: difunden desinformación médica con avatares creados con IA

¿Están las empresas implementando estrategias robustas de respaldo y recuperación de datos?

Foro Económico Mundial advierte sobre brecha en ciberseguridad

Newsletter

Transportistas apuestan por la IA para flotas más seguras y eficientes

Deepfakes en TikTok: difunden desinformación médica con avatares creados con IA

¿Están las empresas implementando estrategias robustas de respaldo y recuperación de datos?

Acerca de CIO | EDIWORLD

Secciones