Contenido Exclusivo

Diez grandes mitos del Big Data

Big Data ha dominado las noticias tecnológicas últimamente. Ha sido considerada como una posible solución para todo tipo de temas, desde la detección de intrusos hasta la prevención del fraude y la cura del cáncer.

Sin embargo, el Big Data, que definimos como los datos recolectados en grandes cantidades, a gran velocidad y en muchos formatos, no es una cura para todos los problemas. De hecho, si las compañías que creen en alguno de estos mitos alrededor del Big Data se dirigen en la dirección equivocada, la pérdida de tiempo y dinero podría costar a la empresa su posición competitiva en el mercado, o dañar la reputación de la compañía.

A continuación algunos de los más grandes mitos alrededor del Big Data.

MITO 1: Solo los científicos de datos pueden trabajar con el Big Data
De hecho, los científicos de datos no bastan.

Los científicos de datos por sí mismos no van a poder jalar la información desde el Big Data si no saben lo que están buscando en primer lugar, señala Pat Farrell, director senior de analítica de datos de Penn Medicine. Uno necesita de personas que estén familiarizadas con la industria, el dominio del conocimiento, entiendan qué tipos de preguntas se pueden encontrar, qué información sería valiosa para la industria en particular.

Penn Medicine, por ejemplo, incluye un sistema de salud y una escuela de medicina. Por mucho tiempo, el sistema de salud ha estado recolectando datos clínicos en un data warehouse. Mientras tanto, en la escuela de medicina, las nuevas tecnologías permiten determinar la secuencia del genoma humano, lo cual implica una enorme cantidad de datos.

Sabemos que se puede encontrar valor ahí fuera, y por fin tenemos el poder de cómputo para acceder a él, sostiene Farrell. Al combinar la analítica de datos con la experticia en medicina se abre un campo totalmente nuevo de cuidados de la salud predictivos, afirma el ejecutivo.

MITO 2: Mientras más datos, más valor
Se requiere de tiempo y de recursos para recolectar los datos, alojarlos y catalogarlos, indica Farrell. Recolectar de manera indiscriminada grandes cantidades de datos puede entretener esos recursos alejándolos de proyectos más valiosos.

Farrell recomienda que las empresas tengan una clara idea de la métrica específica o key performance indicator (KPI) que buscan antes de comenzar a recolectar datos.

Uno quiere llegar al punto donde se tiene un puñado de pepitas de sabiduría que sean valiosas para uno, indica el ejecutivo. Los datos en sí mismos, puesto ahí, no son suficiente.

MITO 3: El Big Data es para las grandes compañías
Las grandes compañías pueden tener más recursos internos para conseguir datos, pero incluso las pequeñas empresas pueden aprovechar los datos que provienen de las plataformas de medios sociales, las agencias gubernamentales y los proveedores de datos.

Sin importar el tamaño de su organización, lo mejor es tomar decisiones en base a los datos y no confiar en la intuición o las corazonadas, sostiene Darin Bartik, director ejecutivo de product management de Information Management Solutions de Dell Software.

Las compañías pequeñas pueden tomar decisiones basadas en datos con menos regularidad que sus contrapartes más grandes, afirma el ejecutivo; pero, cuando lo hacen, pueden realizar correcciones a su curso de acciones más rápido.

Las compañías más pequeñas pueden usar mejores prácticas para guiarse más por los datos y superar o ser más hábiles que sus competidores más grandes y más lentos, anota el ejecutivo.

MITO 4: Recolecte ahora, ordene después
El almacenamiento se abarata a cada momento, pero no llega a ser gratuito. Sin embargo, para muchas compañías, el apetito por los datos se está expandiendo más rápido que lo que se están reduciendo los costos del almacenamiento, señala Brad Peters, CEO de Birst, empresa proveedora de soluciones de inteligencia de negocio en nube.

Las compañías creen que si simplemente recogen datos, luego podrán pensar en qué hacer con ellos, afirma el ejecutivo. Veo que varias grandes corporaciones recolectan camionadas de cosas, su gasto se incrementa y no obtienen ningún valor de ello.

De hecho, con algunos grupos de datos, se comienza a aplicar la ley de los rendimientos decrecientes. Por ejemplo, si encuesta a las personas para predecir una elección. Uno necesita una cierta cantidad de persona para obtener una muestra representativa. Pero luego de cierto punto, agregar más personas no afectará significativamente el margen de error.

¿Almacena datos que podría necesitar, que podría darle un par de dígitos de precisión?, pregunta el ejecutivo. O ¿adquiere más personal? ¿Asegura mejor sus redes? La economía no está creciendo muy rápidamente y los presupuestos no se están incrementando.

Y no solo se trata de los costos de almacenamiento, señala Dean Gonsowski, jefe global de gobierno de la información y administración de big data de Recommind, empresa de San Francisco que se especializa en analítica de datos no estructurados.

Por ejemplo, podría costarle a la compañía perder esos datos, afirma. Y tener los datos en los warehouses significa que se encuentran sujetos a la inspección en caso de que surja algún juicio.

Finalmente, cuantos más datos, más tiempo se necesita para ordenarlos. Cuando los repositorios llegan a los miles de millones de registros, las búsquedas pueden requerir de horas o semanas, señala el ejecutivo. El volumen de la información comienza a atascar los sistemas que nunca fueron construidos para manejar estos volúmenes.

MITO 5: Todos los datos han sido creados iguales
El estado de Virginia ha estado recolectando datos sobre las matrículas de los estudiantes, ayuda financiera y nivel de dinero otorgado, en los últimos 20 años. Pero eso no significa que los datos recolectados hace 20 años, y almacenados en el mismo campo de datos, son necesariamente los mismos.

El problema más grande con el que me he topado es que simplemente, porque se encuentra en el diccionario de datos, los investigadores creen que todo es lo mismo, señala Tod Massa, director de investigación de políticas y data warehousing del Consejo Estatal de Educación Superior de Virginia. Por ejemplo, los datos sobre los puntajes en las evaluaciones de los estudiantes en el ACT (American College Test) y el SAT (Scholastic Assessment Test) inicialmente solo se recolectaban para estudiantes del estado, entonces había una brecha; luego se comenzó a recolectar tanto para estudiantes del estado como para estudiantes de fuera del estado. De forma similar, la raza y la etnicidad se registran de forma diferente a nivel escolar y en la educación superior.

De hecho, cualquier dato en particular puede ser reportado de manera diferente de parte de instituciones diferentes o en diferentes puntos de tiempo, o por diferentes personas en esas instituciones. Si se encuentras en un lugar aislado o en una empresa que solamente es responsable por los datos que recolecta, podría tener una situación diferente, señala. Pero incluso entonces, sospecho que el significado de dato cambia con el tiempo.

Como resultado, los analista no solo necesitan habilidades estadísticas, sino también conocimiento local de los datos y conocimiento de las tendencias de la industria como un todo, como cuando se reacomodaron los puntajes del SAT y el ACT.

Uno no puede programar todas esas cosas en un repositorio de datos, indica el ejecutivo.

Lo mismo se aplica para las fuentes de datos externas, agrega. La recolección de datos a nivel federal ha cambiado drásticamente en los pasados 50 años, señala. El entendimiento de la cultura y el contexto de la recolección de datos es realmente necesario para usar bien los datos.

MITO 6: Mientras más específica sea la predicción, mejor
Es parte de la naturaleza humana pensar que algo que es más específico es más exacto. Decir 3:12 pm es más exacto que en algún momento de la tarde. Que el meteorólogo que predice que va a llover el domingo por la mañana es más exacto que aquel que predice que existe un 50% de probabilidades de que llueva el fin de semana.

De hecho, el opuesto es cierto. En muchas situaciones, mientras más exacta es la predicción menos probabilidades de que sea certera.

Por ejemplo, un cliente compra una laptop muy específica, con una configuración muy particular. Y el único otro cliente que ha comprado ese mismo producto en el pasado también compró un par de zapatos con taco aguja rosados.

La recomendación de comprar zapatos con tacón de aguja rosados podría ser muy específica, demasiado específica, y tener un gran margen de error, señala Jerry Jao, CEO de Retention Science, firma de marketing de California.

Esto es algo que en realidad vemos con frecuencia en los negocios y los gerentes de marketing, indica.

MITO 7: Big Data es igual a Hadoop
Hadoop, la popular base de datos de código abierto para datos no estructurados, ha llamado mucho la atención últimamente.

Pero existen otras opciones.

Existe todo un movimiento NoSQL, señala Irfan Khan, gerente general y vicepresidente senior de SAP Big Data. Existe MongoDB, Cassandra -todo un grupos de otras tecnologías.

Algunas de esas tecnologías podrían ser una mejor alternativa que las otras para un proyecto en particular de Big Data.

En particular, Hadoop funciona dividiendo los datos en pedazos, y trabajando en varios pedazos al mismo tiempo. Este enfoque funciona en muchos problemas de Big Data, pero no en todos.

Aunque YARN y Hadoop 2 encaran algunos temas, en ocasiones uno necesita trabajar de formas en las que no es ideal Hadoop, sostiene Grant Ingersoll, CTO de LucidWorks, firma consultora en Big Data. Las personas necesitan decidir qué es lo mejor para ellas, no simplemente elegir ese objeto brillante que todos los chicos cool están utilizando.

MITO 8: Los usuarios finales no necesitan acceso directo a Big Data
Big Data se mueve a gran velocidad, desde una variedad de fuentes y en grandes volúmenes; con ello parece que es simplemente demasiado complicado como para que los empleados comunes trabajen con ellos.

Pero eso no es necesariamente el caso.

Por ejemplo, todos los datos generados por los dispositivos en una unidad de cuidado intensivo. Pulsaciones, datos de respiración, lecturas de electrocardiogramas. Sin embargo, generalmente los doctores y las enfermeras solo pueden ver las lecturas actuales del paciente.

No puedo ver lo que pasaba hace 10 minutos, o dibujar una línea de tendencia de lo que podría pasar dentro de una hora, señala Anthony Jones, chief marketing officer de Patient Care & Clinical Informatics de Philips Healthcare.

Estar en capacidad de ver los datos históricos de un paciente puede ser muy valioso para un profesional médico que tiene que tomar una decisión. La gente que se encuentra cercana a un equipo de ciencias con datos importantes está perdiendo una gran oportunidad, señala Jones.

El problema hoy es hacer que todos los diferentes dispositivos que generan datos conversen unos con otros a pesar de que no se encuentran diseñados para hacer esto, y usar diferentes plataformas y lenguajes de programación. Y una vez que lo hagan, llevar los datos en una forma que sea útil para los doctores y enfermeras cuando lo necesiten.

MITO 9: Big Data es para los grandes problemas
El CIO de un gran banco recientemente dio una charla sobre Big Data, y se le preguntó acerca del autoservicio del usuario final.

Y el CIO dice, no creo en eso’”, recuerda Peters, CEO de Birst.

Esa es una actitud común, señala, ya que algunos ejecutivos creen que Big Data solo responde ciertos tipos de preguntas. La actitud puede resumirse de la siguiente manera: La meta del Big Data para nosotros es resolver sólo algunos problemas muy valiosos con un grupo de científicos de datos. No queremos que se genere un caos en los datos si es que las personas normales tienen acceso a esta información porque no creo que la necesitan.

Peters no está de acuerdo con este enfoque, aunque señala que es muy común en muchas industrias. Dentro de las grandes compañías de seguros crece el mito de que los usuarios de negocio no son lo suficientemente inteligentes como para manejar los datos.

MITO 10: La burbuja del Big Data va a reventar con el tiempo
Los ciclos de entusiasmo van y vienen, pero los cambios tecnológicos transformadores se quedan. La caída de las empresas punto com no fue la señal del fin de Internet.

Incluso cuando el entusiasmo desaparezca, las compañías seguirán teniendo Big Data con la cual trabajar. De hecho, tendrán más Big Data de lo que esperan, debido al crecimiento exponencial de los datos; IDC proyecta que la cantidad total de datos recolectados se duplicará cada dos años hasta el 2020.

Y no se trata de que las empresas estén simplemente recolectando más cosas de las que actualmente recolectan. Más bien, es probable que aparezcan nuevos tipos de datos, los cuales van a requerir enormes cantidades de almacenamiento.

Llegaremos a un punto en el que a todos aquellos que sean ingresados a un hospital se les mapeará su genoma, señala Anthony Jones, chief marketing officer de Patient Care & Clinical Informatics de Philips Healthcare. Esto permitirá que el tratamiento sea personalizado para el paciente. Y cuando se habla de Big Data, se habla de una enorme cantidad de datos. No creo que muchos CIO realmente se den cuenta de cuán difíciles van a ponerse las cosas.

Si se piensa en el Big Data como simplemente una fase, las compañías pueden perder oportunidades para capturar elementos de datos que podrían tener un impacto en los resultados de sus negocios, señala Bryan Hill, CTO de Cadient Group, una agencia de marketing interactivo de Pennsylvania.

El término Big Data probablemente cambie, de la misma manera en que surgió la computación en la nube, que no fue muy diferente a lo que pasó con web, o Internet, sostiene el ejecutivo. El término puede cambiar, pero el espíritu del Big Data está aquí para quedarse.

-Maria Korolov, Network World

Lo Más Reciente

La digitalización ofrece mejoras en la gestión de casos en el sector público

Los factores macroeconómicos globales y locales que cambian rápidamente,...

Cómo impulsar el crecimiento de las empresas en la era de la IA

La inteligencia artificial está revolucionando los negocios. Sin embargo,...

Realizan el segundo Foro de Talento en Data Centers

La Asociación Mexicana de Data Centers, MEXDC, realizó el...

Newsletter

Recibe lo último en noticias e información exclusiva.

La digitalización ofrece mejoras en la gestión de casos en el sector público

Los factores macroeconómicos globales y locales que cambian rápidamente, siguen ejerciendo una presión cada vez mayor sobre el sector público de México. El gobierno...

Cómo impulsar el crecimiento de las empresas en la era de la IA

La inteligencia artificial está revolucionando los negocios. Sin embargo, muy pocos empresarios están adaptando sus empresas a este contexto, para lograr un crecimiento. Para...

Chivas Rayadas del Guadalajara consigue gestionar sus activos de TI de manera más eficiente

El Club Deportivo Guadalajara es uno de los más importantes en México. Con más de 500 colaboradores, requería herramientas para auditar su parque informático,...