Una de las tecnologías de Big Data más prometedoras y que más ha llamado la atención en los últimos años para el almacenamiento y procesamiento de datos en batch es Hadoop.
Hadoop es una tecnología que busca proporcionar capacidades para el almacenamiento y procesamiento en paralelo de grandes volúmenes de datos tanto estructurados como no estructurados al menor costo posible.
Los inicios de Hadoop datan de mediados de la década pasada, y la podemos considerar como una tecnología relativamente nueva. Sin embargo, su adopción ha venido en aumento en los últimos años. Una encuesta realizada por Gartner con el título Big Data Investment Grows but Deployments Remain Scarce, y que fue presentada en junio de 2014, nos muestra que las empresas están invirtiendo en tecnologías de Hadoop para almacenar y explotar sus datos. Sin embargo, la proporción de implementaciones de la tecnología aún no es tan grande. Los encuestados atribuyen esta situación a:
1) Temas relacionados con riesgos e incidencias de gobierno (seguridad, privacidad y calidad de los datos). Gobernar los datos que residen en Hadoop no es tarea fácil. Si consideramos que en muchas ocasiones las organizaciones que están buscando implementar este tipo de tecnologías han tenido esfuerzos fallidos para gobernar sus datos y mantener su calidad en ambientes más controlados, nos podemos dar cuenta del reto que implica almacenar y gestionar un volumen mayor de datos sin políticas y reglas para controlarlos.
2) La necesidad de integrar la información residente en Hadoop con otras fuentes de datos, así como la de integrar las tecnologías de Big Data con la infraestructura existente. El universo de datos que utilizan los usuarios de negocio para trabajar generalmente no se encuentra en un solo lugar y en el caso de Hadoop como tecnología para almacenar los datos no será la excepción. Contar con tecnologías que reduzcan la complejidad asociada con la mezcla de datos residentes en diferentes tecnologías de almacenamiento de datos se vuelve indispensable para que este tipo de iniciativas sean exitosas.
3) Las habilidades y capacidades requeridas para trabajar con la tecnología. Uno de los grandes retos que enfrentan las organizaciones al trabajar con la tecnología es encontrar personal capacitado y calificado en el uso de la tecnología, la democratización en el uso de este tipo de tecnologías en las organizaciones depende de la capacidad de adopción de los usuarios de negocio en su uso. Algunas de las habilidades y capacidades requeridas para trabajar con estas tecnologías no le aportan ningún beneficio al negocio, por lo que es indispensable contar con capacidades que minimicen el grado de especialización requerido para su utilización.
4) Determinar cómo obtener valor del Big Data. Algunas organizaciones siguen debatiendo la definición de casos de uso asociados con la implementación de Hadoop, para definir y orientar el uso de este tipo de tecnologías para soportar los objetivos estratégicos de la organización se vuelve crucial para permitir que las organizaciones maximicen el retorno de inversión asociado con adopción de la tecnología.
Dicho lo anterior, es recomendable que las organizaciones que se enfrentan a implementaciones de Hadoop consideren el uso de herramientas de usuario final que les permitan esquemas de autoservicio para la carga, la preparación o el tratamiento, la limpieza y la homologación de datos en Hadoop.
Se puede aprovechar el valor agregado que tecnologías de Big Data como Hadoop ofrecen a las organizaciones. Esto se logra mediante herramientas diseñadas para reducir la curva de adopción en términos de generación de valor.
Esta curva incluye desde la gestión de datos y su análisis hasta la presentación de resultados para soportar la toma de decisiones para que, en el menor tiempo posible, se puedan alcanzar los objetivos de negocio que su organización está planeando soportar con Hadoop. Considere estos puntos, y haga de su implementación de Hadoop una historia de éxito.
____________
El autor de este artículo, Víctor Moreno, es Data Management Domain Expert de SAS México.