Si tiene una gran cantidad de datos, entonces Hadoop está, o debería estar, en su radar.
Una vez reservado para los imperios de Internet, como Google y Yahoo, el sistema de administración de big data más popular y conocido ahora ingresa a las empresas. Hay dos grandes razones para ello: 1) Las compañías tienen muchos más datos que administrar, y Hadoop es una gran plataforma, especialmente para combinar los datos de ambos legado, viejos y nuevos datos no estructurados. 2) Una gran cantidad de proveedores están entrando en el juego de ofrecer soporte y servicios en torno a Hadoop, por lo que es más aceptable para las empresas.
“Hadoop es imparable, ya que sus raíces de código abierto crecen salvaje y profundamente en las arquitecturas de administración de datos empresariales”, según escribieron recientemente los analistas de Forrester, Mike Gualtieri y Noel Yuhanna en el Wave Report de la empresa sobre el mercado de Hadoop. “Forrester cree que Hadoop es una plataforma de datos imprescindible para las grandes empresas, pues forma la piedra angular de cualquier futura plataforma flexible de administraciónde datos. Si tiene muchos datos estructurados, no estructurados, y/o binarios, hay un espacio para Hadoop en su organización”.
Así que ¿por dónde empezar? Forrester señala que hay una variedad de lugares para visitar, y evaluó nueve proveedores que ofrecen servicios de Hadoop para encontrar los pros y los contras de cada uno. Forrester concluye que no hay un líder del mercado en este momento, con empresas relativamente jóvenes que ofrecen servicios atractivos junto a los titanes de la tecnología.
En primer lugar, algunos antecedentes: Hadoop es un proyecto de código abierto de Apache que cualquiera puede descargar libremente -esto incluye Hadoop Common, Hadoop Distributed File System (HDFS), Hadoop HILO, y Hadoop MapReduce. Muchas empresas desde IBM a Amazon Web Services, Microsoft y Teradata, han empaquetado a Hadoop en distribuciones o servicios más fácilmente consumibles. Cada compañía tiene una estrategia ligeramente diferente, pero el diferenciador clave para todo esto es que Hadoop tiene la capacidad de distribuir las cargas de trabajo a través de miles de potenciales servidores, haciendo que big data sea algo manejable.
Nota: Esta lista se basa en los proveedores que figuran en el informe Forrester Wave, y no está destinada a abarcar todas las plataformas de Hadoop y las grandes plataformas de gestión de datos. Está listado en orden alfabético.
Amazon Web Services
Los clientes que buscan una plataforma de nube pública alojada de Hadoop no necesitan ir mucho más allá de lo que Forrester llama el “Rey de la nube”: Amazon Web Services. El producto Hadoop de la compañía se llama Elastic Map Reducer (EMR), que según AWS utiliza Hadoop para ofrecer servicios de administración de big data. Sin embargo, no es 100% de código abierto, ha sido pensado para funcionar específicamente en la nube de AWS.
Forrester anota que EMR tiene la mayor adopción de las plataformas de Hadoop en el mercado. Ya cuenta con una amplia variedad de socios que ofrecen servicios en la parte superior de EMR, tales como los que se especializan en la consulta, el modelado, la integración y la gestión. Y AWS es innovador en la hoja de ruta, de acuerdo con Forrester, está la capacidad de EMR para escalar de forma automática y cambiar el tamaño según las necesidades de carga de trabajo. La compañía planea lanzar un apoyo más sólido para EMR con sus otros productos y servicios, incluyendo su almacén de datos RedShift, su motor de procesamiento recién anunciado Kenesis, en tiempo real; y tiene planes para ofrecer soporte para bases de datos adicionales NoSQL y herramientas de inteligencia de negocios. Lo único que AWS no tiene es una distribución de Hadoop que los usuarios puedan ejecutar en sus propios locales, pero las próximas dos empresas se especializan en eso.
Cloudera
Cloudera tiene una distribución de Hadoop, que utiliza muchos de los aspectos del proyecto Apache, pero también tiene muchos avances. Cloudera ha desarrollado una serie de características de su producto, desde una herramienta de administración y monitoreo llamada Cloudera Manager, a un motor SQL para ejecutar datos relacionales sobre Hadoop llamado Impala.
Cloudera utiliza código abierto Hadoop para la base de su distribución, pero no es un producto de código abierto puro. Cuando los clientes de Cloudera necesitan algo que el código abierto Hadoop no tiene, lo construyen, o se encuentran con alguien que lo tiene. “El enfoque de Cloudera a la innovación es ser leal al núcleo Hadoop, pero innovar de forma rápida y agresivamente para satisfacer las demandas de los clientes y diferenciar su solución de las de otros proveedores”, señala Forrester. El resultado ha sido la adopción constante de la plataforma de Cloudera, con más de 200 clientes de pago, agrega Forrester, algunos de los cuales tiene más de 1 petabyte bajo gestión a través de más de mil nodos.
Hortonworks
Como Cloudera, Hortonworks es una empresa que ejecuta Hadoop. A diferencia de Cloudera, Hortonworks se adhiere al código abierto de Hadoop más fuerte que quizás cualquier otro proveedor. El objetivo de Hortonworks es construir el ecosistema Hadoop y los usuarios de Hadoop, y el avance del código de fuente abierta. Su plataforma se adhiere estrechamente al código abierto. Los funcionarios de la compañía dicen que esto beneficia a los usuarios, ya que evita que el proveedor se cierre (si un cliente de Hortonworks alguna vez necesita salir de su plataforma, entonces podría fácilmente sacar algunas aplicaciones fuera de la plataforma de código abierto).
Eso no quiere decir que Hortonworks no innove en la parte superior del código abierto. La compañía le da de regreso todo su trabajo de desarrollo de la plataforma a la comunidad de código abierto. Un ejemplo de esto es Ambari, una herramienta desarrollada por Hortonworks para llenar un hueco en el proyecto en torno a la gestión de clusters. El enfoque Hortonworks “ha cosechado sólidas alianzas para vendedores como Teradata, Microsoft, Red Hat y SAP”, señala Forrester.
IBM
Cuando las empresas piensan en los grandes proyectos de TI, muchas piensan en IBM, y con razón. Debido a eso, IBM se ha convertido en un jugador importante en el mundo de los proyectos de Hadoop. Forrester señala que IBM ya tiene más de 100 implementaciones de Hadoop, y muchos clientes con petabytes de datos equivalentes.
La compañía aprovecha su amplia experiencia en computación, un centro de datos global y experiencia en la implementación de la empresa para sus proyectos de big data. “La hoja de ruta de IBM incluye continuidad para integrar la solución BigInsights Hadoop con activos de IBM relacionados, como la analítica avanzada SPSS, gestión de carga de trabajo para la computación de alto rendimiento, herramientas de BI y gestión de datos y herramientas de modelado”, anota Forrester.
Intel
Al igual que Amazon Web Services, Intel está aprovechando y optimizando su versión de Hadoop para que se ejecute en su hardware, específicamente en sus chips Xeon. Para los clientes que buscan empujar los límites de su sistema de Hadoop y una mayor afinidad entre el software y el hardware, la distribución Hadoop de Intel podría ser para usted.
Forrester señala que Intel recientemente lanzó este producto, así que se espera que la compañía innove un poco en la parte superior de la versión que tiene ahora en el mercado. Intel y Microsoft fueron catalogados como “de buen rendimiento” en el mercado de Hadoop, en comparación con las otras siete empresas que anteriormente figuraban como “líderes”.
MapR Technologies
MapR Technologies es quizás la mejor empresa de distribución de Hadoop y que muchas personas desconocen. En la encuesta de Forrester sobre los usuarios de Hadoop que se utilizó para elaborar su informe Wave, MapR calificó como la más alta de su oferta actual, con las mejores calificaciones de las capacidades de procesamiento de datos de la arquitectura y distribución.
La receta secreta de la empresa es un conjunto de capacidades únicas que MapR ha logrado trabajar en su versión de Hadoop. Por ejemplo, la distribución de MapR soporta los sistemas de archivos de red (NFS) y MapR ha construido características de recuperación de desastres y de alta disponibilidad en su distribución. Forrester indica que MapR simplemente no tiene el reconocimiento de la marca en comparación con Cloudera y Hortonworks en el mercado de Hadoop. Sin embargo, considera que un aumento de las alianzas y de marketing podrían convertir a MapR en una importante empresa de Hadoop.
Microsoft
Microsoft no es históricamente conocida como una empresa que abarque el software de código abierto, pero en este caso está tomando grandes pasos, no solo para permitir que Hadoop funcione en Windows, sino por extender el código para el proyecto de código abierto con el fin de avanzar ampliamente en el ecosistema Hadoop. Los frutos de esa labor se ven en su producto de la nube pública de Microsoft (Azure), HDInsight. Es una oferta de Hadoop como servicio basada en la distribución Hortonworks de la plataforma, pero diseñada específicamente para funcionar en Azure.
Microsoft también tiene algunos otros proyectos ingeniosos, incluyendo una función de producción lista llamada Polybase que permite obtener información sobre SQL Server en las consultas de Hadoop. “La significativa presencia de Microsoft en la base de datos, almacenamiento de datos, nube, OLAP, BI, hoja de cálculo (PowerPivot), colaboración y desarrollo de mercados de instrumentos, ofrece una ventaja cuando se trata de la entrega de una pila Hadoop creciente para los clientes de Microsoft”, señala Forrester. Al igual que Intel, Microsoft fue catalogado como un “intérprete fuerte”, pero todavía no es un líder en esta industria.
Pivotal Software
El año pasado, EMC y VMware combinaron un puñado de los activos de cada compañía para formar Pivotal, que básicamente es un spin-out de ambas empresas.
Uno de los grandes aspectos de Pivotal es que está trabajando en una distribución de Hadoop, junto con Cloud Foundry PaaS. Al hacerlo, Pivotal ha añadido algunas herramientas en la parte superior del código abierto, específicamente un motor SQL denominada HAWQ y un aparato de Hadoop hecho específicamente para el funcionamiento de la plataforma de big data. Forrester afirma que la ventaja principal de la plataforma Hadoop de Pivotal es la integración entre su distro y otros productos Pivotal, EMC y VMware.
Pivotal también se beneficiará del respaldo de EMC y VMware. Hasta ahora, sin embargo, la empresa solo cuenta con menos de 100 instalaciones, sobre todo en pequeñas y medianas empresas clientes, según Forrester.
Teradata
Una empresa como Teradata podía ver a Hadoop como una amenaza o una oportunidad. La compañía se especializa en la gestión de datos, en particular en SQL y las bases de datos relacionales. Así que la aparición de una plataforma NoSQL como Hadoop podía amenazar a la empresa.
Pero Teradata ha abrazado a Hadoop. Al asociarse con Hortonworks, Teradata ahora ofrece a los clientes la capacidad de utilizar una plataforma Hadoop que se integra con su oferta de SQL, ofreciendo a los clientes existentes de Teradata una plataforma Hadoop plug and play lista para que funcione sin problemas con los datos ya guardados en los almacenes de Teradata.
-Brandon Butler, Network World (EE.UU.)