Conseguir insights a partir del big data no suele ser ni rápido ni fácil, pero Google desea cambiar todo eso con un nuevo servicio gestionado para Hadoop y Spark.
Cloud Dataproc, que el gigante de las búsquedas lanzó en beta abierta el miércoles, es un nuevo elemento de su cartera de big data que está diseñado para ayudar a las empresas a crear clusters de forma rápida, manejarlos con facilidad y apagarlos cuando no se necesitan.
Las empresas a menudo luchan por conseguir el máximo provecho de la rápida evolución de la tecnología de big data, señaló Holger Mueller, vicepresidente y analista principal de Constellation Research.
“A menudo no es fácil para la empresa promedio instalar y operar”, añadió. Cuando dos productos de código abierto deben combinarse, “las cosas pueden ser aún más complejas”.
Para las empresas podría ser de gran valor encontrar una manera fácil de implementar y operar clusters de Hadoop y Spark, añadió. Para Google, por su parte, Nube Dataproc en última instancia significa más carga, utilización y clientes, lo que crea mejores economías de escala, señaló Mueller.
Nube Dataproc ofrece una serie de ventajas con respecto a los tradicionales productos on premises y los servicios en la nube, indicó Google.
Mientras que crear clusters Spark y Hadoop on premises o a través de proveedores de infraestructura como servicio (IaaS, por sus siglas en inglés) puede requerir de cinco a 30 minutos, por instancia, los clusters de Cloud Dataproc requieren de 90 segundos o menos en promedio para empezar, y la misma cantidad de tiempo para escalar o apagarse. Eso, a su vez, puede significar que los usuarios tienen más tiempo para trabajar con sus datos.
“Cuando uno hace un despliegue autogestionado, ya sea de forma local o en la nube, uno efectivamente está pagando su propio tiempo para sus clusters”, indicó Greg DeMichillie, director de gestión de producto para Google Cloud Platform. “Lo que Cloud Dataproc le permite a uno es recortar la ventana de tiempo entre el momento en que uno hace una pregunta y el momento en el que un obtiene el insight”.
El precio es de un centavo por CPU virtual en cada clúster por hora, y los clusters de Cloud Dataproc pueden incluir instancias pre-vaciables que tienen precios de cómputo aún más bajos, lo que reduce aún más los costos. Mientras que muchos proveedores redondean el uso a la hora más cercana, Cloud Dataproc utiliza una facturación minuto a minuto y un período de facturación de 10 minutos como mínimo.
Cloud Dataproc también ofrece integración incorporada con los servicios de Google Cloud Platform como BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging y Cloud Monitoring. Las empresas pueden utilizarlo para extraer, transformar y cargar terabytes de datos de log brutos directamente en BigQuery para la presentación de informes de negocios, por ejemplo.
Debido a que el servicio se gestiona, las empresas pueden utilizar los clusters de Spark y Hadoop sin la ayuda de un administrador o un software especial, indicó Google. Más bien, se puede interactuar con los clusters y los trabajos de Spark o Hadoop a través de Google Developer Console, Google Cloud SDK o la API REST Cloud Dataproc; cuando terminan con un clúster, pueden apagarlo y evitar gastar dinero innecesariamente.
La implementación actual de Cloud Dataproc presenta clusters basados en Spark 1.5 y Hadoop 2.7.1.
-Katherine Noyes, IDG News Service