Google está apostando a que el procesamiento en tiempo real es el futuro del análisis de big data, y ha actualizado dos de sus servicios de nube para ayudar a las empresas a entender qué está sucediendo en ese momento con sus clientes y operaciones.
“Realmente creemos que el streaming es la forma en que el mundo avanza. En lugar de buscar los datos de hace dos meses o hace dos años, los datos por los que uno se tiene que preocupar realmente están ocurriendo ahora”, sostuvo Tom Kershaw, director de gestión de productos de la Google Cloud Platform.
Pensemos, por ejemplo, en una compañía de juegos móviles que quiere saber cuáles de sus productos se han vuelto virales, o en una empresa preocupada por la seguridad que revisa sus numerosos logs de servidores en busca de evidencia de los más ataques de seguridad.
Para este fin, Google ha lanzado un motor de procesamiento de datos en tiempo real llamado Google Cloud Dataflow, anunciado por primera vez hace un año. También ha añadido nuevas características a su herramienta de análisis BigQuery, presentada en el 2010. Los dos servicios de nube pueden ser utilizados juntos para facilitar el procesamiento en tiempo real de grandes cantidades de datos, sostuvo Kershaw.
Ahora disponible como beta, Google Cloud Dataflow proporciona la capacidad de analizar datos a medida que llegan de un flujo en vivo de actualizaciones. Google se hace cargo de todo el aprovisionamiento de hardware y configuración de software, lo cual permite a los usuarios incrementar el servicio sin preocuparse por la infraestructura subyacente. El servicio también puede analizar datos ya almacenados en disco, en modo batch, lo que permite a las organizaciones mezclar los análisis históricos y actuales en el mismo flujo de trabajo.
El servicio proporciona una forma “para que cualquier programador de Java o Python escriba aplicaciones usando big data”, sostuvo Kershaw. “Hace que sea sencillo correr trabajos end to end en conjuntos de datos muy complejos”.
Además de trasladar Cloud DataFlow a un programa de beta abierto, Google también actualizó su servicio BigQuery.
BigQuery proporciona una interfaz SQL (Structured Query Language) para grandes conjuntos de datos no estructurados. SQL es utilizado frecuentemente para bases de datos relacionales tradicionales, por lo que es casi universalmente entendido por los administradores de bases de datos. Con esta actualización, Google ha mejorado el servicio por lo que ahora puede ingestar hasta 100 mil filas por segundo por tabla.
La compañía ha ampliado su presencia de BigQuery para que los clientes europeos puedan usar ahora el servicio. Los datos de BigQuery pueden ser almacenados en los centros de datos europeos de Google, que ayudarán a las organizaciones que necesitan satisfacer las regulaciones de soberanía de datos de la Unión Europea.
La compañía también ha añadido permisos a nivel de columna de BigQuery, que pueden limitar la accesibilidad de la información basados en las credenciales del usuario. Esto permite a las organizaciones proteger partes de los datos, como los nombres y las direcciones, y al mismo tiempo permiten un acceso más amplio a otras partes, como el historial de compras anónimo, para que sean usadas para investigación u otros propósitos.
BigQuery y Dataflow pueden usarse en conjunto el uno con el otro, afirmó Kershaw. “Las dos están bastante alineadas. Uno puede usar Cloud Dataflow para procesar y BigQuery para analizar”, indicó.
– Joab Jackson, IDG News Service