Los datos son la savia de la empresa moderna, pero muchas organizaciones tienen dificultades para aprovechar su potencial. Los datos se están creando en volúmenes cada vez mayores, en un número creciente de ubicaciones y las empresas simplemente carecen de la infraestructura para aprovecharlos de manera inteligente.
Sin una visión unificada de los datos que abarque toda la empresa, resulta prácticamente imposible saber qué datos están disponibles, cómo acceder a ellos y cómo gestionar sus flujos al tiempo que se garantiza su seguridad y cumplimiento.
En entrevista, Mohan Rajagopalan, vicepresidente de HPE Ezmeral Software de Hewlett Packard Enterprise, expuso cómo establecer el nivel de complejidad de las operaciones de gestión de los datos y cómo se puede recuperar el control.
¿Es su gestión de datos demasiado compleja?
P: ¿Cuáles son algunos signos de que una gestión de datos es demasiado compleja?
Rajagopalan: Si no sabes qué datos están disponibles o dónde se encuentran, tus operaciones de gestión son demasiado complejas. Esto es cada vez más frecuente, a medida que el volumen de datos sigue creciendo a una tasa exponencial. Y no sólo es el ingente volumen de datos, sino también la forma en que se distribuyen en lagos de datos y almacenes, en centros de datos locales, en coubicaciones, en el extremo y en nubes públicas. Y luego, para más inri, tenemos todo tipo de dispositivos conectados que contribuyen a este aumento de los datos, como móviles, sensores y vídeo.
P: ¿Qué desafíos específicos genera esa complejidad?
Rajagopalan: Desde el punto de vista de los análisis, cada uno de estos orígenes de datos es un ente aislado de datos que actúa como barrera para las personas responsables de extraer los conocimientos. El resultado es la necesidad de navegar por una jerarquía organizativa caótica para obtener derechos de acceso, descubrir los datos disponibles, copiarlos en una segunda ubicación y, seguidamente, limpiarlos. Se trata de un proceso largo y laborioso que suele tener como consecuencia unos datos obsoletos.
La visibilidad de los datos es fundamental. Por ejemplo, digamos que necesitas acceder a los datos en una ubicación específica del extremo. Es posible que tengas una idea general de qué datos se están recopilando ahí, pero sin visibilidad, no tienes ni idea de su calidad ni de su contexto. La consecuencia de esto es un proceso de detección de los datos, que significa entrar y consultar uno por uno cada archivo.
Además, cualquier dato que desees utilizar en tu proyecto debe copiarse en una ubicación secundaria. Si necesitas datos de varias ubicaciones, este proceso deberá repetirse para cada una de ellas. Y como no quieres incluir archivos incompletos o duplicados en tu conjunto de datos, deben limpiarse.
Por último, una vez que ya dispones de un conjunto de datos de buena calidad, necesitarás empaquetarlos y enviarlos a los científicos de datos. Sin embargo, como has dedicado demasiado tiempo simplemente a ubicar, consultar y copiar los datos y, seguidamente, a detectarlos y limpiarlos, es posible que ya no estén actualizados, sin mencionar el hecho de que pueden diferir de los datos con los que están trabajando tus compañeros.
P: ¿De qué manera se puede simplificar la gestión de datos para extraer valor de los mismos con mayor facilidad?
Rajagopalan: Las estructuras de datos proporcionan una capa unificada de abstracción sobre orígenes de datos dispares. Se pueden utilizar de diversas formas: en lotes, streaming o interactivos. Las estructuras de datos también permiten el acceso de autoservicio, la detección y la gobernanza. Contar con una fuente de verdad única para todo el mundo en la organización es importante. Significa que todos, desde científicos de datos a desarrolladores, pueden trabajar a partir del mismo origen único de datos relevantes y estandarizados, y tomar decisiones informadas utilizando los mismos conjuntos de datos.
Esto difiere mucho de contar con grupos dispares trabajando sobre conjuntos de datos que residen en silos y departamentos que funcionan como entidades separadas. Con las barreras de contención adecuadas en torno al geovallado y la gobernanza, no hay costes ocultos. El coste de la estructura es el coste real.
Supongamos que eres un fabricante de automóviles y dispones de coches de prueba en todo el mundo, cada uno de los cuales se considera una ubicación en el extremo. Con una estructura de datos, puedes acceder a los datos de cada coche y verlos allí donde se encuentren, sin necesidad de moverlos.
Si se parte de la base de que cada coche genera en torno a 1 petabyte de datos al día y que la empresa utiliza una red de 1 Gbps, se tardarían 11 días simplemente en copiar los datos asociados con un coche. Las estructuras de datos cambian estas circunstancias al permitir el acceso y la capacidad de procesar los datos allí donde se encuentren, lo que permite obtener información casi en tiempo real y en una fracción de tiempo.
P: ¿Cómo se puede unificar la gestión de las implementaciones de nube híbrida?
Rajagopalan: Necesitas un plano de datos global que cree una infraestructura unificada, abarque todos tus entornos híbridos y te permita mantener los datos donde estén, pero que al mismo tiempo dé acceso global a usuarios y aplicaciones, sin importar dónde se encuentren. En ese plano de datos, todo se simplifica, como la generación de políticas automatizadas para la soberanía y el geovallado de datos, además de todas las cuestiones de gobernanza y cumplimiento habituales a las que se enfrenta la empresa. Todo empieza por adoptar esos orígenes de datos híbridos —la empresa media tiene hasta 20 de ellos— y proceder de tal modo que un ingeniero de datos o un analista de inteligencia empresarial no tenga que lidiar con 20 propietarios de datos para acceder a los que precisa.
Un plano de datos global también puede ayudar a reducir costes. Pensemos en cómo se desarrolla una aplicación. El desarrollador suele crear la aplicación en una nube para, seguidamente, trasladarse a otra nube para hacer las pruebas, porque proveedores de nubes diferentes ofrecen servicios diferentes y es posible que la segunda cuente con mejores herramientas de prueba que la primera.
Debes copiar los datos de las aplicaciones —que pueden llegar hasta los cientos de petabytes— en cada una de esas ubicaciones. Está el tiempo, la latencia y el coste. Al hacer uso de dos nubes, debes pagar el doble para almacenar los mismos conjuntos de datos.
La estructura de datos elimina ese tipo de coste doble y los aspectos que favorecen la dependencia del proveedor. Si necesitas algunos datos en el extremo en una tienda de comercio minorista o en un servicio de nube diferente, puedes acceder a ellos y utilizarlos. Y como va a través de un plano de datos, puedes empezar a reducir los costes de almacenamiento, además de reducir los gastos de entrada y salida. Además, puedes mover tus datos con una eficacia mucho mayor.