search El medio de comunicación que reinventa la empresa

Lago de datos: almacene sus datos sin ahogarse en un lago de datos

Lago de datos: almacene sus datos sin ahogarse en un lago de datos

Por Laurent Hercé

El 29 de octubre de 2024

En un momento en que la masa de información generada por una empresa puede crecer entre un 50 y un 150% de un año para otro, tiene sentido querer aprovecharla y sacarle el máximo partido.

Sin embargo, muchas empresas siguen sin decidirse por las infraestructuras y arquitecturas necesarias para gestionar Big Data, en particular lo que a menudo se define como su corazón: el Data Lake.

¿Qué es un lago de datos? ¿En qué se diferencia de un almacén de datos? ¿Qué soluciones de lago de datos elegir? Siga leyendo para obtener las respuestas.

¿Qué es un lago de datos? Definición

Un lago de datos puede definirse ante todo como un depósito de datos brutos, calificados al margen, en forma estructurada o no estructurada. Estos datos pueden ser :

  • extractos de bases de datos relacionales
  • imágenes
  • archivos PDF
  • feeds o eventos de aplicaciones empresariales
  • archivos CSV semiestructurados o registros, etc.

¿Por qué utilizar un lago de datos? Ventajas de un lago de datos

La primera tarea del lago de datos es ingerir estos datos en bruto de forma masiva con el fin de preservar su historial para su uso futuro:

  • analizar los cambios de comportamiento (de un cliente o de una aplicación),
  • IA predictiva o aprendizaje automático,
  • o, de forma más pragmática, monetizar esta información con nuevos socios.

Además de esta característica principal, hay otros criterios clave como :

  • su estructuración, para hacerla navegable y evitar el pantano de datos,
  • su elasticidad, que le permitirá crecer (y en teoría reducirse) a gran velocidad en términos de almacenamiento y potencia informática,
  • su seguridad, para garantizar que los datos se utilizan correctamente.

Lago de datos, almacén de datos: ¿cuál es la diferencia?

A diferencia del Data Lake, el objetivo principal del Data Warehouse es obtener datos refinados para una necesidad precisa y recurrente, lo que requiere un sólido rendimiento de agregación y permite servir a informes, análisis y, a veces, nuevas aplicaciones empresariales.

Pero con un coste por terabyte almacenado más de 10 veces superior, el almacén de datos ha alcanzado sus límites como piedra angular de los datos empresariales.

¿Cómo obtener lo mejor de ambos mundos?

¿Qué soluciones de lago de datos debería considerar?

Muchas grandes empresas, tras haber invertido importantes sumas en su almacén de datos, han decidido realizar una transición suave hacia el lago de datos, con una solución on-premise y la composición personalizada de una serie de herramientas para gestionarlo.

Una solución local como el lago de datos Hadoop

La Fundación Apache ha creado el marco de código abierto Hadoop, que es la base de la capacidad del lago de datos para ingerir datos en masa paralelizando y distribuyendo el proceso de almacenamiento.

Este marco se ve reforzado por un gran número de herramientas de código abierto que han hecho asequible (económicamente) la implantación de los lagos de datos:

  • Kafka para la ingesta,
  • Yarn para la asignación de recursos,
  • Spark para el procesamiento de alto rendimiento,
  • MongoDB como base de datos NoSQL,
  • ElasticSearch y Kibana para la indexación y recuperación de contenidos,
  • y una plétora de otras herramientas (bases de datos gráficas, auditoría, seguridad) que van surgiendo y a veces desapareciendo a medida que este mercado se concentra.

Pero al final, el gran número de herramientas y la posibilidad de crear un entorno ultrapersonalizado pueden suponer unos costes de propiedad muy elevados, sobre todo si se apuesta por una tecnología con un futuro incierto.

Lógicamente, entonces, podemos preferir soluciones empaquetadas como Cloudera, que ha engullido a Hortonworks y ha conservado una distribución de código abierto, pero que, por supuesto, ofrece un modelo de pago mejor soportado.

Una sólida asociación con IBM también tiene como objetivo proporcionar soluciones locales sólidas.

MapR, tras haber sido adquirida en 2019 por Hewlett Packard Enterprise, se integrará en HPE GreenLake, una solución en la nube diseñada para competir con los gigantes Amazon, Microsoft, Google y Oracle, que están intensificando sus alianzas, adquisiciones y nuevos desarrollos para construir plataformas en la nube que rivalicen con las mejores herramientas de análisis de datos on-premise.

Una solución en la nube como el lago de datos de AWS o Azure

Amazon AWS, Microsoft Azure, Google Big Query y Oracle Cloud Infrastructure Data Flow incorporan herramientas más o menos sofisticadas de gestión de datos (migración, linaje, monitorización) y de análisis (transformación en tiempo real, agregación, análisis tradicional o modelos de IA), pero esta vez en la nube.

La gran ventaja de la nube compartida es que deja de lado la cuestión del hardware, que puede convertirse rápidamente en un quebradero de cabeza cuando se prevé un gran aumento de los datos.

Sin embargo, la nube desinhibida ha mostrado sus limitaciones, con casos de hackeo masivo. La nube privada de IBM puede garantizar la integridad de sus datos (propiedad industrial, contratos confidenciales, etc.) y la solución Azure Stack ofrece una versión local de las principales herramientas de Microsoft en este ámbito.

Teradata, otro líder mundial del almacenamiento de datos, también ha empezado a orientarse hacia una solución en la nube con la esperanza de recuperar una clientela embotada por los costes de sus potentes servidores locales.

El reto de la buena gobernanza

Todas las soluciones tienen sus ventajas y sus inconvenientes. No hay que perder de vista los compromisos de la empresa con sus clientes (RGPD, secreto industrial o profesional) y sopesarlos con esta búsqueda de elasticidad, que puede representar importantes costes estructurales y humanos.

Evaluar este equilibrio debe formar parte del trabajo esencial de la gobernanza de datos, que debe definir y estructurar el lago de datos y, por tanto

  • proporcionar un marco humano, técnico y tecnológico a los ingenieros de datos que manejarán terabytes de datos a diario
  • facilitar el trabajo de investigación de los científicos de datos para sus motores de IA y Machine Learning
  • permitir a los usuarios rastrear y validar sus fuentes para garantizar los resultados de sus análisis.

Esta gobernanza hará posible comprender las necesidades reales de su negocio principal, al tiempo que permitirá un uso más amplio de los datos. El objetivo es

  • Desarrollar nuevos usos y una nueva comprensión de los datos,
  • ofrecer a sus clientes las ventajas de una mayor capacidad de reacción e incluso de anticipación, con total seguridad.

Una buena gobernanza puede dar lugar a arquitecturas complejas a primera vista, pero que pueden ser tanto técnica como financieramente beneficiosas.

Elegir la malla de datos para una transición de big data exitosa

Así pues, si bien el lago de datos puede ser útil, no significa necesariamente que desaparezcan otras estructuras de gestión de datos: desde el pantano de datos aguas arriba, pasando por el almacén de datos y los data marts aguas abajo, hasta el diálogo entre varias de estas estructuras en un contexto internacional, una buena gobernanza de datos puede, por el contrario, permitir ampliar el abanico de herramientas.

Al favorecer el diálogo entre estos elementos de almacenamiento y tratamiento de datos, la empresa puede sacar el máximo partido de cada uno de ellos:

  • los sistemas históricos considerados indispensables y fiables seguirán funcionando
  • y podrán aprovechar las ventajas del lago de datos para, por ejemplo, archivar datos fríos, asegurar las fuentes brutas para permitir una mejor auditoría y una posible recuperación, etc.

Esta malla de datos, en el contexto de una gobernanza sólida, evitará que una empresa arruine un sistema existente al embarcarse en una migración "todo lago de datos".al embarcarse en una migración "todo lago de datos" o incluso "todo nube", a veces poco práctica y a menudo inadecuada.

La malla de datos será entonces una garantía de aceptación y éxito en la transición a Big Data.