¿Qué es un data mart y en qué se diferencia de un almacén de datos?
Desde hace unos diez años, el vertiginoso aumento de la cantidad de datos producidos ha acelerado el desarrollo del Big Data. Los mundos del desarrollo de aplicaciones y de la gestión de datos han empezado a converger.
En este contexto, saber centralizar, estructurar, tratar y analizar una masa de datos para una problemática específica es esencial: en eso consiste un data mart. ¿Qué abarca exactamente este concepto? ¿Y en qué se diferencia de un almacén de datos? He aquí algunas explicaciones.
¿Qué es un data mart?
Data mart: definición
Un data mart, también conocido como data shop o contador de datos, es una base de datos específica destinada a un grupo determinado de usuarios.
Utilizada en business intelligence, se extrae de los sistemas fuente, se limpia y se pone a disposición de los usuarios de un área específica de la empresa, o de un grupo restringido de usuarios.
Ejemplo de data mart - © Talend
👉 El data mart debe servir a la necesidad final y, por lo tanto, transcribir los datos almacenados inicialmente en el almacén de datos de la forma más inteligible y cercana posible al lenguaje empresarial.
Ejemplo de un data mart
Por ejemplo, dentro del departamento de RRHH de una empresa, un datamart inicial podría recopilar todos los indicadores relativos al uso del ERP principal, mientras que otros "bloques de construcción" de la necesidad de RRHH podrían ser datamarts directamente asociados a aplicaciones secundarias muy específicas, como el seguimiento del e-Learning de los empleados.
Ventajas de los data marts
- Proporcionan a los usuarios una gama completa de indicadores para los datos que necesitan a diario.
- Un mismo grupo de usuarios puede tener acceso a un único data mart o a varios, cada uno correspondiente a una necesidad específica, en función de las arquitecturas informáticas existentes y de la confidencialidad de los datos.
Data mart vs. data warehouse: ¿cuáles son las diferencias?
Dependiendo de cómo se conciba, el almacén de datos puede verse como un conjunto de data marts y sus pasarelas o, más comúnmente, como la centralización en un único sistema que garantiza la seguridad, disponibilidad y coherencia técnica de todos los datos utilizados por los data marts.
Por tanto, adquiere una coloración más técnica, y probablemente no tendrá un único campo "Ventas", sino quizá varios componentes de los ingresos y gastos de la empresa, que cada área ordenará según su propia concepción de las ventas.
El almacén de datos también permitirá garantizar la trazabilidad de la información en toda la empresa, mientras que el data mart se limita a satisfacer las necesidades específicas de una línea de negocio.
¿Cómo se construye un mercado de datos? 3 opciones
El data mart integrado en la aplicación de origen
Si prefiere los data marts dedicados a una aplicación, puede que sea porque la propia aplicación le ofrece herramientas de análisis integradas. Parece la solución ideal.
Ventaja: se satisfacen al máximo las necesidades de la aplicación y hay coherencia entre los datos y su salida.
Inconvenientes:
- costes a medio y largo plazo, ya que no tienes control sobre la salida de los indicadores;
- tienes menos posibilidades de enriquecerlos con el resto de datos de tu empresa, y viceversa;
- puedes estar pasando por alto opciones para realimentar estos datos al almacén de datos.
👉 Así que pierdes en potencial lo que ganas en rapidez de implantación.
El datamart independiente del datawarehouse
Esta es una versión más avanzada de la anterior, ya que se puede haber configurado internamente, pero sigue partiendo de una fuente muy concreta de la que es muy dependiente.
Ventaja: tiene más libertad a la hora de representar los elementos.
Desventaja: el hecho de que no esté integrado con el resto de su almacén de datos siempre reduce su potencial para responder a las necesidades de los usuarios a medio plazo.
El data mart como elemento constitutivo del almacén de datos
Los data marts deben construirse en torno a un almacén de datos para maximizar su potencial. Su integración puede ser :
- ️ ascendente: un conjunto de data marts que permite la constitución de un datawarehouse,
- ↘️ descendente: la centralización de los datos en el almacén de datos permite crear todos los bloques de construcción necesarios.
Ventajas :
- conexión con otras áreas de la empresa, lo que permite afinar y explicar con precisión los indicadores clave de su rendimiento. Por ejemplo, se puede
- poner de relieve una correlación entre la caída de resultados en un circuito concreto de su plataforma de e-learning y el aumento de incidentes en una línea de producción.
- optimizar su ritmo de producción a partir de un análisis de la tubería en su herramienta CRM.
- la disposición de estos bloques de construcción dentro o alrededor de un datawarehouse aumenta sus posibilidades de garantizar la correcta interpretación de sus indicadores para un uso multifuncional a largo plazo.
Desventaja: pérdida de independencia
¿Qué herramientas para mis data marts?
Por supuesto, no faltan herramientas ETL para procesar datos masivos y analizarlos rápidamente.
Pero también existen herramientas de almacenamiento dedicadas, de código abierto o propietarias, llave en mano para su data mart.
Como en cualquier elección que enfrente el código abierto a las soluciones de los proveedores, el soporte y la capacidad interna para desarrollar o adaptar componentes serán los criterios a tener en cuenta.
Del data mart al DataOps
Integrar sus data marts en un almacén de datos debe ser uno de los principales objetivos de su arquitectura. Y la evolución adecuada de este almacén de datos es su corolario.
Como los equipos técnicos están expuestos a exigencias cada vez mayores y a una necesidad creciente de reactividad, hemos tenido que adaptar nuestros métodos de desarrollo y despliegue utilizando las técnicas de integración continua que han demostrado su eficacia en el mundo de las aplicaciones. Así pues, la ingeniería de datos debe someterse a un nuevo paradigma: DataOps, derivado de DevOps.
En resumen, la adaptación de los principios de DevOps al mundo de los Datos ofrece una nueva respuesta a los retos que plantea la creación de data marts en un contexto de fuerte crecimiento.