¿Que es Data Mesh?
Data Mesh es un paradigma de arquitectura de datos descentralizada propuesto por Zhamak Dehghani en 2019 que traslada la responsabilidad de los datos desde un equipo central de datos hacia los equipos de dominio de negocio. En lugar de un unico data warehouse o data lake gestionado por un equipo centralizado, cada dominio (marketing, finanzas, producto) es responsable de publicar sus datos como "productos de datos" con calidad, documentacion y SLAs garantizados.
Data Mesh se sustenta en cuatro principios: propiedad de datos orientada a dominio (domain-oriented ownership), datos como producto (data as a product), infraestructura de datos como plataforma de autoservicio (self-serve data platform) y gobierno federado computacional (federated computational governance). Estos principios buscan resolver los cuellos de botella de las arquitecturas centralizadas, donde un unico equipo de datos no puede escalar al ritmo de la organizacion.
Es importante entender que Data Mesh no es una tecnologia ni un producto: es un modelo organizativo y arquitectonico. Se puede implementar con diferentes stacks tecnologicos, pero requiere cambios significativos en la estructura de equipos, roles y procesos.
Porque é importante?
Las arquitecturas centralizadas de datos (data warehouse monolitico, data lake gestionado por un equipo central) enfrentan un problema de escalabilidad organizativa. A medida que la empresa crece, el equipo central de datos se convierte en cuello de botella: cada nuevo requisito de datos pasa por la misma cola. Segun encuestas del sector, los equipos de datos centralizados suelen tener backlogs de 3-6 meses.
Data Mesh propone resolver esto distribuyendo la responsabilidad. Los equipos que mejor conocen los datos (los de dominio) son los que los publican y mantienen. El equipo de plataforma proporciona la infraestructura de autoservicio. El gobierno se implementa de forma federada mediante politicas computacionales (automatizadas), no mediante aprobaciones manuales centralizadas.
Como funciona na prática?
En la practica, adoptar Data Mesh implica varios cambios. Cada dominio de negocio identifica los datos que produce y los publica como productos de datos con documentacion, SLAs de calidad y APIs estandarizadas. El equipo de plataforma construye herramientas de autoservicio para que los dominios puedan publicar, descubrir y consumir datos sin depender de un equipo central.
El gobierno federado se implementa mediante politicas automatizadas: en lugar de que un comite apruebe cada acceso, las politicas de calidad, seguridad y compliance se codifican y se ejecutan automaticamente. Por ejemplo, "todo producto de datos debe tener al menos un quality check activo" o "ningun campo PII puede publicarse sin clasificacion".
Data Mesh no Linedat
Linedat facilita la implementacion de Data Mesh al proporcionar la capa de gobierno federado que el modelo requiere: catalogo de datos por dominio, glosario compartido entre dominios, politicas automatizadas de calidad y compliance, y roles de Data Steward asignables por dominio para que cada equipo gestione sus propios activos de datos.
Termos relacionados
Data Governance es el marco de politicas, procesos y roles que garantiza la calidad, seguridad y uso correcto de los datos en una organizacion.
¿Que es un Data Contract (Contrato de Datos)?Un Data Contract es un acuerdo formal entre productor y consumidor de datos que define esquema, calidad, SLAs y responsabilidades.
¿Que es un Data Steward?Un Data Steward es el responsable operativo de la calidad, documentacion y cumplimiento de los datos en un dominio especifico.
¿Que es un Data Catalog?Un Data Catalog es un inventario centralizado de todos los activos de datos de una organizacion, con metadata, descripciones y lineage.
