¿Que es el Lineage a Nivel de Columna?
El Column-Level Lineage (Lineage a Nivel de Columna) es la capacidad de rastrear el recorrido de un campo o columna individual a traves de todo el ecosistema de datos, desde su origen hasta su consumo final. Mientras que el lineage a nivel de tabla muestra relaciones entre datasets completos ("tabla A alimenta a tabla B"), el lineage a nivel de columna muestra como cada campo se transforma, combina o propaga.
Por ejemplo, el campo "revenue_total" en un dashboard de finanzas puede provenir de la columna "amount" de la tabla de transacciones, multiplicada por la columna "exchange_rate" de la tabla de divisas, filtrada por la columna "status" = "completed". El column-level lineage documenta exactamente esta cadena de transformaciones, campo por campo.
Este nivel de granularidad es esencial para responder preguntas como: "¿de donde sale exactamente este numero?", "¿que campos se ven afectados si cambio el tipo de dato de esta columna?" o "¿que dashboards muestran datos derivados de este campo de PII?". Sin lineage a nivel de columna, estas preguntas solo se pueden responder manualmente, revisando codigo y queries una por una.
¿Por qué importa?
Segun investigaciones del sector, el 70% de los incidentes de datos se originan en cambios a nivel de columna: renombrar un campo, cambiar su tipo de dato, modificar una logica de calculo o eliminar una columna que otros procesos esperan. El lineage a nivel de tabla no captura estos cambios con la precision necesaria para prevenir problemas.
Para cumplimiento regulatorio, el column-level lineage es particularmente valioso. GDPR exige saber exactamente donde fluyen los datos personales, campo por campo. Si el campo "email" de la tabla de clientes se copia a 15 tablas downstream, necesitas saberlo para garantizar que todos los puntos de almacenamiento cumplen las politicas de retencion y acceso.
¿Cómo funciona en la práctica?
El column-level lineage se construye analizando las transformaciones SQL, definiciones de vistas, configuraciones de pipelines ETL/ELT y metadatos de herramientas de BI. Herramientas como parsers SQL extraen las relaciones entre columnas de origen y columnas de destino, incluyendo operaciones como JOIN, UNION, funciones de agregacion y calculos.
El resultado es un grafo dirigido a nivel de campo donde cada nodo es una columna especifica de una tabla especifica, y cada arista representa una transformacion o propagacion. Este grafo permite navegar tanto upstream (¿de donde viene este campo?) como downstream (¿a donde va este campo?) con precision absoluta.
Lineage a Nivel de Columna en Linedat
Linedat ofrece column-level lineage integrado en el catalogo de datos, visualizando las relaciones entre campos individuales a traves de todo el ecosistema. Combinado con la deteccion automatica de PII, permite rastrear exactamente a donde fluyen los datos personales, y la funcionalidad de Impact Analysis muestra el efecto de cambios propuestos a nivel de campo antes de ejecutarlos.
Términos relacionados
Data Lineage es la trazabilidad de datos desde su origen hasta su destino, mostrando todas las transformaciones y dependencias del camino.
¿Que es el Analisis de Impacto en Datos?El analisis de impacto evalua que se rompe antes de hacer cambios en datos, tablas o columnas. Previene incidentes downstream.
¿Que son los Datos PII (Informacion Personal Identificable)?PII son datos que identifican a una persona: nombre, email, DNI, IP. Aprende a detectarlos y gestionarlos para cumplir con GDPR y DORA.
¿Que es un Data Catalog?Un Data Catalog es un inventario centralizado de todos los activos de datos de una organizacion, con metadata, descripciones y lineage.
