Databricks presenta Delta Sharing, un protocolo open source para compartir datos de forma segura
Databricks el inventor y mantenedor de Apache Spark, presentó varias innovaciones para su Unified Analytics Platform en su conferencia de usuarios Data + AI Summit 2021, entre las cuales destaca el lanzamiento de un nuevo proyecto de código abierto llamado «Delta Sharing» que proporciona un protocolo abierto para compartir datos de forma segura entre organizaciones en tiempo real, independientemente de la plataforma en la que residan los datos.
Delta Sharing se incluye dentro del proyecto Delta Lake, una capa de almacenamiento de tablas que la compañía lanzó a código abierto a fines de 2019. La plataforma ya ha obtenido el apoyo de un amplio conjunto de proveedores de datos, incluidos Nasdaq, Amazon Web Services, Microsoft, Google y Tableau Software.
El intercambio de datos se ha vuelto fundamental en la economía moderna, ya que las empresas buscan intercambiar datos de forma segura con sus clientes, proveedores y socios. Por ejemplo, un minorista puede querer publicar datos de ventas para sus proveedores en tiempo real, o un proveedor puede querer compartir el inventario en tiempo real. Pero hasta ahora, el intercambio de datos ha sido muy limitado porque las soluciones de intercambio están vinculadas a un solo proveedor. Esto crea fricciones tanto para los proveedores de datos como para los consumidores, que naturalmente ejecutan diferentes plataformas.
Hoy, lanzamos un nuevo proyecto de código abierto que simplifica el intercambio entre organizaciones: Delta Sharing , un protocolo abierto para el intercambio seguro en tiempo real de grandes conjuntos de datos, que permite el intercambio seguro de datos entre productos por primera vez. Estamos desarrollando Delta Sharing con socios de los principales proveedores de software y datos del mundo.
Databricks dijo que espera abordar la ineficiencia de los procesos a menudo manuales necesarios para que las organizaciones intercambien datos con clientes, socios y proveedores. Históricamente, los productos para compartir datos han estado vinculados a un solo proveedor o producto comercial, lo que limita la colaboración entre organizaciones que utilizan diferentes plataformas.
“La principal forma en que las empresas han compartido con otros es atravesando un proceso engorroso o utilizando un sistema existente rígido que todos deben usar”, dijo Arsalan Tavakoli (en la foto), cofundador y vicepresidente senior de ingeniería de campo en Databricks.
Unir varias fuentes de datos también es una tarea ardua. “No se puede simplemente dar acceso a todos”, dijo. “Quieres controles de acceso, auditoría y control de versiones. No hay forma de hacer eso hoy «.
Delta Sharing limita la dependencia del proveedor y permite un conjunto de casos de uso más amplio y diverso de lo que ha sido posible anteriormente, dijo la compañía. Unity Catalog que se puede utilizar en SQL, herramientas de análisis visual y lenguajes de programación como Python y R. Delta Sharing también permite a las organizaciones compartir conjuntos de datos existentes a gran escala en Apache Parquet y Formatos de Delta Lake en tiempo real sin necesidad de copias.
Delta Sharing es el quinto gran proyecto de código abierto lanzado por Databricks, después de Apache Spark, Delta Lake, MLflow para aprendizaje automático y Koalas, que implementa la interfaz del programa de aplicación pandas DataFrame sobre Spark. El proyecto está siendo donado a la Fundación Linux.
Además Databricks tambien destaco a «Unity Catalog« un catálogo de datos estandarizado y que es compatible con «Delta Sharing». Unity Catalog cuenta con una nueva interfaz que facilitará el descubrimiento y la gestión de todas las bases de datos de una empresa, con una vista completa de los datos en las nubes y los catálogos existentes, por supuesto en la plataforma Lakehouse de Databricks.
Unity Catalog ofrece un único modelo de seguridad, basado en ANSI SQL, para agilizar la implementación y estandarizar la gobernanza en las nubes. La herramienta también se puede integrar en catálogos de datos existentes de Alation, Collibra, Privacera e Immuta, para que el cliente respectivo pueda construir sobre el existente y establecer un modelo de gobernanza centralizado y a prueba de futuro sin altos costos de migración.
Finalmente si estás interesado en poder conocer más al respecto, puedes consultar los detalles en el siguiente enlace.