Data Accelerator, la nueva contribución de Microsoft al open source
Durante todo el año pasado Microsoft ha estado de manera continua abriendo y creando proyectos open source con lo cual ha comenzado a dejar de lado esa gran rivalidad al mundo del código abierto (o al menos eso parece).
Y no es por menospreciar su actividad pero a diferencia de la década pasada donde tenia una guerra declarada a open source, las cosas han cambiado al menos durante los últimos años. Ya que en estos últimos días Microsoft dio a conocer a la comunidad que ha tomado la decisión de abrir al publico un proyecto de procesamiento de datos a gran escala, Data Accelerator, que originalmente se usó internamente.
Desde su desarrollo en 2017, el proyecto se ha aplicado en gran escala a varios canales de trabajo de productos de Microsoft.
Sobre Data Accelerator
Data Accelerator comenzó en 2017 como un proyecto de procesamiento de datos a gran escala en la División de Desarrolladores de Microsoft que finalmente llegó a Apache Spark por razones de escala y velocidad.
Data Accelerator es más que un simple conducto entre EventHub y la base de datos.
Permite a los usuarios cambiar la forma de los eventos entrantes mientras continúan transmitiendo, y luego en rutar diferentes partes del mismo evento a diferentes almacenes de datos a la vez que proporciona monitoreo de estado y alertas para todo el estado de la canalización.
Data Accelerator también proporciona una interfaz de usuario de configuración y una experiencia de diseño de reglas / consultas que permite a los usuarios ponerse en marcha sin tener que escribir ningún código.
Además, cualquier persona que realice el procesamiento de datos de transmisión por lo general necesita usar una ventana deslizante para procesar los datos,o para procesar la demora para llegar a los datos, o para acumular datos a lo largo del tiempo.
Funciones
Data Accelerator admite y simplifica el uso de estas funciones avanzadas.
De acuerdo con el blog oficial de código abierto de Microsoft, algunos métodos de Data Accelerator facilitan la creación de flujos de transmisión en Apache Spark:
Plug and Play: permite poder configurar fácilmente las fuentes de entrada y los receptores de salida para crear tuberías en minutos.
Data Accelerator admite la obtención de datos de Eventhub y IoThub y admite la descarga de datos en blobs de Azure, CosmosDB, Eventhub y más.
No-Code Experience: admite la posibilidad de configurar alertas y procesamiento de datos sin escribir ningún código.
Con la experiencia de Rule Designer, puede especificar el procesamiento, marcado y alertas de datos simples y agregados.
Consultas de SQL: permite la escritura del procesamiento complejo en SQL, no es necesario trabajar en Scala.
El modelo de extensibilidad incorporado también admite funciones definidas por el usuario y aprovecha la funcionalidad de Azure, por ejemplo, para la transmisión en ML.
Consultas en tiempo real: ahorra la configuración y el tiempo de procesamiento de la tubería de prueba ejecutándose contra muestras de datos entrantes y validando sus consultas en segundos.
Finalmente, Microsoft mencionó que el acelerador de datos admite un ciclo de verificación rápido para los bucles de prueba de desarrollo, donde las consultas para eventos locales muestreados pueden corregirse iterativamente para que estén disponibles antes de la implementación, lo que puede ahorrar mucho tiempo para el procesamiento del flujo de trabajo de prueba.
Data Accelerator es utilizado a diario por la División de Desarrolladores de Microsoft y continuará realizando mejoras en la cadena de herramientas a lo largo del tiempo, pero reconocemos que el conjunto de herramientas podría hacer muchas más cosas según la necesidad.
Data Accelerator brinda la posibilidad a toda aquella persona que desee el poder habilitar y simplifica el uso de estas características avanzadas.
Esperamos que al abrir este proyecto, algunos de ustedes encuentren aún más útil el acelerador de datos.
Si desean poder obtener más información sobre el código de Data Accelerator, pueden visitar el anuncio en el blog de código abierto de Microsoft.
El artículo Data Accelerator, la nueva contribución de Microsoft al open source ha sido originalmente publicado en Linux Adictos.