Linux Adictos David Naranjo  

4 plataformas de código abierto para Big data

Big Data es un término utilizado para describir la recopilación de datos de gran tamaño y que crece exponencialmente con el tiempo.

Los datos son tan grandes y complejos que ninguna de las herramientas tradicionales de administración de datos puede almacenarlos o procesarlo de manera eficiente.

Pero debemos de entender que todos los datos que se pueden almacenar, acceder y procesar en forma de formato fijo se denominan datos ‘estructurados’.

Que son manejados a grandes escalas, en lo cual se deben de implementar soluciones que sean capaces de manejar, almacenar y analizar grandes cantidades de datos en poco tiempo

Al observar cifras que se manejan a gran escala, uno puede entender fácilmente por qué se da el nombre ‘Big Data’ e imaginar los desafíos que conlleva su almacenamiento y procesamiento.

Es por ello que el día de hoy vamos a conocer algunas herramientas populares de código abierto que se pueden usar para crear una plataforma de análisis de datos.

Apache Hadoop

Apache Hadoop es una plataforma de software de código abierto que procesa conjuntos de datos muy grandes en un entorno distribuido.

Esta herramienta se basa en respecto al almacenamiento, la potencia computacional y principalmente en hardware básico de bajo costo.

Apache Hadoop está diseñado para escalar fácilmente de unos pocos a miles de servidores.

Le ayuda a procesar los datos almacenados localmente en una configuración general de procesamiento en paralelo.

Uno de los beneficios de Hadoop es que maneja la falla a nivel de software.  Apache Hadoop proporciona un marco para la capa del sistema de archivos, la capa de administración del clúster y la capa de procesamiento.

Deja una opción para que otros proyectos y marcos entren y trabajen junto con Hadoop Ecosystem y desarrollen su propio marco para cualquiera de las capas disponibles en el sistema.

Elasticsearch

Elasticsearch es un motor de búsqueda y análisis basado en texto completo. Es un sistema altamente escalable y distribuido, diseñado específicamente para trabajar de manera eficiente y rápida con los sistemas de big data, donde uno de sus principales casos de uso es el análisis de registros.

Es capaz de realizar búsquedas avanzadas y complejas, y procesamiento casi en tiempo real para análisis avanzado e inteligencia operacional.

Elasticsearch está escrito en Java y está basado en Apache Lucene, Elasticsearch se basa en un documento JSON con una estructura libre de esquemas, lo que facilita y facilita la adopción.

Es uno de los principales motores de búsqueda de grado empresarial. Puede escribir su cliente en cualquier lenguaje de programación; Elasticsearch oficialmente funciona con Java, .NET, PHP, Python, Perl, etc.

MongoDB

MongoDB es una base de datos NoSQL basada en el modelo de datos de documentos. En MongoDB todo es una colección o documento.

Para comprender la terminología de MongoDB, la colección es una palabra alternativa para table, mientras que document es una palabra alternativa para filas.

MongoDB es una base de datos de código abierto, orientada a documentos y multiplataforma. Está escrito principalmente en C ++.

También es la base de datos NoSQL líder que ofrece alto rendimiento, alta disponibilidad y escalabilidad fácil.

MongoDB utiliza documentos similares a JSON con esquema y proporciona una gran compatibilidad con consultas. Algunas de sus funciones principales incluyen indexación, replicación, equilibrio de carga, agregación y almacenamiento de archivos.

Cassandra

Cassandra es un proyecto Apache de código abierto diseñado para la administración de bases de datos NoSQL.

Las filas de Cassandra están organizadas en tablas e indexadas por una clave. Utiliza un motor de almacenamiento basado en registros y de solo anexión.

Los datos en Cassandra se distribuyen a través de múltiples nodos maestros, sin un solo punto de falla. Es un proyecto de Apache de alto nivel, y su desarrollo actualmente es supervisado por la Apache Software Foundation (ASF).

Cassandra está diseñado para resolver problemas asociados con el funcionamiento en una escala grande (web).

Dada la arquitectura maestra de Cassandra, puede continuar realizando operaciones a pesar de un pequeño (aunque significativo) número de fallas de hardware. Cassandra se ejecuta en múltiples nodos en múltiples centros de datos.

Replica datos en estos centros de datos para evitar fallas o tiempos de inactividad. Esto lo convierte en un sistema altamente tolerante a fallas.

El artículo 4 plataformas de código abierto para Big data ha sido originalmente publicado en Linux Adictos.

Leave A Comment

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.