Que es una big data y cuales son sus herramientas de trabajo

¿Qué es el Big Data y para qué sirve? El Big Data consiste en un proceso que analiza e interpreta grandes volúmenes de datos, tanto estructurados como no estructurados.

El Big Data sirve para que los datos almacenados de forma remota puedan ser utilizados por las empresas como base para su toma de decisiones.

La información extraída ayuda, por ejemplo, a mejorar estrategias y procesos, a incrementar el poder competitivo de la empresa y a comprender mejor a los consumidores, entre muchas otras aplicaciones

¿Cómo funciona el Big Data?

El Big Data funciona en base a las llamadas “5 Vs”: volumen, variedad, velocidad, veracidad y valor.

Volumen

El volumen se refiere a la cantidad de datos que genera una empresa cada segundo. Estos pueden provenir de diversas fuentes virtuales, como redes sociales, correos electrónicos, dispositivos electrónicos, etc.

Variedad

Según esta explicación sobre qué es el Big Data y para qué sirve, la variedad concierne a todos los lugares donde los datos pueden ser almacenados y extraídos.

Veracidad

Entre los miles de datos que se generan todos los días, muchos pueden llegar a ser falsos por lo que es preciso excluirlos del análisis.

Cuando comprendes qué es el Big Data y para qué sirve, te das cuenta de que este proceso ayuda a "filtrar" lo que es real de lo que no lo es.

Uno de los principios para esta parte del proceso es que, si son varias las fuentes que apuntan a una determinada información, entonces se entiende que esa es verdadera.

Valor

El objetivo de tener acceso a tanta información es hacer que, de alguna manera, agregue valor a tu empresa.

El Big Data tiene precisamente este propósito: hacer un análisis preciso de todos esos datos y generar insights valiosos para los gestores que los utilizarán.

Herramientas para el uso de big data :

HADOOP

Hadoop es una estructura de software de código abierto para almacenar datos y ejecutar aplicaciones en clústeres de hardware comercial. Proporciona almacenamiento masivo para cualquier tipo de datos, enorme poder de procesamiento y la capacidad de procesar tareas o trabajos concurrentes virtualmente ilimitados.

APACHE CASSANDRA

Apache Cassandra es un sistema de gestión de bases de datos (DBMS) de código abierto para bases de datos muy grandes, pero estructuradas. Gracias a la buena escalabilidad, estas bases de datos se pueden distribuir a diferentes clústeres, por lo que Cassandra no se encuentra unida a un único servidor.

MONGODB.

MongoDB (del inglés humongous, "enorme") es un sistema de base de datos NoSQL orientado a documentos de código abierto y escrito en C++, que en lugar de guardar los datos en tablas lo hace en estructuras de datos BSON (similar a JSON) con un esquema dinámico. Al ser un proyecto de código abierto, sus binarios están disponibles para los sistemas operativos Windows, GNU/Linux, OS X y Solaris y es usado en múltiples proyectos o implementaciones en empresas como MTV Network, Craigslist, BCI o Foursquare.

virtual box

VirtualBox es un software para virtualización, tambien conocido como hipervisor de tipo 2, que se utilizar para virtualizar sistemas operativos dentro de nuestro ordenador existente, creando lo que se conoce como máquina virtual. Un hipervisor de tipo 2 se diferencia con los de tipo 1 en que necesita un sistema operativo para funcionar, a diferencia de los de tipo 1 en los que el propio hipervisor funciona sobre el hardware, o máquina host.

Existen varios factores a tener en cuenta cuando necesitamos hacer uso de un hipervisor, pero generalmente VirtualBox, y los hipervisores de tipo 2 en general, se usan cuando no necesitamos destinar la máquina host al completo para realizar tareas de virtualización, por ejemplo, a la hora de probar software o simplemente confeccionar algunas de las guías que podemos encontrar aquí en Geeknetic, efectivamente aislando el sistema operativo host del sistema operativo invitado.

Write a comment ...