ADN Cloud

Innovación en la sociedad digital

Categorías
New Call-to-action

¿Qué es Big Data y para qué sirve?

Tiempo de lectura: 11 minutos

Entendemos como Big Data las cantidades de datos a gran escala que sobrepasan la capacidad del software convencional para ser capturadas, procesadas y almacenadas en un tiempo razonable.

El concepto de Big Data también engloba las infraestructuras, tecnologías y servicios que han sido creados para poder gestionar esta gran cantidad de información.

Según IDC, la cantidad de datos almacenadas en el mundo se está duplicando cada dos añosLa explosión de datos a la cual estamos asistiendo es una consecuencia de la revolución digital y de la gran adopción por parte de los ciudadanos y de las empresas de herramientas y tecnologías como las redes sociales, los dispositivos móviles, la geolocalización, y los objetos y sensores conectados a la Red – el Internet de las Cosas.

Para que nos hagamos una idea, cada día utilizamos muchos dispositivos mediante los cuales se emite una cantidad ingente de información: cada vez que hacemos clic en una página web, pagamos con tarjeta de crédito, publicamos imágenes en las redes sociales, encendemos el GPS, etc. Todas estas (y muchas más) acciones producen datos masivos que deben ser tratados.

Estamos pues frente a una nueva revolución que introduce grandes oportunidades y, al mismo tiempo, importantes retos para nuestras empresas. En este artículos intentaremos arrojar luz sobre lo que es Big Data y para qué sirve.

¿Qué es y para qué sirve el Big Data?

En definitiva, cuando hablamos de Big Data no nos referimos únicamente a los datos, sino sobre todo a la capacidad de poderlos explotar para extraer información y conocimiento de valor para nuestro negocio. La finalidad del Big Data es poder diseñar nuevos productos y servicios basándose en los nuevos insights que adquirimos sobre nuestros clientes, sobre nuestra  competencia o el mercado en general.

Una vez recogida y almacenada la información, se deben extraer indicadores que puedan ser útiles para tomar decisiones, incluso en tiempo real.

 

Las cinco “Vs” del Big Data

La primera pregunta que nos viene a la mente al considerar el Big Data, está relacionada con cuánto de “grande” tienen que ser los datos para ser considerados “Big”. Finalmente, el enfoque correcto está en no establecer un tamaño en absoluto, sino relativo. Lo que ahora puede parecernos un gran tamaño de datos, en dos o tres años puede ser normal o hasta irrelevante. La mayoría de expertos definen el Big Data en términos de las cinco “Vs”:

  • Volumen: como hemos visto, la cantidad de datos se define “Big” no cuando supera un tamaño definido, sino cuando su almacenamiento, procesamiento y explotación empieza a ser un reto para una organización.
  • Velocidad: la segunda característica del Big Data está relacionada con el ritmo a los cuales los datos se están generando, que suele aumentar constantemente y que necesita una respuesta en tiempo real por parte de las empresas.
  • Variedad: sin embargo, el reto principal del Big Data reside en la gran diferencia de formatos distintos en los cuales encontramos los datos y que pueden ir desde texto sencillo, a imágenes, videos, hojas de cálculos y enteras bases de datos.
  • Veracidad: además, los datos tienen que ser confiables y han que ser mantenidos limpios. Una gran cantidad de datos no tiene valor si son incorrectos y puede ser altamente perjudicial, sobre todo en la toma de decisión automatizada.
  • Valor: finalmente, los datos y su análisis tienen que generar un beneficio para las empresas.

Tipos de Big Data

A la hora de clasificar los “grandes datos” podemos hacerlo según dos criterios: procedencia y estructura. Así, según su procedencia, los datos pueden llegar desde distintas fuentes, entre otras:

  • Web y Redes Sociales: información disponible en Internet como contenido Web, generada por los usuarios en su actividad en las redes sociales o información de búsquedas en buscadores.
  • Machine-to-Machine (M2M): datos generados a partir de la comunicación entre sensores inteligentes integrados en objetos de uso cotidiano.
  • Transacciones: incluye registros de facturación, llamadas o transacciones entre cuentas.
  • Biométricos: datos generados por tecnología de identificación de personas mediante reconocimiento facial, de huellas dactilares o mediante información genética.
  • Generados por personas: a través de correos electrónicos, servicios de mensajería o grabaciones de llamadas.
  • Generados por organizaciones tanto públicas como privadas: datos relacionados con el medioambiente, estadísticas gubernamentales sobre población y economía, historiales clínicos electrónicos, etc.

Por otro lado, según su estructura, los datos puede ser:

  • Estructurados: datos que tienen definidos su formato, tamaño y longitud, como las base de datos relacionales o Data Warehouse.
  • Semiestructurados: datos almacenados según una cierta estructura flexible y con metadatos definidos, como XML y HTML, JSON, y las hojas de cálculo (CSV, Excel).
  • No estructurados: datos sin formato específico, como ficheros de texto (Word, PDF, correos electrónicos) o contenido multimedia (audio, vídeo, o imágenes).

Para qué sirve el Big Data en las empresas

Una vez hayamos aceptado que los datos han venido para quedarse, la siguiente pregunta es sobre las ventajas que pueden representar para nuestra organización. En este sentido, un estudio llevado a cabo por Bain & Company demuestra de forma clara las ventajas competitivas que pueden obtener las empresas early adopter del Big Data. Estas empresas tienen:

  • Dos veces más probabilidades de obtener un rendimiento financiero superior que la media de sus industrias.
  • Cinco veces más probabilidades de tomar decisiones mucho más rápido que sus competidores.
  • Tres veces más probabilidades de ejecutar las decisiones según lo previsto.
  • El doble de probabilidades de tomar decisiones basadas en datos.

Big Data: ejemplos reales

Para entender para qué sirve el Big Data, veamos algunos ejemplos reales de su uso:

  1. Marketing: segmentación de clientes. Muchas empresas usan datos masivos para adaptar sus productos y servicios a las necesidades de sus clientes, optimizar operaciones e infraestructuras, y encontrar nuevos campos de negocio.
  2. Deportes: optimización del rendimiento. Dispositivos como los smart watches registran automáticamente datos como el consumo de calorías o los niveles de acondicionamiento físico.
  3. Salud pública: codificación de material genético. Por ejemplo, existen plataformas de análisis del Big Data que se dedican a descodificar cadenas de ADN para comprender mejor las enfermedades y encontrar nuevos tratamientos.
  4. Nuevas tecnologías: desarrollo de dispositivos autónomos. El análisis de datos masivos puede contribuir a mejorar máquinas y dispositivos, y hacerlos más autónomos. Un ejemplo son los coches inteligentes.
  5. Seguridad: detección y prevención de crímenes. Los cuerpos de seguridad usan el Big Data para localizar a criminales o prevenir actividades delictivas como los ataques cibernéticos.

que es big data y para que sirve

Big Data: herramientas y soluciones

Big Data necesita nuevas herramientas y tecnologías que puedan abarcar la complejidad de datos no estructurados y en continua expansión. Para ello, las tecnologías tradicionales de base de datos relacionales o RDBMS, no son adecuadas. Además, se necesitan aplicaciones avanzadas de análisis y visualización, para poder extraer todo el potencial de los datos y explotarlo para nuestros objetivos de negocio. Veamos a continuación algunas de las principales herramientas:

  • Hadoop: es una herramienta de código abierto que nos permite tanto gestionar los grandes volúmenes de datos, como analizarlos y procesarlos. Hadoop implementa MapReduce, un modelo de programación que da soporte a la computación paralela sobre grandes colecciones de datos.
  • NoSQL: se trata de sistemas que no utilizan SQL como lenguaje de consultas, lo que, a pesar de no poder garantizar la integridad de los datos (principios ACID: atomicidad, consistencia, integridad y durabilidad), les permite obtener ganancias significativas en escalabilidad y rendimiento a la hora de trabajar con Big Data. Una de las bases de datos NoSQL más populares es MongoDB.
  • Spark: es un framework de computación en clúster de código abierto que permite procesar los datos de forma rápida. Permite escribir aplicaciones en Java, Scala, Python, R y SQL y funciona tanto sobre Hadoop, Apache Mesos, Kubernetes, como de forma independiente o en la nube. Puede acceder a centenares de fuentes de datos.
  • Storm: es un sistema de computación en tiempo real distribuido de código libre. Storm permite procesar flujos ilimitados de datos en tiempo real de manera sencilla, pudiendo usarse con cualquier lenguaje de programación.
  • Hive: es una infraestructura de Data Warehouse construida sobre Hadoop. Facilita la lectura, escritura y administración de grandes conjuntos de datos que residen en almacenamiento distribuido mediante SQL.
  • R: es uno de los lenguajes de programación más utilizados en análisis estadísticos y en minería de datos . Puede integrarse con distintas bases de datos y permite generar gráficos con alta calidad.
  • D3.js: es una biblioteca de JavaScript para producir visualizaciones dinámicas e interactivas de datos en navegadores web, usando HTML, SVG y CSS.

4 pasos clave para subirse al Big Data

Para poder comenzar a disfrutar de los beneficios de Big Data, cualquier organización necesita disponer de cuatros activos clave:

  • En primer lugar, los datos. En un entorno donde los datos están explosionando, su disponibilidad no parece ser el problema. Lo que debería preocuparnos es más bien ser capaces de mantener su calidad, y saber manejarlos y explotarlos de forma correcta.
  • Para ello, se necesitan las herramientas analíticas adecuadas, lo que tampoco representa una barrera para las empresas al día de hoy, debido a la gran disponibilidad en el mercado de herramientas y plataformas tanto propietarias como de código abierto.
  • Lo que nos lleva de lleno al tercer activo fundamental, que es el factor humano. Disponer en nuestra organización de los profesionales adecuados, como científicos de datos, pero también de expertos en las implicaciones legales de la gestión de los datos y de su privacidad, se perfila como el desafío más importante.
  • Sin embargo, dotarse de estos tres activos y ponerlos a trabajar tampoco nos asegurará el éxito con el Big Data. Para ser verdaderas empresas data driven, necesitaremos llevar a cabo una transformación radical de nuestros procesos y cultura empresarial, para hacer que los datos estén verdaderamente al centro de nuestra compañía, y conseguir que todos los departamentos, desde TI hasta la alta dirección, asuman este nuevo enfoque.

Los retos del Big Data

Hoy en día ninguna empresa puede ignorar Big Data y las implicaciones que tiene sobre su negocio. Sin embargo, se trata de un concepto relativamente nuevo y en continua evolución, y no son pocos los retos a los cuales se enfrentan las organizaciones a la hora de relacionarse con los grandes datos. Entre ellos:

  • La tecnología: las herramientas Big Data cono Hadoop no son tan fáciles de administrar y requieren profesionales de datos especializados además de importantes recursos para el mantenimiento.
  • La escalabilidad: un proyecto de Big Data puede crecer con grande velocidad, por lo cual una empresa tiene que tenerlo en cuenta a la hora de asignar los recursos para que el proyecto no sufra interrupciones y el análisis sea continuo.
  • El talento: los perfiles necesarios para el Big Data escasean y las empresas se encuentran frente al reto de encontrar a los profesionales adecuados y, al mismo tiempo, de formar a sus empleados sobre este nuevo paradigma.
  • Los actionable insights: frente a la cantidad de datos, el reto para una empresas es identificar objetivos de negocio claros y analizar los datos apropiados para alcanzarlos.
  • La calidad de datos: como hemos visto anteriormente es necesario mantener a los datos limpios para que la toma de decisión se base en datos de calidad.
  • Los costes: los datos seguirán creciendo, por lo cual es importante dimensionar correctamente los costes de un proyecto de Big Data, teniendo en cuenta tanto las instalaciones y personal propio como la contratación de proveedores.
  • La seguridad: finalmente, es necesario mantener seguro el acceso a los datos, lo que se consigue con autenticación de usuarios, restricciones de acceso, cifrado de datos en transito o almacenados y cumpliendo las principales normativas de protección de datos.

Hemos visto los grandes beneficios del Big Data para las empresas, así como los principales retos de su implementación. Aquellas organizaciones que sepan tener en cuenta de estos factores podrán poner en marcha proyectos de Big Data exitosos y obtendrán una ventaja competitiva significativa a la hora de crear nuevos productos y servicios.

¿Estas listo para enfrentarte al reto de Big Data?

Material relacionado

Artículos

eBooks

New Call-to-action

Entradas relacionadas

Deja un comentario

No hay comentarios

Todavía no hay ningún comentario en esta entrada.