ADN Cloud

Innovación en la sociedad digital

Categorías
New Call-to-action

Del dato a los insights: ¿dónde queda Hadoop spark?

hadoop spark
Tiempo de lectura: 3 minutos

Hadoop Spark es una tecnología innovadora de Big Data con un gran potencial y, por eso, no debería ignorarse si se busca un procesamiento moderno de grandes conjuntos de datos.

Los data scientist se decantan por esta tecnología, como confirman datos de la Spark Survey en 2015, donde el 64 por ciento de los encuestados usaron Spark para análisis avanzados y 44 por ciento crearon sistemas de recomendación. Claramente, estos son usuarios sofisticados. De hecho, el 41 por ciento de los encuestados se identificaron a sí mismos como ingenieros de datos, mientras que el 22 por ciento lo hicieron como científicos de datos.

Y es que Hadoop Spark está diseñado para data science y su abstracción facilita la innovación y el desarrollo que esta ciencia impulsa en las empresas.

Hadoop Spark

Hadoop Spark podría definirse como un motor de computación en clúster en memoria de código abierto para el procesamiento de datos a gran escala. Al mantener los datos en la memoria, Spark permite a los usuarios realizar consultas repetidas rápidamente. Por lo tanto, es particularmente apropiado para algoritmos iterativos como el aprendizaje automático.

Uno de los atributos que definen a Hadoop Spark es que supera las limitaciones de MapReduce permitiendo utilizar memoria compartida en el conjunto de trabajo que ofrece para sistemas distribuidos. Esto hace posible procesar los datos de forma independiente de los equipos locales e incluso crear modelos cuando el conjunto de datos de entrada es mayor que la cantidad de memoria que tiene el equipo que se está utilizando.

Pero no es el único beneficio, las ventajas que caracterizan a Hadoop Spark son las siguientes:

Además, Hadoop Spark proporciona una biblioteca general de aprendizaje automático (MLlib) diseñada para simplificar, ampliar y facilitar la integración con otras herramientas. De esta forma, los científicos de datos pueden resolver sus problemas de datos más rápidamente, uno de los motivos por los que la adopción de MLlib está creciendo rápidamente, algo que puede constatarse por la creciente diversidad de casos de uso y la gran cantidad de contribuciones de los desarrolladores.

Spark MLlib es una biblioteca de propósito general que proporciona algoritmos para la mayoría de necesidades de data science que pueden ser ampliados por la comunidad para casos de uso especializado. Las ventajas del diseño de MLlib incluyen:

  • Sencillez
  • Compatibilidad
  • Optimizado de extremo a extremo
  • Escalabilidad

Hadoop Spark está asociado a muchos beneficios, como el de disponer de una biblioteca estándar de algoritmos que pueden mezclarse y combinarse de formas muy diferentes, con la certeza de que estarán al alcance del negocio para garantizar un buen rendimiento; pero, quizás, el más importante es impulsar la innovación mediante la extracción de información valiosa de los datos en reposo, así como los datos en movimiento.

Esta capacidad es el punto de partida para explotar la combinación de machine learning y cloud computing y demuestra que, entre el dato en crudo y los insights que marcan la diferencia en términos de ROI, no puede faltar la chispa.

¿Trabaja tu empresa con Hadoop Spark?

 

Créditos fotográficos: spainter_vfx

New Call-to-action

Entradas relacionadas

Deja un comentario

No hay comentarios

Todavía no hay ningún comentario en esta entrada.