[HADOOP] MAPREDUCE o SPARKâ¦ nuestro dilema entonces.

La verdad es que cuando comenzamos a crear nuestro primer ETL con Hadoop, las primeras herramientas que analizamos trabajaban sobre MapReduce, y cuando dije que trabajaban, digo que no se podÃa utilizar otra herramienta [mÃ¡s adelante, se pudo cambiar, pero en aquel momento no]. Hive, Sqoop, etc.. todas ellas, trabajaban exclusivamente con MapReduce.

Obviamente MapReduce era un motor increÃble de computaciÃ³n, con varios aÃ±os en sistemas de producciÃ³n, y eso da estabilidad. Y a los arquitectos de sistemas, eso nos encantaâ¦ bueno, a los arquitectos de sistemas poco atrevidos.

En aquel momento, llegÃ³ a mis oÃdos una nueva herramienta, un motor de procesamiento que se suponÃa que era mucho mÃ¡s rÃ¡pido que MapReduce, un sistema que prometÃa tanto que obviamente creÃ³ un gran revuelo. Y todos los benchmark que leÃa, no hacÃan mÃ¡s que confirmarlo. Â¿Adivinas quÃ© es lo que hice?

Lo primero que hice fue instalarlo en mi sistema de pruebas. ConocÃa todos los requisitos, ya que habÃa leÃdo que, como el Google Chrome actual [el de 2019, por supuesto], consumÃa memoria que daba gusto [vamos un vampiro] y no me equivoquÃ©. El sistema de pruebas se quedÃ³ sin memoria en poco tiempo, con un dataset pequeÃ±o, mientras que el mismo dataset pudo ser computado sin problemas con MapReduce, en el mismo sistema.

AsÃ que indaguÃ© en la arquitectura de MapReduce y en la arquitectura de Spark, y entendÃ el porquÃ© uno era lento, pero confiable y llevaba mucho tiempo en producciÃ³n, y otro era muy rÃ¡pido.

MapReduce es un sistema que en cada iteraciÃ³n de computaciÃ³n almacena en disco duro el resultado, esto permite tener un sistema confiable y resistente a fallos.

Spark por el contrario almacena en cada iteraciÃ³n de computaciÃ³n el resultado en memoria en RDD, lo que permite tener un sistema de rÃ¡pido acceso a los resultados y una computaciÃ³n rapidÃsima, ya que se elimina el delay de acceso a disco duro.

Seguramente, ya has notado porque es mÃ¡s rÃ¡pido, no es por los algoritmos solamente, sino por el consumo de memoria. Esto realmente es increÃble para el procesamiento en tiempo real, y de hecho es para lo que lo utilizamos, pero, imagina que tienes un cluster solo con Spark, has de saber que toda la memoria va a ser consumida por Spark, como si no hubiera maÃ±ana. Y claro estÃ¡, la memoria es muchÃsima mÃ¡s costosa que el disco duro.

AsÃ pues, nosotros al utilizar una arquitectura Lambda en ese momento [no te preocupes, lo explicarÃ© en otra entrada], utilizamos Spark en la parte de procesamiento de tiempo real, pero seguÃamos utilizando MapReduce en la parte de procesamiento batch, ya que MapReduce es bastante estableâ¦ y porque Hive era el motor que utilizÃ¡bamos en la parte de batch.

Resumiendo, en mi experiencia, sÃ© que en 2019, no hay mucho que decir entre MapReduce y Spark, Spark es una herramienta muy utilizada en casi todos los pipeline de procesamiento, sobre todo por la arquitectura Kappa utilizada por las empresas, pero, tambiÃ©n he de decir, que llevo utilizando herramientas como Hive o Sqoop con MapReduce aÃ±os, y nunca he tenido problemas, en serio, ningÃºn tipo de problema, pero cuando he cambiado en Hive el motor, y he utilizado ORC, Spark u otra herramienta de procesamiento, he encontrado problemas que con MapReduce no he tenido.

Si quieres hacerme un comentario, no dudes en seguirme o hacerme un comentario referenciÃ¡ndome a Rafael Piernagorda

Â¿Te gustarÃa saber cÃ³mo podrÃa encajar Hadoop con tu proyecto?

Contacta con nosotros y te ayudaremos con tu proyecto de Hadoop

Contacta con nosotros

Â¿Te gustarÃ­a saber cÃ³mo podrÃ­a encajar Hadoop con tu proyecto?

Leave a Reply Cancel reply

Â¿Te gustarÃa saber cÃ³mo podrÃa encajar Hadoop con tu proyecto?