[Hadoop] Instalar HDP en un cluster sin conexiÃ³n

[Hadoop] Instalar HDP en un cluster sin conexiÃ³n

Hadoop… sÃ, ya sÃ© lo que seguramente estas pensando: âÂ¿porque instalar Hadoop en un cluster, si tenemos la posibilidad de utilizar la nube de Amazon?, todos los problemas con el mantenimiento, todos los problemas con la integraciÃ³n de las herramientasâ. Uff, realmente yo pensarÃa lo mismo, Hadoop es un pantano en el que muy pocos les gusta meterse… y si te digo la verdad, si pudiera volver atrÃ¡s… pues mira, volverÃa encantado.

Obviamente, no hay nada mejor que luchar en las trincheras para entender cÃ³mo funcionan todos los sistema, leerte la arquitectura, darte leches y leches con los que otros han creado, leerte el cÃ³digo [o no], ver esquemas de arquitecturas [y comprobar que despuÃ©s no es lo que hay en el cÃ³digo (aquÃ puedo decir lo que un compaÃ±ero de la vieja escuela me dijo una vez: Da igual las palabras, los diagramas y los esquemas, lo Ãºnico que es real es el cÃ³digo fuente)], eso es realmente lo que te hace crecer como programador, arquitecto, y tÃ©cnico realmente.

En fin, me voy por las ramas.

Instalar Hadoop es una tarea Ã¡rdua, aunque Hortonworks [en otro post explicarÃ© porquÃ© elegimos Hortonworks y no Cloudera que estaba de moda en aquel momento, os puedo adelantar que el seÃ±or $ estuvo cerca] nos indicara en aquel momento que era tan fÃ¡cil como âplay and goâ… ilusos [o ilusos nosotros]. Todo esto comenzÃ³ cuando un cliente querÃa integrar un sistema de datos, y que desarrollaramos un ETL que permitiera integrar todas las partes de su sistema de recolecciÃ³n de datos, con grandes volÃºmenes y querÃa procesamientos de estos en tiempo real. Genial, dijimos, podemos utilizar AWS y asÃâ¦ âah, y los servidores donde se van a instalar no queremos que tengan internet, todo ha de quedar en casaâ…

AsÃ que imagina lo que pensamos, pues nada instalamos Hadoop y arreando. Pero no acaba ahÃ la cosa: âah, y esos servidores jamÃ¡s podrÃ¡n tener acceso afuera, asÃ que nos dÃ¡is un instalable y lo instalamosâ

Ante esta situaciÃ³n, barajamos tres situaciones.

1.Desarrollar un sistema con scripts de python, scala y node para integrar todo.

2. Instalar Hadoop en servidores sin conexiÃ³n a internet.

3. Salir corriendo por la puerta y bajarnos a tomarnos una cerveza en algÃºn bar de MÃ¡laga.

Evaluando ambos sistemas lo vimos rÃ¡pido. La tercera opciÃ³n. XD

Ahora no, en serio, aunque la tercera opciÃ³n fue la que elegimos en primer lugar, al final decidimos que instalar Hadoop en los servidores era lo mejor.

AsÃ que buscamos por internet y encontramos esto: [Automated install with Ambari]. AsÃ que podrÃamos instalar HDP dentro de un cluster con servers que estÃ©n en una zona militarizada. Mola.

AsÃ que listamos una serie de pasos que fuimos haciendo.

Paso 1. Obtener los repositorios

Nosotros utilizamos Ubuntu 14, para ello, tuvimos que descargarnos el tarball de ambari, y tambiÃ©n el HDP-utils.

Paso 2. Preparar un repositorio local en la mÃ¡quina

En este paso, os dejo todos los pasos que dimos para instalar el repositorio en la mÃ¡quina.

Seleccionar un servidor [mirror server] que tenga el sistema operativo del que hemos descargado el repo.
Nos aseguramos que todos los servidores pueden conectarse con ese servidor que serÃ¡ el mirror server.
Hay que instalar el apache o algÃºn http server.
Asegurarse que el mirror server tiene el apt-get manager instalado.
Crear un HTTP server [asegÃºrate que no hay ningÃºn tipo de firewall activado en el mirror server.
Ejecutar: mkdir -p /var/www/html
Copiar todos los tarballs en el directorio del servidor web.
Ejecutar: cd /var/www/html
Untar los tarballs.
DeberÃ¡n de estar de la siguiente forma [es un ejemplo]:
1. /var/www/html/Ambari-2.5.2.0/ubuntu16
2. /var/www/html/HDP/HDP/ubuntu16/2.x/updates/2.6.2.14
3. /var/www/html/HDP/HDP-UTILS-1.1.0.21/repos/ubuntu16
AsegÃºrate que puedes entrar en estos directorios.

URLs for a Local Repository – No Internet Access

Repository	Base URL
Ambari Base URL	http://<web.server>/ambari-2.5.2.0/<OS>
HDP Base URL	http://<web.server>/hdp/HDP/<OS>/2.x/updates/<latest.version>
HDP-UTILS Base URL	http://<web.server>/hdp/HDP-UTILS-<version>/repos/<OS>

Descargarse el ambari.repo [en el caso de ubuntu es ambari.list] desde el respositorio pÃºblico:

http://public-repo-1.hortonworks.com/ambari/ubuntu16/2.x/updates/2.5.2.0/ambari.list

http://public-repo-1.hortonworks.com/HDP/ubuntu16/2.x/updates/2.6.2.14/hdp.list

Editar el ambari.list y el hdp.list,

Ambari.list:
#VERSION_NUMBER=2.5.2.0-298
deb http://localhost/Ambari-2.5.2.0/ubuntu16/ Ambari main
hdp.list

#VERSION_NUMBER=2.6.2.14-5
#deb http://localhost/HDP/HDP/ubuntu16/2.x/updates/2.6.2.14 HDP main
deb http://localhost/HDP/HDP/ubuntu16/ HDP main
deb http://localhost/HDP/HDP-UTILS-1.1.0.21/repos/ubuntu16/dists HDP-UTILS main

Pon el repo en la mÃ¡quina que va a utilizar el Ambari Server en este lugar: “/etc/apt/sources.list.d/ambari.list” “/etc/apt/sources.list.d/hdp.list”

El /etc/apt/sources.list se pasa a /etc/apt/old.source.list
Para actualizar la base de datos, hay que hacer apt-get update.
Creo que haciendo: add-apt-repository ppa:localhost y apt-get update
wget http://public-repo-1.hortonworks.com/ARTIFACTS/jdk-8u112-linux-x64.tar.gz a /var/lib/ambari-server/resources/jdk-8u112-linux-x64.tar.gz
wget http://public-repo-1.hortonworks.com/ARTIFACTS/jce_policy-8.zip a /var/lib/ambari-server/resources/jce_policy-8.zip
apt-get install ambari-server
ambari-server setup
ambari-server start
En un navegador ir a http://127.0.0.1:8080
admin/admin
Click en Ambari Cluster Install Wizard.
Seleccionar HDP 2.5.2
Seleccionar Local Repository, quitar todas las versiones excepto Ubuntu16 y HDP 2.5
Copiar ambari.list base url e insertarlo en la web.
Copiar hdp.list base url e insertarlo en la web [hdp-utils]
Crear un enlace simbÃ³lico a HDP:

ln -s /var/www/html/HDP/HDP/ubuntu16/dists/HDP HDP

Copiar en los target hosts con el hostname
Crear una llave pÃºblica: ssh-keygen -t rsa
AsegÃºrate que ssh estÃ¡ instalado: “service status ssh” “apt-get -s install openssh-server”

Y ya estÃ¡. Sencillo, solamente son dos pasos, uno con una sola tarea y otra con 33 pero en fin, es lo que hay. Para mÃ¡s documentaciÃ³n, consulta la web de Hortonwork: https://docs.cloudera.com/HDPDocuments/Ambari-2.2.0.0/bk_Installing_HDP_AMB/content/_using_a_local_repository.html para instalar el HDP desde un repositorio local.

ESCRITO POR:

Rafael Piernagorda

Founder on DigitalDrimz, Hadoop Software Expert

SÃgueme en Twitter

Â¿Te gustarÃa saber cÃ³mo podrÃa encajar Hadoop con tu proyecto?

Contacta con nosotros y te ayudaremos con tu proyecto de Hadoop

Contacta con nosotros