Entradas

Mostrando entradas de julio, 2024

Conectar Databricks a Azure Data Lake Storage (ADLS)

Imagen
En esta guía veremos cómo podemos conectarnos a Azure Data Lake Storage (ADLS) desde Databricks a través de un mount. De esta forma, la conexión a los containers se realizará de manera directa y podremos importar archivos directamente a nuestros notebooks de Databricks. A continuación, se muestran algunos de los contenedores presentes en mi cuenta de Almacenamiento Azure: Creación de Scope En primer lugar debemos de acceder al Almacén de Claves (Vault Keys), luego a “Configuracion”, “propiedadades”, y copiamos el valor de “URI de almacen” e “id. del recurso” Accedemos al home-page de azure databricks y añadimos “#/secrets/createScope”a la URL del navegador. En caso de que aparezca la palabra “onboarding” debemos de eliminarla. A continuación debemos darle nombre al scope y en “DNS Name” y “Resource ID” deberemos de pegar la información de “URI de almacén” e “id. del recurso” que copiamos en el paso anterior, donde “DNS Name” tendrá el valor de “URI de almacén” y “Resource ID” tendrá el...

Cluster de Spark Standalone + HDFS + Docker + PostgreSQL

Imagen
  Cluster Configuration La idea de este proyecto es crear un cluster de 3 dos nodos, donde usaremos lo siguiente: -Apache Spark como motor para distribuir la carga de trabajo entre los nodos -Apache Hadoop para utilizar el sistema de almacenamiento distribuido HDFS. -Docker para levantar la base de datos PostgreSQL. -DBeaver para consultas a la base de datos. Esta guía cubre TODO lo necesario para que puedas montar un cluster utilizando tantas máquinas como quieras. Yo utilizaré tres pero ,en caso de que utilices más, simplemente deberás de replicar los mismos pasos en todas tus máquinas adicionales. Para esta explicación se hará uso de las siguientes tres máquinas: Raspberrypi5 con 8gb de RAM Maquina Virtual Ubuntu con 4gb de RAM (creada con VirtualBox) Maquina física Ubuntu con 12gb de RAM El Indice del proyecto será el siguiente: 1. Habilitar comunicación entre las máquinas 1.1 Dirección IP 1.2 Conexión SSH 1.3. Conexión SSH sin contraseña 2. Instalar Java y Pytho...