0. Resumen
1. Introducción a Apache Hadoop
2. Almacenamiento y procesamiento en Hadoop
3. Ecosistema Hadoop
4. Administración y monitorización de sistemas
5. Aplicación práctica de tecnologías Big Data
Tarjetas
| Pregunta | Respuesta |
| ¿Cuál es la definición principal de Apache Hadoop? | Es una plataforma de código abierto que permite almacenar y procesar grandes volúmenes de datos de forma distribuida y escalable. |
| ¿En qué dos publicaciones de Google se inspiró inicialmente el desarrollo de Hadoop? | Google File System y MapReduce. |
| Menciona los dos componentes fundamentales del ‘core’ de Hadoop. | HDFS y YARN. |
| ¿Qué es HDFS dentro del ecosistema de Hadoop? | Es la capa de almacenamiento distribuido basada en espacios de nombres. |
| ¿Cuál es la función principal de YARN en un clúster de Hadoop? | Gestionar los recursos y los procesos que se ejecutan en el clúster. |
| ¿Qué paradigma utiliza Hadoop para mejorar la eficiencia del procesamiento? | El acercamiento del procesamiento a los datos. |
| ¿A qué se refiere el término ‘hardware commodity’ en el contexto de Hadoop? | Al uso de servidores estándar o convencionales en lugar de equipos especializados y costosos. |
| ¿Cómo se denomina al conjunto de servidores que trabajan coordinados para implementar las funcionalidades de Hadoop? | Clúster |
| ¿Qué función cumplen los ‘nodos worker’ en un clúster? | Realizar las tareas de almacenamiento y ejecución de trabajos. |
| ¿Cuál es la responsabilidad de los ‘nodos master’? | Controlar la ejecución de trabajos, el almacenamiento de datos y vigilar el estado de los nodos worker. |
| ¿Qué papel desempeñan los ‘nodos edge’ o frontera? | Actuar como puente entre el clúster y la red exterior, proporcionando interfaces y APIs. |
| ¿Por qué los nodos master suelen usar configuraciones de disco en RAID? | Para garantizar la redundancia de datos críticos del clúster y aumentar la resistencia a fallos. |
| En los nodos worker, ¿qué significa la configuración de discos JBOD? | Que cada disco es independiente y suma su capacidad a la general del nodo sin replicación a nivel de hardware. |
| ¿Qué ventaja ofrece una distribución comercial de Hadoop frente a la versión puramente opensource? | Incluye un instalador simplificado, resolución de dependencias y soporte empresarial 24×7. |
| ¿Qué nombre recibe el efecto de dependencia hacia un proveedor cloud en Hadoop-as-a-Service? | Vendor lock-in |
| ¿Cuál es el tamaño por defecto de los bloques de datos en HDFS? | 128 megabytes |
| ¿Qué característica de HDFS garantiza que no se pierdan datos ante el fallo de un nodo? | La replicación de bloques (habitualmente por un factor de 3). |
| ¿A qué se refiere la orientación ‘write-once, read-many’ de HDFS? | A que los archivos se escriben una vez y no se modifican, aunque se pueden leer múltiples veces. |
| ¿Qué componente de HDFS es el encargado de almacenar los metadatos y actuar como maestro? | Namenode |
| ¿Cuál es la función del Secondary Namenode en HDFS? | Facilitar el proceso de arranque del Namenode almacenando instantáneas del estado del sistema de ficheros. |
| ¿Qué componente de HDFS almacena físicamente los bloques de los archivos? | Datanode |
| ¿Qué sucede en HDFS si un Datanode falla? | El sistema sigue funcionando correctamente y los datos se recuperan de las réplicas en otros nodos. |
| Comando de HDFS: `mkdir` | Se utiliza para crear directorios dentro del sistema de archivos distribuido. |
| Comando de HDFS: `put` o `copyFromLocal` | Copia archivos desde el sistema de archivos local hacia HDFS. |
| Comando de HDFS: `get` o `copyToLocal` | Copia archivos desde HDFS hacia el sistema de archivos local. |
| ¿Para qué sirve el comando `setrep` en HDFS? | Para modificar manualmente el factor de replicación de un fichero o directorio específico. |
| ¿Cuál es el protocolo utilizado por la API REST de HDFS para acceder desde distintos lenguajes? | WebHDFS |
| En YARN, ¿qué es un ‘contenedor’? | Es la unidad mínima de recursos (CPU y memoria) asignada para ejecutar una tarea. |
| ¿Qué componente de YARN es el responsable de coordinar la ejecución de trabajos a nivel global del clúster? | ResourceManager |
| ¿Cómo detecta YARN el fallo de un nodo durante la ejecución de una tarea? | Mediante la monitorización continua, lo que le permite relanzar la tarea fallida en otro nodo activo. |
| Menciona las cinco etapas de un trabajo en MapReduce. | Envío, Map, Shuffle, Order y Reduce. |
| ¿Qué fases de MapReduce suele programar el desarrollador manualmente? | Las fases de Map y Reduce. |
| Concepto: Apache Hive | Herramienta que permite acceder a datos en HDFS mediante un lenguaje similar a SQL llamado HQL. |
| Concepto: Apache Spark | Motor de procesamiento masivo de datos en paralelo que se ha convertido en el estándar de facto para Big Data. |
| ¿Qué es un RDD en el contexto de Apache Spark? | Es la principal abstracción de datos para el procesamiento distribuido. |
| Concepto: Apache HBase | Base de datos NoSQL de tipo columnar que permite el acceso aleatorio y atómico a los datos sobre HDFS. |
| ¿Cuál es la función de Apache Sqoop? | Transferir datos de forma eficiente entre Hadoop y bases de datos relacionales. |
| ¿Qué herramienta se utiliza para la ingesta de streams de datos o ‘logs’ en tiempo real? | Apache Flume |
| ¿Cuál es el propósito de Apache Oozie? | Orquestar y planificar flujos de trabajo (workflows) dentro del clúster de Hadoop. |
| Concepto: Apache Ambari | Herramienta para el aprovisionamiento, gestión y monitorización de clústeres Hadoop mediante una interfaz visual. |
| ¿Qué diferencia a Apache Impala de Apache Hive? | Impala está implementada en un lenguaje de más bajo nivel y ofrece un rendimiento superior para consultas SQL. |
| ¿Qué rol se encarga de realizar la ingesta de datos en crudo y procesarlos para su análisis posterior? | Ingeniero de datos (Data Engineer) |
| ¿Qué rol utiliza técnicas de Inteligencia Artificial para crear modelos predictivos? | Científico de datos (Data Scientist) |
| ¿En qué directorio suelen encontrarse los ficheros de configuración de Hadoop? | `/etc/conf` |
| ¿Qué propiedad del fichero `core-site.xml` indica el ‘endpoint’ de HDFS para los clientes? | `fs.defaultFS` |
| ¿Para qué sirve el parámetro `dfs.datanode.data.dir` en el fichero `hdfs-site.xml`? | Indica el directorio local en el nodo worker donde se almacenan físicamente los bloques de HDFS. |
| ¿Cuáles son los tres posibles motores de ejecución que se pueden configurar en Hive? | MapReduce, Tez y Spark. |
| ¿Qué comando de Linux se utiliza comúnmente para monitorizar el uso de CPU en tiempo real? | `top` |
| ¿Qué interfaz web permite ver el espacio ocupado en HDFS y navegar por sus ficheros? | Namenode UI (puerto 50070 por defecto). |
| ¿Qué utilidad tiene la opción ‘Scheduler’ en la interfaz del ResourceManager de YARN? | Muestra el estado, capacidad y ocupación de las colas de ejecución configuradas. |
| ¿Qué es Ganglia? | Una herramienta de código abierto para la recogida de métricas y monitorización de clústeres de servidores. |
| En Ganglia, ¿qué hace el demonio `gmond`? | Se ejecuta en cada nodo para recopilar sus métricas y enviarlas al resto de nodos del clúster. |
| ¿Qué es un Data Lake? | Un repositorio centralizado que almacena todos los datos de una empresa (estructurados y no estructurados) a cualquier escala sin modificarlos previamente. |
| ¿Cómo se denominan los datos guardados en el Data Lake tal cual se reciben de la fuente? | Raw Data (Datos en crudo) |
| ¿Cuál es la principal ventaja de un Data Lake frente a un Datawarehouse tradicional? | Permite tomar todos los datos para el análisis sin necesidad de estructurarlos o filtrarlos previamente mediante procesos ETL rígidos. |
| Menciona las cuatro capas lógicas del modelo de un Data Lake. | Ingesta, Procesamiento, Repositorio e Insights. |
| ¿Qué caracteriza a una arquitectura de tipo ‘Data Mesh’? | Es un enfoque descentralizado donde cada dominio de negocio es responsable de sus propios datos y los ofrece como un producto. |
| ¿Cuál es uno de los problemas de escalar un Data Lake centralizado? | La generación de dependencias críticas sobre un único equipo central de ingeniería de datos. |
| ¿Qué es un ‘Data Swamp’? | Un repositorio de datos que carece de gobierno, metadatos y calidad, volviéndolo inútil para el análisis. |
| Concepto: Gobierno de Datos (Data Governance) | Conjunto de procesos y políticas que garantizan el uso eficiente, seguro y efectivo de los datos en una empresa. |
| ¿En qué consiste el principio de ‘Datos como Producto’ en Data Mesh? | En que los equipos de dominio deben ofrecer sus datos analíticos pensando en la facilidad de consumo para otros usuarios. |
| ¿Qué servicio de Amazon Web Services permite crear clústeres Hadoop a demanda? | Amazon EMR (Elastic MapReduce) |
| ¿Qué solución de Microsoft Azure ofrece Hadoop como servicio en modalidad de pago por uso? | Azure HDInsight |
| ¿Qué herramienta de administración utiliza HDInsight que no está presente de forma nativa en Amazon EMR? | Apache Ambari |
| ¿Cuál es el coste aproximado por nodo y hora de las soluciones Hadoop en la nube? | Entre $0,25$ y $2$ euros. |
