Especialista en Big Data con Apache Hadoop
Curso
Online
Descripción
-
Tipología
Curso
-
Metodología
Online
Big Data es el término que se utiliza para describir los grandes volúmenes de datos que componen Internet y la posibilidad de obtener información sobre ellos.
La información en Internet está formada por datos estructurados, y por desestructurados, que en cantidad superan tres veces a los primeros y que provienen mayormente de las herramientas de redes sociales.
Actualmente en menos de un minuto: se generan cerca de 100.000 tweets, se descargan 25.000 aplicaciones, 300.000 personas se loguean a Facebook y se ven 1,5 millones de videos en YouTube.
Se estima que en 2014 cada día fueron creados cerca de 3 trillones de bytes de datos y se espera que para el año 2020 haya 35 zettabytes de información.
La disciplina dedicada a los datos masivos y que se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos es Big Data. Las dificultades más habituales vinculadas a la gestión de estas cantidades de datos se centran en la captura, el almacenamiento, búsqueda, distribución (compartir), análisis y visualización de los datos.
Dentro de las herramientas para trabajar con Big Data Apache Software Foundation creó Hadoop.
Haddop es un marco de trabajo de software basado en Java y que soporta aplicaciones distribuidas bajo una licencia de software libre – freeware. Permite a las aplicaciones trabajar con miles de nodos y petabytes de datos.
La formación de Especialista en Big Data tiene como objetivo familiarizar a los participantes con el uso de las técnicas y herramientas más difundidas de Hadoop.
Se espera que los participantes incorporen criterios para saber cuándo emplear y cuando no emplear las técnicas y herramientas de Big Data.
Información relevante sobre el curso
Requisitos Los alumnos se beneficiarán de conocimientos básicos de estadística, de nociones de manejo de bases de datos SQL y de programación estructurada. Carecer de toda esta información hará difícil aunque no imposible seguir ágilmente el curso. Se incluirán materiales complementarios y se responderán las preguntas individuales necesarias para asegurar el éxito de todos los participantes.
Opiniones
Temario
- Big Data y la necesidad de Apache Hadoop
- La explosión de los volúmenes de datos
- La variación de las estructuras de datos
- El Origen y Diseño de Apache Hadoop
- El procesamiento distribuido con MapReduce
- El ecosistema de Apache Hadoop
- Big data vs small data: ¿Cuando usar cada aproximación?
- Casos de uso comunes para Big Data en Apache Hadoop (log clickstram, Detección de Fraude, Análisis de sentimientos, Clasificación de imágenes, etc)
- La elección de una distribución de Apache Hadoop
- La elección de una arquitectura de cluster Apache Hadoop (Modo Pseudo-distribuida vs Modalidad completamente distribuida (un clúster de nodos))
- Instructivo para la configuración
- Almacenamiento de datos en un File System Tradicional vs Almacenamiento de datos en HDFS
- Arquitectura HDFS
- Gestión de archivos con los comandos del HDFS
- Pensando en paralelo
- Fase Map
- Fase Reduce
- Ejemplo ilustrativo
- Escribiendo un Map Reduce
Unidad 5: Otros Lenguajes para Hadoop y Pasos Siguientes
- Hive
- Pig
- Relación entre ambos lenguajes
- Escribiendo un Map Reduce en Hive
- Escribiendo un Map Reduce en Pig
- Ejemplos comparativos entre MAP REDUCE, PIG y HIVE
- Otros Lenguajes
Examen Final
Especialista en Big Data con Apache Hadoop