Ciencia de los Datos Aplicada
Grado y Doble Grado. Curso 2025/2026.
BIG DATA: PROCESAMIENTO DISTRIBUIDO Y PARALELO - 806324
Curso Académico 2025-26
Datos Generales
- Plan de estudios: 081C - GRADO EN CIENCIA DE LOS DATOS APLICADA (2022-23)
- Carácter: Obligatoria
- ECTS: 6.0
SINOPSIS
COMPETENCIAS
Generales
CG1, CG2, CG8,CG10.
Específicas
CE7, CE8, CE15, CE30.
ACTIVIDADES DOCENTES
Clases teóricas
50%
Clases prácticas
50%
Presenciales
2,4
No presenciales
3,6
Semestre
7
Breve descriptor:
La asignatura plantea una introducción de las técnicas más utilizadas para el Análisis de Datos en ámbitos de Big Data.
Se introducen los conceptos que se utilizan para permitir el almacenamiento masivo distribuido y el procesamiento paralelo.
Especial atención se dedica a las técnicas de programación para
clústers. En particular la metodología Map-Reduce y al entorno Spark.
A lo largo de toda la asignatura se utilizará el lenguaje de programación Python y entornos interactivos de programación, análisis y prueba.
Objetivos
- Comprender el marco conceptual del BigData
- Entender y manejar básicamente un sistema distribuido HDFS Hadoop
- Diseñar soluciones paralelizables utilizando el esquema Map Reduce
- Escribir programas en Spark
- Conocer y programar la abstracción de datos RDD
- Conocer y programar la abstracción de datos DataFrame
- Conocer los módulos avanzados de Spark: Streaming, SQL, ML...
Contenido
- Introducción a Big Data.
- Almacenamiento de datos en ambientes Big Data
- Sistemas de Ficheros distribuidos Hadoop HDFS
- Técnicas de procesamiento paralelo:
- Map Reduce
- Apache Spark
- Módulos avanzados
- Técnicas de procesamiento paralelo:
- Trabajo en Casos de Uso
Evaluación
Para la convocatoria ordinaria, la evaluación de la asignatura es continua.
Los factores que se valoran para la calificación final son:
* Asistencia y participación. 20%
* Entrega de prácticas: 40%
* Examen teórico-práctico: 40%
Para la convocatoria extraordinaria,
* Examen teórico-práctico: 100%
Los factores que se valoran para la calificación final son:
* Asistencia y participación. 20%
* Entrega de prácticas: 40%
* Examen teórico-práctico: 40%
Para la convocatoria extraordinaria,
* Examen teórico-práctico: 100%
Bibliografía
L. Massaron; A. Boschetti, Python Data Science Essentials, Packt. 2015
J. VanderPlas, Python Data Science Handbook, O'Reilly. 2016
Documentación Hadoop: http://hadoop.apache.org/docs/current/
Documentación MrJob: https://pythonhosted.org/mrjob/
Documentación Spark: http://spark.apache.org/docs/latest/
Karau H., Konwinski A., Wendell P., and Zaharia M. Learning Spark. O'Reilly. 2015
J. VanderPlas, Python Data Science Handbook, O'Reilly. 2016
Documentación Hadoop: http://hadoop.apache.org/docs/current/
Documentación MrJob: https://pythonhosted.org/mrjob/
Documentación Spark: http://spark.apache.org/docs/latest/
Karau H., Konwinski A., Wendell P., and Zaharia M. Learning Spark. O'Reilly. 2015
Estructura
Módulos | Materias |
---|---|
No existen datos de módulos o materias para esta asignatura. |
Grupos
Actividades Prácticas | ||||
---|---|---|---|---|
Grupo | Periodos | Horarios | Aula | Profesor |
Grupo Único | 08/09/2025 - 19/12/2025 | JUEVES 18:00 - 20:00 | - | CARLOS GREGORIO RODRIGUEZ |
Clases Teóricas y/o Prácticas | ||||
---|---|---|---|---|
Grupo | Periodos | Horarios | Aula | Profesor |
Grupo Único | 08/09/2025 - 19/12/2025 | LUNES 18:00 - 20:00 | - | CARLOS GREGORIO RODRIGUEZ |