Ciencia de los Datos Aplicada

Grado y Doble Grado. Curso 2025/2026.

BIG DATA: PROCESAMIENTO DISTRIBUIDO Y PARALELO - 806324

Curso Académico 2025-26

Datos Generales

SINOPSIS

COMPETENCIAS

Generales
CG1, CG2, CG8,CG10.
Específicas
CE7, CE8, CE15, CE30.

ACTIVIDADES DOCENTES

Clases teóricas
50%
Clases prácticas
50%

Presenciales

2,4

No presenciales

3,6

Semestre

7

Breve descriptor:

La asignatura plantea una introducción de las técnicas más utilizadas para el Análisis de Datos en ámbitos de Big Data.
Se introducen los conceptos que se utilizan para permitir el almacenamiento masivo distribuido y el procesamiento paralelo.
Especial atención se dedica a las técnicas de programación para clústers. En particular la metodología Map-Reduce y al entorno Spark.

 A lo largo de toda la asignatura se utilizará el lenguaje de programación Python y entornos interactivos de programación, análisis y prueba.


Objetivos

  • Comprender el marco conceptual del BigData
  • Entender y manejar básicamente un sistema distribuido HDFS Hadoop
  • Diseñar soluciones paralelizables utilizando el esquema Map Reduce
  • Escribir programas en Spark
  • Conocer y programar la abstracción de datos RDD
  • Conocer y programar la abstracción de datos DataFrame
  • Conocer los módulos avanzados de Spark: Streaming, SQL, ML...



Contenido

  • Introducción a Big Data.
  • Almacenamiento de datos en ambientes Big Data
    • Sistemas de Ficheros distribuidos Hadoop HDFS
  • Técnicas de procesamiento paralelo:
    • Map Reduce
    • Apache Spark
    • Módulos avanzados
    • Técnicas de procesamiento paralelo:
  • Trabajo en Casos de Uso


Evaluación

Para la convocatoria ordinaria, la evaluación de la asignatura es continua.
Los factores que se valoran para la calificación final son:
* Asistencia y participación. 20%
* Entrega de prácticas: 40%
* Examen teórico-práctico: 40%

Para la convocatoria extraordinaria,
* Examen teórico-práctico: 100%

Bibliografía

L. Massaron; A. Boschetti, Python Data Science Essentials, Packt. 2015
J. VanderPlas, Python Data Science Handbook, O'Reilly. 2016
Documentación Hadoop: http://hadoop.apache.org/docs/current/
Documentación MrJob: https://pythonhosted.org/mrjob/
Documentación Spark: http://spark.apache.org/docs/latest/
Karau H., Konwinski A., Wendell P., and Zaharia M. Learning Spark. O'Reilly. 2015

Estructura

MódulosMaterias
No existen datos de módulos o materias para esta asignatura.

Grupos

Actividades Prácticas
GrupoPeriodosHorariosAulaProfesor
Grupo Único08/09/2025 - 19/12/2025JUEVES 18:00 - 20:00-CARLOS GREGORIO RODRIGUEZ


Clases Teóricas y/o Prácticas
GrupoPeriodosHorariosAulaProfesor
Grupo Único08/09/2025 - 19/12/2025LUNES 18:00 - 20:00-CARLOS GREGORIO RODRIGUEZ