Guías Académicas

TÉCNICAS ESTADÍSTICAS EN MINERÍA DE DATOS

TÉCNICAS ESTADÍSTICAS EN MINERÍA DE DATOS

Doble Titulación de Grado en Estadística y en Ingeniería Informática

Curso 2024/2025

1. Datos de la asignatura

(Fecha última modificación: 10-06-24 18:32)
Código
108430
Plan
ECTS
6
Carácter
Curso
3
Periodicidad
Segundo Semestre
Idioma
ESPAÑOL
Área
ESTADÍSTICA E INVESTIGACIÓN OPERATIVA
Departamento
Estadística
Plataforma Virtual

Campus Virtual de la Universidad de Salamanca

https://produccioncientifica.usal.es/investigadores/262747/detalle

Datos del profesorado

Coordinador/Coordinadora
Pedro Ignacio Dorado Díaz
Grupo/s
1
Centro
Fac. Medicina
Departamento
Estadística
Área
Estadística e Investigación Operativa
Despacho
Facultad de Medicina, Despacho 224
Horario de tutorías
Solicitar previamente cita vía email para tutoría presencial, por videoconferencia o grupal. Pueden hacerse consultas puntuales vía email.
URL Web
https://dptoestadistica.usal.es/
E-mail
pidd@usal.es
Teléfono
923 29 45 00, ext. 6983

2. Recomendaciones previas

Es recomendable haber cursado y superado las asignaturas “Informática I” (primero) y “Explotación Estadística de Almacenes de Datos” (segundo).

También resultará de ayuda al alumno toda la formación Estadística recibida en los dos primeros años del grado, además de todo el conocimiento y experiencia previa que posea en programación, especialmente con lenguajes interpretados.

La asignatura tendrá un componente práctico importante y será impartida en su gran mayoría en las aulas de informática, combinando la explicación de los conceptos teóricos con las prácticas llevadas a cabo con el ordenador (se recomienda utilizar un ordenador propio en clase para no tener problemas de actualización).

3. Objetivos

GENERALES:

  • Conocer la naturaleza, métodos y fines de la Minería de Datos.
  • Reconocer la necesidad de la Minería de Datos para la extracción de conocimiento útil y tomar decisiones con gran volumen de datos.
  • Desarrollar las capacidades analíticas y de abstracción, la intuición y el pensamiento lógico, riguroso y crítico.
  • Capacitar para la utilización de los conocimientos teóricos y prácticos adquiridos en la definición y planteamiento de problemas y en la búsqueda de sus soluciones tanto en contextos académicos como profesionales.
  • Preparar para posteriores estudios especializados, tanto en una disciplina estadística como en cualquiera de las ciencias que requieran de la Minería de Datos.

ESPECÍFICOS:

  • Reconocer la problemática del análisis de datos, tanto de grandes volúmenes como de conjuntos pequeños y/o desbalanceados. Reconocer los beneficios de su análisis sistemático para la obtención de patrones predictivos o descriptivos.
  • Conocer las fases del Descubrimiento de Conocimiento en Bases de Datos (KDD, EDA) y la importancia de las mismas en el éxito del proceso (en especial las de limpieza y selección de datos).
  • Conocer las distintas técnicas de aprendizaje automático y estadísticas utilizadas en minería de datos, su potencial, su coste computacional y sus limitaciones de representación y de inteligibilidad.
  • Elegir, para un problema concreto, qué técnicas de minería de datos y aprendizaje automático son más apropiadas.
  • Generar los modelos y patrones elegidos utilizando una herramienta, paquete o lenguaje de programación para minería de datos y aprendizaje automático.
  • Evaluar la calidad de un modelo, utilizando métricas para medir distintos aspectos que es necesario evaluar: rendimiento predictivo, complejidad, explicabilidad e interpretabilidad, coste computacional, posibilidades de implementación y adopción

4. Competencias a adquirir | Resultados de Aprendizaje

Básicas / Generales | Conocimientos.

BÁSICAS/GENERALES

  • CB2 - Que los estudiantes sepan aplicar sus conocimientos a su trabajo o vocación de una forma profesional y posean las competencias que suelen demostrarse por medio de la elaboración y defensa de argumentos y la resolución de problemas dentro de su área de estudio.
  • CB4 - Que los estudiantes puedan transmitir información, ideas, problemas y soluciones a un público tanto especializado como no especializado
  • CB5 - Que los estudiantes hayan desarrollado aquellas habilidades de aprendizaje necesarias para emprender estudios posteriores con un alto grado de autonomía.
  • CG3 - Proponer, analizar, validar e interpretar modelos de situaciones reales utilizando las técnicas estadísticas más adecuadas a los fines que se persigan.
  • CG5 - Adquirir los conocimientos matemáticos, estadísticos e informáticos necesarios para desarrollar adecuadamente las investigaciones estadísticas.

 

Específicas | Habilidades.

  • CE1 - Conocer, utilizar y desarrollar diferentes herramientas informáticas de uso común en los ámbitos de las Matemáticas, la Estadística y la Investigación Operativa. Gestionar la información disponible de manera óptima.
  • CE2 - Saber comunicar, tanto por escrito como de forma oral, conocimientos, procedimientos, resultados e ideas estadísticas.
  • CE4 - Capacitar para conocer los principales conceptos y analizar mediante técnicas estadísticas los datos procedentes de diferentes ámbitos: técnico, biosanitario, socio-jurídico o económico.
  • CE8 - Capacidad para realizar estudios descriptivos e inferenciales de distintos tipos de datos, utilizando las herramientas informáticas más adecuadas.
  • CE1 - Conocer, utilizar y desarrollar diferentes herramientas informáticas de uso común en los ámbitos de las Matemáticas, la Estadística y la Investigación Operativa. Gestionar la información disponible de manera óptima.
  • CE4 - Capacitar para conocer los principales conceptos y analizar mediante técnicas estadísticas los datos procedentes de diferentes ámbitos: técnico, biosanitario, socio-jurídico o económico.
  • CE8 - Capacidad para realizar estudios descriptivos e inferenciales de distintos tipos de datos, utilizando las herramientas informáticas más adecuadas.

Transversales | Competencias.

Instrumentales:

  • CT01. Capacidad de análisis y síntesis.
  • CT02. Capacidad de organización y planificación.
  • CT03. Capacidad de gestión de la información.
  • CT04. Resolución de problemas.

 Interpersonales:

  • CT05. Trabajo en equipo.
  • CT06. Razonamiento crítico.
  • CT07. Compromiso ético.
  • CT08. Habilidades en las relaciones interpersonales.
  • CT09. Sentido de la igualdad en su amplia definición.

Sistémicas:

  • CT10. Aprendizaje autónomo.
  • CT11. Motivación por la calidad.
  • CT12. Compromiso con el medio ambiente

5. Contenidos

Teoría.

La asignatura tendrá un componente práctico importante y será impartida en su gran mayoría en las aulas de informática, combinando la explicación de los conceptos teóricos con las prácticas llevadas a cabo con el ordenador (se recomienda utilizar un ordenador propio en clase para no tener problemas de actualización).

PRIMER BLOQUE

  1. REPASO DE CONCEPTOS GENERALES SOBRE LA MINERÍA DE DATOS, APRENDIZAJE AUTOMÁTICO Y EL PROCESO DE LA EXTRACCIÓN DEL CONOCIMENTO. Definición. Cometido de la Minería de Datos. Recogida de datos. Tipos de datos, técnicas, algoritmos y variables. Descubrimiento del conocimiento en una base de datos (KDD). Evaluación de resultados. Áreas de aplicación. Problemas tipo.
  2. INTRODUCCIÓN A LOS LENGUAJES DE PROGRAMACIÓN INTERPRETADOS: R, Python u otros.
  3. PROCESADO DE LOS DATOS. Selección y extracción de atributos. Análisis Exploratorio de Datos (EDA).
  4. CONCEPTOS DE APRENDIZAJE AUTOMÁTICO. Apredizaje supervisado y no supervisado. Entrenamiento, validación, test. Sesgo y varianza. Problemas de sobreajuste y falta de generalización. Workflow/Pipeline de un proyecto de aprendizaje automático.

SEGUNDO BLOQUE

5.-  APRENDIZAJE SUPERVISADO (regresión y clasificación): regresión lineal, regresión logística, máquinas de vector soporte, árboles de decisión, K vecinos más cercanos, redes neuronales, redes neuronales profundas, métodos ensemble: métodos bagging, métodos boosting, métodos stacking.

6.- EVALUACIÓN DE MODELOS. Aspectos que evaluar en los modelos. Métricas de evaluación.

7.- VALIDACIÓN Y PUESTA EN PRODUCCIÓN DE LOS MODELOS DESARROLLADOS. Bootstrap, validación cruzada, validación cruzada anidada, datos de validación y test, validación externa, filtrado de información del test al entrenamiento. Puesta en producción de nuestros modelos.

8.- INTERPRETACIÓN DE LOS MODELOS DESARROLLADOS. Abriendo las cajas negras. Técnicas para interpretar los modelos. SHAP, LIME, PDP, ICE, ALE, importancia de las variables, etc.

TERCER BLOOQUE

9.- APREDIZAJE NO SUPERVISADO. Reglas de agrupamiento, reglas de asociación y reducción de dimensionalidad. Aplicaciones del aprendizaje no supervisado: diferentes categorías de noticias y agruparlas según su temática, detectar anomalías e irregularidades dentro de un grupo de datos, hábitos de compra de un cliente para publicidad personalizada, recomendaciones de películas o canciones que pueden gustarle al suscriptor, reconocimiento de objetos, ayuda al sector médico en funciones básicas de dispositivos de creación de imágenes, etc.

10.- APRENDIZAJE POR REFUERZO. Fundamentos del aprendizaje por refuerzo. Métodos de aprendizaje por refuerzo. Problemas y aplicaciones

6. Metodologías Docentes

ACTIVIDADES NO PRESENCIALES

  • Estudio autónomo por parte del estudiante, con especial atención a un enfoque práctico.
  • Revisión bibliográfica y búsqueda de información.
  • Realización de prácticas y trabajos individuales y autónomos.

ACTIVIDADES PRESENCIALES

  • La asignatura se iniciará con una actividad introductoria dirigida a tomar contacto con los alumnos y presentar la asignatura: objetivos, contenidos, evaluación, etc.
  • Tanto las clases teóricas como prácticas se llevarán a cabo en el aula de informática.
  • En las clases teóricas, impartidas en el aula de informática, el profesor explicará los conceptos y contenidos de la asignatura y se ilustrará continuamente su aplicación mediante ejemplos, lo cual llevará a que en algunas sesiones no podamos diferenciar claramente entre clases de teoría y clases prácticas.
  • Las clases prácticas se llevarán a cabo también en el aula de informática. Se resolverán casos prácticos, a partir de los conceptos teóricos revisados en las clases magistrales.
  • El profesor atenderá, bajo demanda de los estudiantes, requerimientos académicos relacionados con la asignatura. Esto podrá realizarse bien de forma presencial, utilizando el correo electrónico o videoconferencia cuando lo demandado por el alumno así lo permita.

7. Distribución de las Metodologías Docentes

8. Recursos

Libros de consulta para el alumno.

  1. G. James, D. Witten, T. Hastie, R. Tibshirani, y J. Taylor, An Introduction to Statistical Learning: with Applications in Python. en Springer Texts in Statistics. Cham: Springer International Publishing, 2023. doi: 10.1007/978-3-031-38747-0.
  2. «R for Data Science (2e)». Accedido: 28 de febrero de 2024. [En línea]. Disponible en: https://r4ds.hadley.nz/
  3. G. James, D. Witten, T. Hastie, y R. Tibshirani, An Introduction to Statistical Learning: with Applications in R. Springer Nature, 2021.
  4. T. Hastie, R. Tibshirani, y J. H. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer Science & Business Media, 2001.
  5.  I. H. Witten, E. Frank, M. A. Hall, y C. J. Pal, Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, 2016.
  6.  N. Ye, Data Mining: Theories, Algorithms, and Examples. CRC Press, 2013.
  7. R. Layton, Learning Data Mining with Python. Packt Publishing Ltd, 2017.
  8.  B. Clarke, E. Fokoue, y H. H. Zhang, Principles and Theory for Data Mining and Machine Learning. Springer Science & Business Media, 2009.

9. Evaluación

Criterios de evaluación.

Evaluación continua:

  • Cuestionarios de evaluación con tests teórico-prácticos basados en las clases (15%).
  • Entregas de tareas de evaluación continua (15%).
  • Asistencia a clase y participación (10%).

Examen final:

Consistirá en la elaboración personal de los alumnos de un proyecto escrito de minería de datos (60%), donde se valorará la capacidad del alumno para llevar a la práctica los métodos aprendidos, el manejo del software utilizado, la elaboración de informes y la bibliografía consultada, así como las competencias instrumentales, interpersonales y sistémicas, así como las competencias básicas/generales, específicas y transversales.

La nota de la evaluación continua será la que se obtenga durante el desarrollo del curso. Se mantendrá la nota para la segunda convocatoria del mismo curso académico.

Sistemas de evaluación.

  • Cuestionarios de evaluación continua tipo test.
  • Tareas desarrolladas y entregadas a lo largo del curso.
  • Proyecto final

Recomendaciones para la evaluación.

Se recomienda la asistencia y participación en todas las actividades programadas y el uso de las tutorías, así como estudiar la asignatura de forma  regular  desde el principio  de curso.

Utilizar la bibliografía para afianzar conocimientos y, si es necesario, adquirir una mayor destreza en la materia.

Plantear las posibles dudas que tenga el alumno en cada momento en clase o en tutorías.

Realizar las tareas propuestas a lo largo del curso.

Para evaluar:

  • Tareas desarrolladas a lo largo del curso.
  • Cuestionarios mediante preguntas de tipo test, preguntas concretas o preguntas que relacionen varios conceptos de diferentes unidades temáticas, como parte de la evaluación continuada a lo largo del desarrollo de la signatura.

Desarrollo de un proyecto escrito de Minería de datos al terminar a la asignatura.

Recuperación:

Se entregará un proyecto final (2ª convocatoria), para aquellos casos en los que, tras el primer proyecto final (1ª convocatoria), no se ha logrado la superación de la asignatura (por no haber entregado o no superar el mínimo de 5 puntos en el global de la asignatura.

Los criterios de evaluación en la 2ª convocatoria son los mismos que en la primera (40% evaluación continua durante el curso + 60% proyecto final), por lo que la segunda convocatoria solo permite recuperar el 60% correspondiente al proyecto final. Las actividades de evaluación continua son las obtenidas durante el curso y no son recuperables.

En ningún caso se mantendrán notas parciales para cursos posteriores.