Guías Académicas

TÉCNICAS ESTADÍSTICAS EN MINERÍA DE DATOS

TÉCNICAS ESTADÍSTICAS EN MINERÍA DE DATOS

Doble Titulación de Grado en Estadística y en Ingeniería Informática

Curso 2023/2024

1. Datos de la asignatura

(Fecha última modificación: 18-04-23 17:28)
Código
108430
Plan
ECTS
6
Carácter
Curso
3
Periodicidad
Segundo Semestre
Área
ESTADÍSTICA E INVESTIGACIÓN OPERATIVA
Departamento
Estadística
Plataforma Virtual

Campus Virtual de la Universidad de Salamanca

Datos del profesorado

Profesor/Profesora
José Luis Vicente Villardón
Grupo/s
1
Centro
Fac. Biología
Departamento
Estadística
Área
Estadística e Investigación Operativa
Despacho
3.3. - 2ª Planta. Facultad de Medicina
Horario de tutorías
Mañanas 12-13
URL Web
http://biplot.usal.es
E-mail
villardon@usal.es
Teléfono
923 294500, Ext. 6978
Profesor/Profesora
Laura Vicente González
Grupo/s
1
Centro
Fac. Biología
Departamento
Estadística
Área
Estadística e Investigación Operativa
Despacho
Estadística :Medicina
Horario de tutorías
Mañanas 12-13
URL Web
http://biplot.usal.es
E-mail
laura20vg@usal.es
Teléfono
923294400 Ext 1921

2. Sentido de la materia en el plan de estudios

Bloque formativo al que pertenece la materia.

"Explotación Estadística de Almacenes de Datos" (segundo), "Técnicas estadísticas en Minería de Datos" (tercero), "Control Estadístico de la Calidad" (tercero), “Estadística Bayesiana” (tercero) y “Diseño Óptimo de Experimentos” (tercero).

Papel de la asignatura.

Desarrollar un curso de Minería de Datos con una orientación aplicada.

Perfil profesional.

Profesiones relacionadas con las ciencias de la salud (clasificación de patologías, factores de riesgo, estudios epidemiológicos …), economía, comercio, marketing (mailing, análisis de la cesta de la compra, perfil de comprador …), banca (uso fraudulento de tarjetas de crédito, estudio de clientes …), seguros y salud privada, transportes (planificación de distribución, patrones de carga, …) e industria (modelos sobre comportamiento de compuestos, extracción de modelos de coste y producción…). En general cualquier disciplina que utilice datos para la toma de decisiones.

3. Recomendaciones previas

Tener conocimientos básicos de Explotación Estadística de Almacenes de Datos, Cálculo de Probabilidades, Estadística Descriptiva, Estimación y Contrastes de Hipótesis, así como de Análisis Multivariante y Modelos Lineales.

4. Objetivo de la asignatura

GENERALES:

  • Conocer la naturaleza, métodos y fines de la Minería de Datos.
  • Reconocer la necesidad de la Minería de Datos para la extracción de conocimiento útil y tomar decisiones con gran volumen de datos.
  • Desarrollar las capacidades analíticas y de abstracción, la intuición y el pensamiento lógico, riguroso y crítico.
  • Capacitar para la utilización de los conocimientos teóricos y prácticos adquiridos en la definición y planteamiento de problemas y en la búsqueda de sus soluciones tanto en contextos académicos como profesionales.
  • Preparar para posteriores estudios especializados, tanto en una disciplina estadística como en cualquiera de las ciencias que requieran de la Minería de Datos.

ESPECÍFICOS:

  • Reconocer la problemática del análisis de grandes volúmenes de datos y de los beneficios de su uso sistemático para la obtención de patrones predictivos o descriptivos.
  • Conocer las fases del Descubrimiento de Conocimiento de Bases de Datos y la importancia de las mismas en el éxito del proceso (en especial las de limpieza y selección de datos).
  • Conocer las distintas técnicas de aprendizaje automático y estadísticas utilizadas en minería de datos, su potencial, su coste computacional y sus limitaciones de representación y de inteligibilidad.
  • Elegir, para un problema concreto, qué técnicas de minería de datos son más apropiadas.
  • Generar los modelos y patrones elegidos utilizando una herramienta o paquete de minería de datos.
  • Evaluar la calidad de un modelo, utilizando técnicas sencillas de evaluación.

5. Contenidos

Teoría.

  1. REPASO DE CONCEPTOS GENERALES SOBRE LA MINERÍA DE DATOS Y EL PROCESO DE LA EXTRACCIÓN DEL CONOCIMENTO. DEFINICIÓN. Cometido de la Minería de Datos. Recogida de datos. Tipos de datos, técnicas, algoritmos y variables. Descubrimiento del conocimiento en una base de datos: KDD. Evaluación de resultados. Áreas de aplicación. Problemas tipo.
  2. INTRODUCCIÓN AL LENGUAJE PYTHON.
  3. PROCESADO DE LOS DATOS. Selección y extracción de atributos. MINERÍA DE DATOS Y APRENDIZAJE AUTOMÁTICO (MACHINE LEARNING). Métodos Supervisados y no supervisados.
  4. MÉTODOS NO SUPERVISADOS. Reglas de asociación. Algoritmos de Clustering jerárquicos y no jerárquicos. Análisis de Componentes Principales. Métodos relacionados. Aplicaciones.
  5. MÉTODOS SUPERVISADOS. Regresión. Regresión Logística binaria y multinomial. Maquinas de vector soporte. Redes Neuronales. Árboles de decisión. Bosques aleatorios.
  6. MINERÍA DE DATOS CON PYTHON Y R. Aplicaciones a conjuntos de datos reales usando Python y R.
  7. VALIDACIÓN DE LOS MODELOS. Validación Cruzada. Bootstrap.

6. Competencias a adquirir

Específicas.

  • Aplicar métodos estadísticos y de aprendizaje automático para la extracción del conocimiento en bases de datos.
  • Dar respuesta a problemas provenientes de grandes volúmenes de datos almacenados en diversos formatos, mediante la identificación de patrones escondidos, produciendo datos útiles y comprensibles.
  • Distinguir las distintas técnicas a aplicar según el problema que se desee resolver.

Transversales.

INSTRUMENTALES

  • Capacidad de análisis y síntesis.
  • Capacidad de organización y planificación.
  • Capacidad de gestión de la información.
  • Resolución de problemas.

 

INTERPERSONALES

  • Trabajo en equipo.
  • Razonamiento crítico.
  • Compromiso ético.
  • Habilidades en las relaciones interpersonales.
  • Sentido de la igualdad en su amplia definición.

SISTÉMICAS

  • Aprendizaje autónomo.
  • Motivación por la calidad.
  • Compromiso con el medio ambiente.

7. Metodologías

La asignatura consta de dos horas de clases magistrales por semana en las que el profesor explicará los conceptos y contenidos de la asignatura y resolverá problemas aplicando estos conceptos.

Se resolverán casos prácticos, a partir de los conceptos teóricos revisados en las clases magistrales, mediante el uso de paquetes y lenguajes informáticos para minería datos (R, Python, Weka, …).

Regularmente se proporcionarán problemas de aplicación práctica, con la finalidad de que el alumno consiga la destreza necesaria en el cálculo y uso de aquellos conceptos de uso más frecuente en la aplicación de las técnicas. Los problemas serán debatidos y analizados en seminarios en los que los alumnos expondrán las soluciones de los mismos.

El profesor atenderá, bajo demanda de los estudiantes, requerimientos académicos relacionados con la asignatura. Esto podrá realizarse bien de forma presencial o utilizando el correo electrónico cuando lo demandado por el alumno así lo permita.

Debido a la situación actual de pandemia se compatibilizarán las clases presenciales con un plan de trabajo on-line para aquellos alumnos que no pueden asistir a clase debido a la enfermedad. Concretamente se han introducido o intensificado las siguientes metodologías docentes que son útiles tanto para los alumnos presenciales como para los que, debido a las circunstancias, deban quedarse en casa:

  • Aportación suplementaria de materiales docentes escritos y referencias bibliográficas para facilitar el estudio autónomo.
  • Clases magistrales síncronas en el campus virtual (mediante Blackboard Collaborate). Las clases quedarán grabadas de forma que puedan ser visualizadas también de manera asíncrona.
  • Grabación y publicación en el Campus Virtual de píldoras de vídeo para explicaciones de conceptos y ejercicios.
  • Foros de Discusión para razonar sobre casos prácticos, realizar ejercicios, analizar conceptos, etc. en los que los estudiantes participan y reciben la oportuna realimentación.
  • Tutorías individuales que se realizan de forma asíncrona, por correo electrónico o mediante foros de dudas, y de forma síncrona, bajo petición, por videoconferencia.
  • Sesiones síncronas de tutoría grupal mediante las herramientas de videoconferencia de la USAL (Blackboard Collaborate y Google Meet)

8. Previsión de Técnicas (Estrategias) Docentes

9. Recursos

Libros de consulta para el alumno.

HERNÁNDEZ ORALLO J., RAMÍREZ M.J. y FERRI C. (2004): “Introducción a la Minería de Datos”, Editorial Pearson.

Witten, I. H., Frank, E., Hall, M. A., & Pal, C. J. (2016). Data Mining: Practical machine learning tools and techniques. Morgan Kaufmann.

Ye, N. (2013). Data mining: theories, algorithms, and examples. CRC press.

Layton, R. (2015). Learning data mining with python. Packt Publishing Ltd.

Otras referencias bibliográficas, electrónicas o cualquier otro tipo de recurso.

10. Evaluación

Consideraciones generales.

Para evaluar:

Tareas desarrolladas a lo largo del curso.

Cuestionarios de autoevaluación mediante preguntas de tipo test, preguntas concretas o preguntas que relacionen varios conceptos de diferentes unidades temáticas, como parte de la evaluación continuada a lo largo del desarrollo de la signatura.

Desarrollo de un proyecto escrito de Minería de datos al terminar a la asignatura.

Criterios de evaluación.

  • Cuestionarios de autoevaluación con tests teórico-prácticos basados en las clases magistrales en el campus virtual y videotutoriales (15%) y tareas de evaluación continua de las prácticas (15%).
  • Examen final que consistirá en la elaboración personal de los alumnos de un proyecto escrito de minería de datos (60%), donde se valorará la capacidad del alumno para llevar a la práctica los métodos aprendidos, el manejo del software utilizado, la elaboración de informes y la bibliografía consultada, así como las competencias instrumentales, interpersonales y sistémicas, así como las habilidades y actitudes.
  • Asistencia a clase y participación en los foros (10%).

Instrumentos de evaluación.

- Pruebas escritas de conocimientos teóricos después de cada tema.

- Evaluación continua de los trabajos realizados durante el curso y de su exposición y debate.

- Evaluación continua utilizando Studium.

- Manejo de un software de minería de datos.

- Evaluación de proyectos desarrollados por el alumno

Se ha sustituido el examen test final programado por las pruebas de evaluación después de cada tema.

Recomendaciones para la evaluación.

Utilizar la bibliografía para afianzar conocimientos y, si es necesario, adquirir una mayor destreza en la materia.

Plantear las posibles dudas que tenga el alumno en clase, tutorías, seminarios.

Realizar las tareas propuestas a lo largo del curso.

Recomendaciones para la recuperación.

El alumno podrá recuperar aquellas partes de la evaluación (tareas, prácticas y cuestionarios) que no haya superado en el curso.