TÉCNICAS ESTADÍSTICAS EN MINERÍA DE DATOS

TÉCNICAS ESTADÍSTICAS EN MINERÍA DE DATOS

Grado en Estadística- Plan 2016

Curso 2020/2021

1. Datos de la asignatura

(Fecha última modificación: 25-05-20 0:39)
Código
108430
Plan
2016
ECTS
6.00
Carácter
OPTATIVA
Curso
3
Periodicidad
Segundo Semestre
Área
ESTADÍSTICA E INVESTIGACIÓN OPERATIVA
Departamento
Estadística
Plataforma Virtual

Campus Virtual de la Universidad de Salamanca

Datos del profesorado

Profesor/Profesora
José Luis Vicente Villardón
Grupo/s
1
Departamento
Estadística
Área
Estadística e Investigación Operativa
Centro
Fac. Biología
Despacho
3.3. - 2ª Planta. Facultad de Medicina
Horario de tutorías
Mañanas 12-13
URL Web
http://biplot.usal.es
E-mail
villardon@usal.es
Teléfono
923 294500, Ext. 6978

2. Sentido de la materia en el plan de estudios

Bloque formativo al que pertenece la materia.

"Explotación Estadística de Almacenes de Datos" (segundo), "Técnicas estadísticas en Minería de Datos" (tercero), "Control Estadístico de la Calidad" (tercero), “Estadística Bayesiana” (tercero) y “Diseño Óptimo de Experimentos” (tercero).

Papel de la asignatura.

Desarrollar un curso de Minería de Datos con una orientación aplicada.

Perfil profesional.

Profesiones relacionadas con las ciencias de la salud (clasificación de patologías, factores de riesgo, estudios epidemiológicos …), economía, comercio, marketing (mailing, análisis de la cesta de la compra, perfil de comprador …), banca (uso fraudulento de tarjetas de crédito, estudio de clientes …), seguros y salud privada, transportes (planificación de distribución, patrones de carga, …) e industria (modelos sobre comportamiento de compuestos, extracción de modelos de coste y producción…). En general cualquier disciplina que utilice datos para la toma de decisiones.

3. Recomendaciones previas

Tener conocimientos básicos de Explotación Estadística de Almacenes de Datos, Cálculo de Probabilidades, Estadística Descriptiva, Estimación y Contrastes de Hipótesis, así como de Análisis Multivariante y Modelos Lineales.

4. Objetivo de la asignatura

GENERALES:

  • Conocer la naturaleza, métodos y fines de la Minería de Datos.
  • Reconocer la necesidad de la Minería de Datos para la extracción de conocimiento útil y tomar decisiones con gran volumen de datos.
  • Desarrollar las capacidades analíticas y de abstracción, la intuición y el pensamiento lógico, riguroso y crítico.
  • Capacitar para la utilización de los conocimientos teóricos y prácticos adquiridos en la definición y planteamiento de problemas y en la búsqueda de sus soluciones tanto en contextos académicos como profesionales.
  • Preparar para posteriores estudios especializados, tanto en una disciplina estadística como en cualquiera de las ciencias que requieran de la Minería de Datos.

ESPECÍFICOS:

  • Reconocer la problemática del análisis de grandes volúmenes de datos y de los beneficios de su uso sistemático para la obtención de patrones predictivos o descriptivos.
  • Conocer las fases del Descubrimiento de Conocimiento de Bases de Datos y la importancia de las mismas en el éxito del proceso (en especial las de limpieza y selección de datos).
  • Conocer las distintas técnicas de aprendizaje automático y estadísticas utilizadas en minería de datos, su potencial, su coste computacional y sus limitaciones de representación y de inteligibilidad.
  • Elegir, para un problema concreto, qué técnicas de minería de datos son más apropiadas.
  • Generar los modelos y patrones elegidos utilizando una herramienta o paquete de minería de datos.
  • Evaluar la calidad de un modelo, utilizando técnicas sencillas de evaluación.

5. Contenidos

Teoría.

  1. REPASO DE CONCEPTOS GENERALES SOBRE LA MINERÍA DE DATOS Y EL PROCESO DE LA EXTRACCIÓN DEL CONOCIMENTO. DEFINICIÓN. Cometido de la Minería de Datos. Recogida de datos. Tipos de datos, técnicas, algoritmos y variables. Descubrimiento del conocimiento en una base de datos: KDD. Evaluación de resultados. Áreas de aplicación. Problemas tipo.
  2. INTRODUCCIÓN AL LENGUAJE PYTHON.
  3. PROCESADO DE LOS DATOS. Selección y extracción de atributos. MINERÍA DE DATOS Y APRENDIZAJE AUTOMÁTICO (MACHINE LEARNING). Métodos Supervisados y no supervisados.
  4. MÉTODOS NO SUPERVISADOS. Reglas de asociación. Algoritmos de Clustering jerárquicos y no jerárquicos. Análisis de Componentes Principales. Métodos relacionados. Aplicaciones.
  5. MÉTODOS SUPERVISADOS. Regresión. Regresión Logística binaria y multinomial. Maquinas de vector soporte. Redes Neuronales. Árboles de decisión. Bosques aleatorios.
  6. MINERÍA DE DATOS CON PYTHON Y R. Aplicaciones a conjuntos de datos reales usando Python y R.
  7. VALIDACIÓN DE LOS MODELOS. Validación Cruzada. Bootstrap.

6. Competencias a adquirir

Específicas.

  • Aplicar métodos estadísticos y de aprendizaje automático para la extracción del conocimiento en bases de datos.
  • Dar respuesta a problemas provenientes de grandes volúmenes de datos almacenados en diversos formatos, mediante la identificación de patrones escondidos, produciendo datos útiles y comprensibles.
  • Distinguir las distintas técnicas a aplicar según el problema que se desee resolver.

Transversales.

INSTRUMENTALES

  • Capacidad de análisis y síntesis.
  • Capacidad de organización y planificación.
  • Capacidad de gestión de la información.
  • Resolución de problemas.

 

INTERPERSONALES

  • Trabajo en equipo.
  • Razonamiento crítico.
  • Compromiso ético.
  • Habilidades en las relaciones interpersonales.
  • Sentido de la igualdad en su amplia definición.

SISTÉMICAS

  • Aprendizaje autónomo.
  • Motivación por la calidad.
  • Compromiso con el medio ambiente.

7. Metodologías

 

La asignatura consta de dos horas de clases magistrales por semana en las que el profesor explicará los conceptos y contenidos de la asignatura y resolverá problemas aplicando estos conceptos.

 

Se resolverán casos prácticos, a partir de los conceptos teóricos revisados en las clases magistrales, mediante el uso de paquetes y lenguajes informáticos para minería datos (R, Python, Weka, …).

 

Regularmente se proporcionarán problemas de aplicación práctica, con la finalidad de que el alumno consiga la destreza necesaria en el cálculo y uso de aquellos conceptos de uso más frecuente en la aplicación de las técnicas. Los problemas serán debatidos y analizados en seminarios en los que los alumnos expondrán las soluciones de los mismos.

 

El profesor atenderá, bajo demanda de los estudiantes, requerimientos académicos relacionados con la asignatura. Esto podrá realizarse bien de forma presencial o utilizando el correo electrónico cuando lo demandado por el alumno así lo permita.

8. Previsión de Técnicas (Estrategias) Docentes

9. Recursos

Libros de consulta para el alumno.

HERNÁNDEZ ORALLO J., RAMÍREZ M.J. y FERRI C. (2004): “Introducción a la Minería de Datos”, Editorial Pearson.

Witten, I. H., Frank, E., Hall, M. A., & Pal, C. J. (2016). Data Mining: Practical machine learning tools and techniques. Morgan Kaufmann.

Ye, N. (2013). Data mining: theories, algorithms, and examples. CRC press.

Layton, R. (2015). Learning data mining with python. Packt Publishing Ltd.

Otras referencias bibliográficas, electrónicas o cualquier otro tipo de recurso.

10. Evaluación

Consideraciones generales.

Para evaluar:

Tareas desarrolladas a lo largo del curso.

Un examen escrito donde se plantearán preguntas teóricas que tienen como objetivo evaluar la comprensión del alumno en cuanto a los conocimientos que se han conseguido a lo largo del curso. Estas preguntas pueden ser tipo test, preguntas concretas o preguntas que relacionen varios conceptos de diferentes unidades temáticas.

Evaluación continuada a lo largo del desarrollo de la signatura.

Criterios de evaluación.

  • Examen de test-Teórico-práctico basado en las clases magistrales presenciales (30%), que será escrito y en una única prueba a final del periodo lectivo, donde se evaluará el nivel de conocimientos. Hasta un 15% podrá realizarse en controles periódicos a lo largo del curso.
  • Trabajos de elaboración personal de los alumnos (60%). Donde se valorará la capacidad del alumno para llevar a la práctica los métodos aprendidos, el manejo del software utilizado, la elaboración de informes y la bibliografía consultada, así como las competencias instrumentales, interpersonales y sistémicas, así como las habilidades y actitudes. Hasta un 20% podrá realizarse a partir de la participación en seminarios y debates.
  • Asistencia a clase (10%).

Instrumentos de evaluación.

- Pruebas escritas de conocimientos teóricos.

- Evaluación continua de los trabajos realizados durante el curso y de su exposición y debate.

- Evaluación continua utilizando Studium.

- Manejo de un software de minería de datos.

- Evaluación de proyectos desarrollados por el alumno

Recomendaciones para la evaluación.

Utilizar la bibliografía para afianzar conocimientos y, si es necesario, adquirir una mayor destreza en la materia.

Plantear las posibles dudas que tenga el alumno en clase, tutorías, seminarios.

Realizar las tareas propuestas a lo largo del curso.

Recomendaciones para la recuperación.

El alumno podrá recuperar aquellas partes de la evaluación (tareas, examen ordenador y examen escrito) que no haya superado en el curso.