TECNICAS ESTADISTICAS EN MINERIA DE DATOS

TECNICAS ESTADISTICAS EN MINERIA DE DATOS

GRADO EN ESTADÍSTICA PLAN 2009

1. Datos de la asignatura

(Fecha última modificación: 21-07-17 21:38)
Código
100726
Plan
2009
ECTS
6.00
Carácter
OPTATIVA
Curso
3
Periodicidad
Segundo cuatrimestre
Área
ESTADÍSTICA E INVESTIGACIÓN OPERATIVA
Departamento
Estadística
Plataforma Virtual

Campus Virtual de la Universidad de Salamanca

Datos del profesorado

Profesor
María Teresa Cabero Morán
Grupo/s
1
Departamento
Estadística
Área
Estadística e Investigación Operativa
Centro
Fac. Ciencias
Despacho
D1508
Horario de tutorías

L y V: 11:00-13:00 y M y J: 18:00-19:00

URL Web
http://diarium.usal.es/mateca/
E-mail
mateca@usal.es
Teléfono
670620224 (Ext. 6993)

2. Sentido de la materia en el plan de estudios

Bloque formativo al que pertenece la materia.

Estadística Avanzada (18 ECTS): Técnicas Estadísticas en Minería de Datos (Op), Técnicas Cualitativas de Investigación (Op), Estadística Bayesiana (Op)

Papel de la asignatura.

Desarrollar un curso de Minería de Datos que aplicará las técnicas basadas en los módulos desarrollados en los dos primeros cursos.

Perfil profesional.

Profesiones relacionadas con las ciencias de la salud (clasificación de patologías, factores de riesgo, estudios epidemiológicos …), economía, comercio, marketing (mailing, análisis de la cesta de la compra, perfil de comprador …), banca (uso fraudulento de tarjetas de crédito, estudio de clientes …), seguros y salud privada, transportes (planificación de distribución, patrones de carga, …) e industria (modelos sobre comportamiento de compuestos, extracción de modelos de coste y producción…).

3. Recomendaciones previas

Tener conocimientos de Cálculo de Probabilidades, Estadística Descriptiva, Estimación y Contrastes de Hipótesis, así como de Análisis Multivariante y Modelos Lineales y Bases y Estructuras de Datos.

4. Objetivo de la asignatura

GENERALES:

  • Conocer la naturaleza, métodos y fines de la Minería de Datos.
  • Reconocer la necesidad de la Minería de Datos para la extracción de conocimiento útil y tomar decisiones con gran volumen de datos.
  • Desarrollar las capacidades analíticas y de abstracción, la intuición y el pensamiento lógico, riguroso y crítico.
  • Capacitar para la utilización de los conocimientos teóricos y prácticos adquiridos en la definición y planteamiento de problemas y en la búsqueda de sus soluciones tanto en contextos académicos como profesionales.
  • Preparar para posteriores estudios especializados, tanto en una disciplina estadística como en cualquiera de las ciencias que requieran de la Minería de Datos.

ESPECÍFICOS:

  • Reconocer la problemática del análisis de grandes volúmenes de datos y de los beneficios de su uso sistemático para la obtención de patrones predictivos o descriptivos.
  • Conocer las fases del Descubrimiento de Conocimiento de Bases de Datos y la importancia de las mismas en el éxito del proceso (en especial las de limpieza y selección de datos).
  • Conocer las distintas técnicas de aprendizaje automático y estadísticas utilizadas en minería de datos, su potencial, su coste computacional y sus limitaciones de representación y de inteligibilidad.
  • Elegir, para un problema concreto, qué técnicas de minería de datos son más apropiadas.
  • Generar los modelos y patrones elegidos utilizando una herramienta o paquete de minería de datos.
  • Evaluar la calidad de un modelo, utilizando técnicas sencillas de evaluación.
  • Utilizar métodos de combinación de técnicas y de reiteración.

5. Contenidos

Teoría.

  1. CONCEPTOS GENERALES SOBRE LA MINERÍA DE DATOS. Qué es la Minería de Datos. Cometido de la Minería de Datos. Definición. Tipos de datos, técnicas y variables. Descubrimiento del conocimiento en una base de datos: KDD. Evaluación de resultados. Áreas de aplicación. Problemas tipo.
  2. EL PROCESO DE LA EXTRACCIÓN DEL CONOCIMENTO. Recogida de datos. El almacén de datos. KDD y sus fases.
  3. EXTRACCIÓN DE PATRONES. Técnicas en Minería de Datos basadas en aprendizaje automático. Clasificación de técnicas. Sistemas informáticos.
  4. WEKA. Qué es Características. Instalación. Ejecución. Interfaces de usuario. Datos en WEKA. Bases de datos WEKA. Transformaciones desde otro tipo de bases de datos. Preprocesado y visualización.
  5. ALGORITMOS DE ASOCIACIÓN. Generalidades. Aplicaciones prácticas y ejemplos. Medidas de similaridad. Algoritmo más usados. Clustering Numérico, conceptual y probabilístico. Técnicas de Clustering en Weka.
  6. ALGORITMOS DE CLUSTERING. Generalidades. Aplicaciones prácticas y ejemplos. Medidas de similaridad. Algoritmo más usados. Clustering numérico, conceptual y probabilístico. Técnicas de Clustering en Weka.
  7. ALGORITMOS DE CLASIFICACIÓN. Generalidades. Aplicaciones prácticas y ejemplos. Técnicas más usuales de clasificación. Tablas de decisión, árboles de decisión, reglas de clasificación y clasificación bayesiana. Técnicas de clasificación en Weka.
  8. PREDICCIÓN NUMÉRICA. Generalidades. Aplicaciones prácticas y ejemplos. El algoritmo de regresión. Técnicas de predicción en Weka.
  9. SELECCIÓN DE ATRIBUTOS. Búsqueda de los atributos más apropiados. Método de evaluación y método de búsqueda. Selección de atributos en Weka.
  10. APRENDIZAJE DE UN MODELO Y SU APLICACIÓN A NUEVOS DATOS. Entrenamiento de patrones. Análisis de resultados: resultados de experimentos y contrastes estadísticos de métodos. Análisis de resultados en Weka.
  11. WEKA AVANZADO. KnowledgeFlow.

6. Competencias a adquirir

Específicas.

  • Aplicar ciertos métodos estadísticos para la extracción del conocimiento en bases de datos.
  • Dar respuesta a problemas provenientes de grandes volúmenes de datos almacenados en diversos formatos, mediante la identificación de patrones escondidos, produciendo datos útiles y comprensibles.
  • Distinguir las distintas técnicas a aplicar según el problema que se desee resolver.

Transversales.

INSTRUMENTALES:

  • Capacidad de análisis y síntesis.
  • Capacidad de organización y planificación.
  • Capacidad de gestión de la información.
  • Resolución de problemas.

INTERPERSONALES:

  • Trabajo en equipo.
  • Razonamiento crítico.
  • Compromiso ético.
  • Habilidades en las relaciones interpersonales.
  • Sentido de la igualdad en su amplia definición.

SISTÉMICAS:

  • Aprendizaje autónomo.
  • Motivación por la calidad.
  • Compromiso con el medio ambiente.

7. Metodologías

  • Clases de Teoría. En estas clases se mostrarán los diferentes contenidos del programa expuesto. Así mismo se plantearán y resolverán ejercicios que ayuden a la comprensión de la teoría.
  • Clases de Prácticas. Resolución de prácticas en las que se aplicarán lo expuesto en las clases teóricas. Se desarrollan todas en el aula de informática. Comprenden la realización de prácticas de ordenador con ayuda de programas especializados como Excel, Access y Weka.
  • Exposiciones Orales. El/la alumno/a elabora, bajo la supervisión de la profesora, realiza trabajos o ejercicios individuales o en grupo que explica bien en la pizarra o bien en el ordenador en clase delante de sus compañeros o también los ejercicios resueltos durante los seminarios.
  • Seminarios tutelados. Propuesta de ejercicios prácticos con frecuencia que requieran el uso de los resultados explicados en las clases magistrales. Estos problemas son resueltos en los seminarios, donde los/as estudiantes pueden compartir con sus compañeros y con la profesora las dudas que encuentren, obtener solución a las mismas y comenzar a desempeñar por sí mismos las competencias del módulo.

8. Previsión de Técnicas (Estrategias) Docentes

9. Recursos

Libros de consulta para el alumno.

HERNÁNDEZ ORALLO J., RAMÍREZ M.J. y FERRZ C. (2004): “Introducción a la Minería de Datos”, Editorial Pearson.

Apuntes proporcionados por la profesora.

Otras referencias bibliográficas, electrónicas o cualquier otro tipo de recurso.

10. Evaluación

Consideraciones generales.

Será el resultado de una ponderación basada en el desarrollo de cuestiones y ejercicios planteados a los alumnos durante el curso, las exposiciones en clase, las prácticas, la participación y asistencia a clase y de la nota obtenida en un examen.

Criterios de evaluación.

La calificación final será el resultado de 4 apartados:

  1. Cuestionarios de teoría planteados a lo largo del curso (20%).
  2. Ejercicios planteados durante el curso y exposiciones, participación en clase y prácticas de ordenador (10%).
  3. Asistencia a clase (10%).
  4. Examen final consistente en la presentación de un trabajo escrito y su posterior defensa oral de la parte práctica de la asignatura (60%). La parte escrita se entregará por adelantado a la convocatoria en la fecha señalada por escrito para que pueda ser evaluada.

Los apartados A, B y C equivalen a la calificación por curso.

Para poder aprobar la asignatura será necesario obtener en el apartado D un mínimo de 5 puntos sobre 10. En caso contrario la calificación final corresponderá con la del examen final.

Instrumentos de evaluación.

Pruebas escritas en clase e Internet, trabajo fin de curso y exposiciones orales en clase.

Recomendaciones para la evaluación.

Estudiar la asignatura de forma regular desde el principio.

Asistir a clase.

Consultar a la profesora las dudas que se tengan.

Recomendaciones para la recuperación.

Las anteriores.

La recuperación se realizará solamente sobre el examen final (apartado D), y se valorará junto con la nota obtenida en el proceso del curso, la evaluación continua (apartados A, B y C) en las mismas proporciones.

11. Organización docente semanal