PROGRAMA ABIERTO DE COMPLEMENTACIÓN Y AMPLIACIÓN DE LA CURRICULA DE LA MAESTRÍA
La Maestría en Generación y Análisis de Información Estadística, en el marco de su Programa de Actualización Permanente de las Orientaciones de Estadísticas Económicas, Estadísticas Sociodemográficas y Estadísticas de Opinión y Mercado, en coordinación con la Secretaría de Extensión Universitaria y la Dirección de Posgrado, presenta el Ciclo de Seminarios y Cursos extracurriculares en Estadística para este año lectivo.
Coordinador: Jorge Fernández Bussy
Curso extracurricular: Técnicas de data mining y aprendizaje automático aplicadas a la investigación en opinión pública y de mercado. Árboles de decisión y Random Forest
Docente: Dr. Germán Rosati
Presentación y objetivo del curso:
Los métodos de aprendizaje automático (machine learning) han recibido, hasta el momento, escasa atención en las ciencias sociales. El presente seminario se propone introducir una de las herramientas de modelización de datos vinculadas a la estimación de árboles de respuesta. Los mismos resultan de gran utilidad para la predicción de variables tanto cuantitativas (árboles de regresión) como cualitativas (árboles de clasificación). El curso introducirá algunos elementos teóricos del aprendizaje automático (balance sesgo-variancia, overfitting, etc.) y algunos algoritmos para la estimación de árboles (CART). A su vez, presentará elementos teóricos referidos a la construcción de ensambles de modelos (ensamble learning) y los aplicará a unos de los modelos basados en árboles de decisión más robustos y utilizados: random forest. Se hará especial énfasis en algunos modelos de aplicación para problemas vinculados al campo de la opinión pública y la investigación de mercado. Para ello, se trabajará sobre algunos aspectos de la programación estadística en el lenguaje R.
El curso se propone que los alumnos:
- se familiaricen con algunos conceptos fundamentales del aprendizaje automático y el data mining,
- conozcan generalidades de algunos algoritmos para la generación de árboles de decisión (ID4, C4.5,CART),
- profundicen en la lógica de estimación de los modelos basados en random forest
- sean capaces de reconocer las condiciones de aplicación de un clasificador random forest,
- estén en condiciones de estimar e interpretar los resultados de la aplicación de un clasificador basado en random forest y
- logren identificar situaciones de aplicación de este tipo de modelos a problemas vinculados a la opinión pública e investigación de mercado, especialmente a la predicción de la intención de voto y al llamado churn/attrition (baja) de clientes.
Destinatarios: Estudiantes avanzados de carreras de grado y posgrado, técnicos, profesionales, investigadores, docentes y no docentes con conocimientos básicos de estadística descriptiva y cierta familiaridad con el modelo de regresión lineal y logística. Será útil (no excluyente) algún conocimiento del lenguaje R o alguna experiencia en programación estadística.
Requisitos para la cursada y aprobación
Para la aprobación del curso se requiere:
1) un mínimo de asistencia del 80% sobre el total de clases y
2) la entrega y aprobación de una monografía final en la que se estimará y analizará el resultado de la aplicación de un clasificador “Random Forest”.
Modalidad: Presencial
Días y Horario: viernes de 9.30 a 12.30 horas
Lugar de cursada: Centro Cultural Borges, Viamonte y San Martín, Pabellón de las Naciones, 3º piso, Ciudad de Buenos Aires.
Fecha de inicio: 09/9/2016
Fecha de finalización: 28/10/2016
Cantidad de clases: 8
Total de horas: 24 hs
Arancel: El curso tiene un costo total de $1.950
Alumnos regulares, docentes y graduados de la Universidad Nacional de Tres de Febrero reciben una reducción arancelaria del 50%
Informes e Inscripción: maestriaestadistica@untref.edu.ar