Primera parte: análisis exploratorio de datos numéricos
Introducción a la ciencia de datos. Consideraciones prácticas y éticas. Repaso Python, Google Colab, herramientas para la materia.
Distintos tipos de datos en ciencia de datos.
Procesamiento y preparación de datos numéricos. Estandarización, normalización, detección y remoción de outliers, datos faltantes.
Estadística descriptiva. Medias, medianas, cuartiles, desvío estándar, error estándar. Distribuciones. Rudimentos de probabilidad.
Visualización de datos. Tipos de plots básicos y cuando usarlos: scatter, barras, boxplots, violinplots, tortas, y otros.
Segunda parte: modelos de regresión
Regresión lineal, cuadrados mínimos. Introducción a scikit-learn. Regresión lineal, cuadrados mínimos.
Regresión lineal, polinomios. Concepto de overfiteado.
Regresión logística. Clasificación vs. regresión.
Regresión lineal y logística como algortimos de ML. Conceptos básicos de ML: función de costo, optimización, gradient descent
Tercera parte: modelos de clasificación
Test set-train set. Cross-validation. Métricas para la medición de performance en regresión y clasificación. Label shuffling.
Clasificador lineal.
Clasificación basada en instancias (KNN)
Árboles de decisión. Ensembles de árboles aleatorios (random forest)
Support vector machines. Kernels.
Cuarta parte: clustering y reducción de la dimensionalidad
Clustering de datos y reducción de la dimensionalidad (ejemplo y análisis: PCA)
Clustering de datos y reducción de la dimensionalidad (ejemplo y análisis: kmeans, kmeans jerárquico)
Quinta parte: obtención de datos, datos no numéricos
Uso de APIs, obtención de keys, requests, distintos ejemplos
Scrapeo de páginas web.
Preprocesado y limpieza de datos no numéricos, principalmente texto.
Preprocesado de datos de texto (segunda parte): matriz de frecuencia, TF-IDF, nube de palabras, análisis de emotividad.
Sexta parte: introducción al procesamiento del lenguaje natural.
Clasificación de documentos (KNN, Bayes)
Detección de tópicos (LSA, NMF, LDA)
Ejemplos de adquisición y visualización de otros tipos de datos (datos geoespaciales, visualización)