Programa

Primera parte: análisis exploratorio de datos numéricos

Introducción a la ciencia de datos. Consideraciones prácticas y éticas. Repaso Python, Google Colab, herramientas para la materia.

Distintos tipos de datos en ciencia de datos.

Procesamiento y preparación de datos numéricos. Estandarización, normalización, detección y remoción de outliers, datos faltantes.

Estadística descriptiva. Medias, medianas, cuartiles, desvío estándar, error estándar. Distribuciones. Rudimentos de probabilidad.

Visualización de datos. Tipos de plots básicos y cuando usarlos: scatter, barras, boxplots, violinplots, tortas, y otros.

 

Segunda parte: modelos de regresión

Regresión lineal, cuadrados mínimos. Introducción a scikit-learn. Regresión lineal, cuadrados mínimos.

Regresión lineal, polinomios. Concepto de overfiteado.

Regresión logística. Clasificación vs. regresión.

Regresión lineal y logística como algortimos de ML. Conceptos básicos de ML: función de costo, optimización, gradient descent

 

Tercera parte: modelos de clasificación

Test set-train set. Cross-validation. Métricas para la medición de performance en regresión y clasificación. Label shuffling.

Clasificador lineal.

Clasificación basada en instancias (KNN)

Árboles de decisión. Ensembles de árboles aleatorios (random forest)

Support vector machines. Kernels.

 

Cuarta parte: clustering y reducción de la dimensionalidad

Clustering de datos y reducción de la dimensionalidad (ejemplo y análisis: PCA)

Clustering de datos y reducción de la dimensionalidad (ejemplo y análisis: kmeans, kmeans jerárquico)

 

Quinta parte: obtención de datos, datos no numéricos

Uso de APIs, obtención de keys, requests, distintos ejemplos

Scrapeo de páginas web.

Preprocesado y limpieza de datos no numéricos, principalmente texto.

Preprocesado de datos de texto (segunda parte): matriz de frecuencia, TF-IDF, nube de palabras, análisis de emotividad.

 

Sexta parte: introducción al procesamiento del lenguaje natural.

Clasificación de documentos (KNN, Bayes)

Detección de tópicos (LSA, NMF, LDA)

Ejemplos de adquisición y visualización de otros tipos de datos (datos geoespaciales, visualización)

Print Friendly, PDF & Email