Aprendizaje Automático sobre
Grandes Volúmenes de Datos

Clase 3

Pablo Ariel Duboue, PhD

Universidad Nacional de Córdoba,
Facultad de Matemática, Astronomía y Física
figura escudo.png

None.1 Tercera Clase: Clasificación

None.1.1 Preguntas de la clase anterior

Material de lectura
Utilización de representaciones vectoriales
Representación de árboles vía árbol común
figura new-unifier.png

None.1.2 Naive Bayes

Teorema de Bayes
P(A|B)P(B) = P(B|A)P(A) = P(A, B)
P(A|B) = (P(B|A)P(A))/(P(B))
En aprendizaje
P(y|f⃗) = (P(f⃗|y)P(y))/(P(f⃗))
Dos lecturas
Teorema de Bayes: Ejemplo
Naive Bayes
Ejemplo
Ejemplo: datos
Ejemplo: conteos
Estimando datos ausentes: smoothing

None.1.3 Árboles de decisión

Idea
figura CART_tree_titanic_survivors.png

(CC-BY-SA Stephen Milborrow, from Wikipedia)
Impuridad de Gini
Information Gain
ID3
ID3 (Ejemplos, Clase Objetivo, Features)
Crear un nodo raíz
Si todos los ejemplos son positivos, devolver la raíz con clase +
Si todos los ejemplos son negativos, devolver la raíz con clase -
Si no quedan features, devolver la raíz con clase igual al valor más común
Caso contrario
A ← la feature que mejor clasifica los ejemplos
El feature en la raíz es A
Para cada valor posible vi del feature A
Devolver la raíz
Ejemplo
Evitando el Overfitting