Aprendizaje Automático sobre
Grandes Volúmenes de Datos

Clase 15

Pablo Ariel Duboue, PhD

Universidad Nacional de Córdoba,
Facultad de Matemática, Astronomía y Física
figura escudo.png

None.1 Décima Quinta Clase: Paralelizando Árboles de Decisión

None.1.1 Clase anterior

Material de lectura
Preguntas
Recordatorio

None.1.2 Clase Anterior

Naive Bayes en MapReduce
Algoritmos Actualizables
Búsqueda Distribuída
Corrigiendo los errores de Naive Bayes
Naive Bayes Multinomial
p(d|θc) = ((ifi)!)/(ifi!)(θci)fi
mapNB(d) = argmaxc[logp(θc) + ifilogθci] = argmaxc[bc + ifiwci]
θ̂ci = (Nci + αi)/(Nc + α)
Mejoras
θ̂ci = (Nci + αi)/(Nc + α)
mapCNB(d) = argmaxc[logp(θc) − ifilogθ̂ci]
ci = (logθ̂ci)/(k|logθ̂ck|)

None.1.3 Random Forests

Meta-learning y métodos ensemble
Random Forests
Midiendo el Error de Generalización
Paralelizando Random Forests

None.1.4 Cierre Cómputo Distribuido

Resúmen
MapReduce
Teorema CAP
Operaciones Matriciales Distribuidas
Temas Claves
Descenso por el Gradiente
Otros Modelos
Paralelizando Algoritmos