Aprendizaje Automático sobre
Grandes Volúmenes de Datos

Clase 6

Pablo Ariel Duboue, PhD

Universidad Nacional de Córdoba,
Facultad de Matemática, Astronomía y Física
figura escudo.png

None.1 Sexta Clase: Aprendizaje No Supervisado

None.1.1 Clase anterior

Material de lectura
Preguntas
Reducción de dimensionalidad
MTME = EL
En qué van a ser evaluados
Recordatorio

None.1.2 Aprendizaje No Supervisado

Aprendiendo lo que uno no sabe
Mi tesis
cc 5cm\smallActor, bornThomasConneryonAugust25, 1930, inFountainbridge, Edinburgh, Scotland, thesonofatruckdriverandcharwoman.Hehasabrother, Neil, bornin1938.ConnerydroppedoutofschoolatagefifteentojointheBritishNavy.Conneryisbestknownforhisportrayalofthesuave, sophisticatedBritishspy, JamesBond, inthe1960s.… amp; 5cm\includegraphics[width = 5cm]graph

None.1.3 Clustering

Clustering
Una cuestión de distancias
Ejemplos de distancias
Ejemplo de distancia
dist(i1, i2) = α1distage(age1, age2) + α2distworkclass(workclass1, workclass2) + α3disteducation(education1, education2) + …
Tipos de clustering
Algoritmos por partición
Algoritmos jerárquicos
Todos los pares
figura cluster-by-full-profile.png
Algoritmos por densidad
Algoritmos "fuzzy"
K-Means
K-Means, gráficamente
figura K_Means_Example_Step_1.png figura K_Means_Example_Step_2.png figura K_Means_Example_Step_3.png figura K_Means_Example_Step_4.png
(Wikipedia)
Un cluster dominante
MatchFWD: Problem
figura matchfwd1.png
Ejemplo de Clustering
distancia(compañía1, compañía2) = (|gentetrabajóparaambas|)/(|gentetrabajóparacualquiera|)
¿Cuántos clusters?
Etapas del proceso de Clustering
figura pasos_de_clustering.png
Adaptado de Halkidi et al (2001), Fig. 1
Validando Clusters
Validación Interna
Métricas de Berry y Linoff
  1. Compactitud, los miembros de cada cluster deben estar tan cercanos entre ellos como sea posible.
    Metric: variance (to minimize).
  2. Separación, los cluster deben estar muy espaciados entre sí.
    Medimos la distancia entre los dos clusters:
    Linkeo simple mide la distancia entre los miembros de los clusters.
    Linkeo compleo mide la distancia entre los miembros más distantes.
    Comparación de centroides mide la distancia entre los centros de los clusters.
Coeficiente de Silueta
Índice de David-Bouldin
DB = (1)/(n)ni = 1maxi ≠ j(σi + σj)/(d(ci, cj))
donde
Índice de Dunn
D = min1 ≤ i ≤ nmin1 ≤ j ≤ n, i ≠ j(d(i, j))/(max1 ≤ k ≤ nd(k))
donde
Correlación Cofenética (para dendagramas)
c = (i < j(x(i, j) − x)(t(i, j) − t))/(([i < j(x(i, j) − x)2][i < j(t(i, j) − t)2]))
donde
Robustez: Partición de muestras
  1. Partir los datos en dos, al azar
  2. Hacer el cluster de un grupo y clasificar los elementos del segundo usando los centroides del primero
  3. Hacer cluster del segundo grupo y extenderlo al primero como antes
  4. Comparar los dos clusterings, por ejemplo, el índice de Rand
Validación Externa
Si existe un standard con el mismo número exacto de clusters y una correspondecia entre ellos, se puede usar la estadística kappa directamente
Matriz de Confusión
cm(Π) = (m − ki = 1ciri)/(m)
Pureza
p(Π) = ki = 1(|πi|)/(m)p(πi)
Precision / Recall / F
Coeficientes de Rand / Jaccard
m00  =  |xjπ, xiπmin| m10  =  |xj ∈ π, xiπmin| m01  =  |xjπ, xi ∈ πmin| m11  =  |xj ∈ π, xi ∈ πmin|
Estadistica de Rand  =  (m00 + m11)/(m00 + m01 + m10 + m11)  Coeficiente de Jaccard  =  (m11)/(m01 + m10 + m11)
LaΓ de Hubert
Es una métrica de similitud de dos matrices definidas así:
Γ = (1)/(M)N − 1i = 1Nj = i + 1X(i, j)Y(i, j)
Γ = (1)/(M)N − 1i = 1Nj = i + 1(X(i, j) − μX)(Y(i, j) − μY)σXσY
dondeX, Y son las matrices a comparar (con media y varianzasμx, μY, σX, σY, respectivamente ), M es el total de puntos y N es el total de clusters
Matrices que se suelen usar:
Rechazando la hipótesis nula