Aprendizaje Automático sobre
Grandes Volúmenes de Datos

Clase 4

Pablo Ariel Duboue, PhD

Universidad Nacional de Córdoba,
Facultad de Matemática, Astronomía y Física
figura escudo.png

None.1 Cuarta Clase: Clasificación

None.1.1 Preguntas de la clase anterior

Material de lectura
Preguntas
Comentarios del feedback
NB: de conteos a probabilidades
Ejemplo de NB
1
$git clone https://github.com/DrDub/urlclassy.git
$ node
> eval(fs.readFileSync("example/features.js").toString()); eval(fs.readFileSync("example/classifier.js").toString())
> trained_classifier.totalExamples
373260
> trained_classifier.classTotals.Arts
18732
> trained_classifier.classTotals.Business
18477
NB: Conteos
Arte:
\strikeout off\uuline off\uwave offwww. 13957
\strikeout off\uuline off\uwave offww.a 1967
\strikeout off\uuline off\uwave offw.au 56
\strikeout off\uuline off\uwave off.aut 11
\strikeout off\uuline off\uwave offauto 6
\strikeout off\uuline off\uwave offutop 3
\strikeout off\uuline off\uwave offtopa 2
\strikeout off\uuline off\uwave offopar 9
\strikeout off\uuline off\uwave offpart 42
\strikeout off\uuline off\uwave offarts 150
\strikeout off\uuline off\uwave offrts. 70
\strikeout off\uuline off\uwave offts.c 128
\strikeout off\uuline off\uwave offs.co 2567
\strikeout off\uuline off\uwave off.com 13203
Negocios:
\strikeout off\uuline off\uwave offwww. 17115
\strikeout off\uuline off\uwave offww.a 1517
\strikeout off\uuline off\uwave offw.au 64
\strikeout off\uuline off\uwave off.aut 24
\strikeout off\uuline off\uwave offauto 49
\strikeout off\uuline off\uwave offutop 2
\strikeout off\uuline off\uwave offtopa 2
\strikeout off\uuline off\uwave offopar 5
\strikeout off\uuline off\uwave offpart 73
\strikeout off\uuline off\uwave offarts 48
\strikeout off\uuline off\uwave offrts. 84
\strikeout off\uuline off\uwave offts.c 392
\strikeout off\uuline off\uwave offs.co 3581
\strikeout off\uuline off\uwave off.com 14495
Ejemplo de NB
2
> var p_arts = trained_classifier.classTotals.Arts / trained_classifier.totalExamples; p_arts
0.0501848577399132
> var p_business = trained_classifier.classTotals.Business / trained_classifier.totalExamples; p_business
0.04950168783153834
> var ml_arts=1.0; for(var i=0; i<w.length;i++){var y=trained_classifier.classFeatures.Arts[trained_features[w[i]]]; if(y){ml_arts*=y / trained_classifier.classTotals.Arts}}; ml_arts
1.6008344829669292e-32
> var ml_business=1.0; for(var i=0; i<w.length;i++){var y=trained_classifier.classFeatures.Business[trained_features[w[i]]]; if(y){ml_business*=y/ trained_classifier.classTotals.Business}}; ml_business
4.330609317975143e-31

None.1.2 Smoothing

Estimando datos ausentes: smoothing
Simple Good-Turing
Frecuencia Frecuencia de la frecuencia
r Nr
1 120
2 40
3 24
4 13
5 15
6 5
7 11
8 2
9 2
10 1
11 0
12 3
Estimador r*
pr ≡ (r*)/(N)
r* = (r + 1)(E(Nr + 1))/(E(Nr))
Distribución de Zipf
Frecuencia de palabras en Wikipedia:
figura Wikipedia-n-zipf.png
(LGPL por Victor Grishchenko)
Usándolo en la práctica

None.1.3 SVMs

Separador de gran márgen
figura lineas.png
Un separador de gran márgen: mayor expectativa de mejor generalización
Intución
figura Svm_max_sep_hyperplane_with_margin.png
Separación en altas dimensiones
Kernel Trick

None.1.4 Regresión Logística

Regresión Lineal
figura Linear_regression.png
yi = β1xi1 + ⋯ + βpxip + εi = x\rmTiβ + εi,  i = 1, …, n
Estimación por least-squares
Representando en forma matricial y = Xβ + ε donde
y =  y1 y2 yn ,  X =  x\rmT1  x\rmT2  x\rmTn  =  x11 x1p x21 x2p xn1 xnp ,  β =  β1 β2 βp ,  ε =  ε1 ε2 εn
entonces podemos hacer una solución cerrada para β:
β̂ = (X\rmTX) − 1 X\rmTy = ( xix\rmTi ) − 1(  xiyi )
Función Logística
figura Logistic-curve.png
F(t) = (et)/(et + 1) = (1)/(1 + e − t)
Regresión Logística: intuición
Distribuciones de la familia exponencial