Aprendizaje Automático sobre
Grandes Volúmenes de Datos

Clase 1 - 11 de Agosto 2014

Pablo Ariel Duboue, PhD

Universidad Nacional de Córdoba,
Facultad de Matemática, Astronomía y Física
figura escudo.png

None.1 Primera Clase: Generalidades

None.1.1 Generalidades de la Materia

Qué es el aprendizaje automático sobre grandes volúmenes de datos
A quiénes está dirigida esta materia
Estructura del curso
Tres partes:
  1. Aprendizaje Automático (teórico)
  2. Computo Distribuido (teórico)
  3. Práctica (mahout/hadoop)
Parte I
Parte II
Parte III
Casos de estudio
Evaluación
Acerca del docente
.

None.1.2 Generalidades del Aprendizaje Automático

Aprendizaje Automático
Algoritmos con error intrínseco
Datos
Aprendizaje Automático como compilación
Algoritmos vs. teoría

None.1.3 Clasificación, Sistemas de Recomendación y Aprendizaje Sin Supervisación

Clasificación
Una visión como desarrolladores
Ejemplo: Biología
Biología: features
term gene protein mRNA
PRIORS 0.44 0.42 0.14
D-PHE-PRO-VAL-ORN-LEU 1.0
NOVAGEN 0.46 0.46 0.08
GLCNAC-MAN 1.0
REV-RESPONSIVE 0.5 0.5
EPICENTRE 1.0
GENEROUSLY 0.33 0.67
Biología: resultados
Ejemplo: Etiquetado morfosintáctico del francés
Francés: features
Aprendizaje sin supervisación
Ejemplo: recursos humanos
distancia(compañía1, compañía2) = (|gentetrabajóparaambas|)/(|gentetrabajóparacualquiera|)
Recursos humanos: resultados
Thoughtland
Recomendación
Aprendizaje por refuerzo

None.1.4 Ciclo del Aprendizaje Automático

Recopilación de datos
Anotación
Entrenamiento
Entendiendo el error

None.1.5 Grandes volúmenes de datos

La democratización del cómputo
Los resultados inesperados de la abundancia
Hadoop
Un nodo hadoop

None.1.6 Características (features) para el Aprendizaje

Representando una instancia
Representando valores complejos
Inventando features
  1. Probar con todo lo que se le ocurra a uno
  2. Reflexionar
    1. ¿Qué información utilizaría usted para resolver ese problema?
    2. Mire trabajos publicados
      • Artículos de investigación: http://aclweb.org/anthology-new/
      • Blogs
      • Proyectos de software libre
  3. Agregue features computables
    • ¡Aprender a sumar requiere montañas de datos!
Feature engineering
figura watson_merging.png
Las primeras cuatro fases de aprendizaje y ranqueo, de Gondek, Lally, Kalyanpur,
Murdock, Duboue, Zhang, Pan, Qiu, Welty (2012)
Algunas librerías de Aprendizaje Automático