Aprendizaje Automático sobre Grandes Volúmenes de Datos

Material Anexo

Material Anexo disponible:

Census Income data en formato ARFF adaptado del UCI Machine Learning Repository (3.8 Mb)
Usado en las Clase 3 y Clase 5.
Archivo de entrenamiento extraido de Open Directory Project para usar con URL Classy (38 Mb)
Usado en la Clase 4.
Census Income data en formato ARFF sin valores numéricos ni faltantes (2.6Mb)
Usado en la Clase 5.
Perl script implementando information gain, public domain.
Usado en la Clase 5.
Hadoop 2 stable (2.4.1) más dos archivos java (133Mb).
Usado en la Clase 16.
Weka stable (3.6) más dos archivos java, más entrenamiento de música (207Mb).
Usado en la Clase 18.
Jython 2.7 beta más un archivo java (25Mb).
Usado en la Clase 19.
Mahout 1.0-SNAPSHOT (6651a328679742ce6c14ce8a4e6ab0bc0a05f7e9) compilado con Hadoop2 más 100k preferencias de MovieLens (118Mb).
Usado en la Clase 20.
Eclipse Kepler SR2 + Maven 3.2.3 + dos proyectos (207Mb).
Usado en la Clase 21.
Proyecto de clasificacion (4K).
Usado en la Clase 22.
DB para los primeros 100 mil commits en el repo GIT de linux. (24Mb)
Usado en la Clase 23.
Redis (v2.8.17) dump. (65Mb, ~6M keys).
Usado en la Clase 25.
Sample output.
Usado en la Clase 25.
357k java methods decompiled, together with the first word on its method name (24Mb).
Usado en la Clase 26.
Complementary Naive Bayes results.
Usado en la Clase 26.

Copyright 2014 Pablo Duboue, disponible bajo licencia CC-BY-SA.

Last modified: Sun Nov 30 22:26:12 EST 2014