Aprendizaje en Grandes Volúmenes de Datos, Clase 22 por Pablo Ariel Duboue, PhD disponible bajo licencia CC-BY-SA * descomprimir eclipse * eclipse * setear workspace * click on "show workspace" * Window > Preferences > Java > Installed JREs > add /usr/lib/jvm/java-7-openjdk-amd64 * File > Import > Maven > Existing Maven Projects mvn clean install package assembly:single (Nota: necesita mahout compilado directamente del source e instalado en el ~/.m2 local, ver clase 20 para las instrucciones) $HADOOP_PREFIX/bin/hadoop jar ./target/clase22-0.0.1-SNAPSHOT-jar-with-dependencies.jar net.aprendizajengrande.mahout.classificacion.clase22.Classifier /path/to/aprendizajengrande18/years.txt input output Classifier: crea en input/input secuencia de pares (llave, valor). Llave es "/$label/$id" (requerimiento de Mahout). Valor es VectorWritable con un DenseVector adentro. 10% de los datos van a input/testInput/part-r-00000 (requerimiento de Mahout). El modelo se entrena en output/model. Se testea contra ese 10% y la clasificacion va e output/test. Son vectores con llave "$labelOriginal" y valor vectores con labels como coordenadas y el valor de prediccion para ese label. Notas: * Hace falta usar ToolRunner * El test tiene que estar en testfolder/part-r-00000 * naive bayes no puede usar features menores que cero (negativas) corriendo sobre los 500k instancias de years.txt: ======================================================= Summary ------------------------------------------------------- Correctly Classified Instances : 781 1.5233% Incorrectly Classified Instances : 50489 98.4767% Total Classified Instances : 51270 corriendo sobre los 500k features de years.txt con Naive Bayes complementario: ======================================================= Summary ------------------------------------------------------- Correctly Classified Instances : 2923 5.6633% Incorrectly Classified Instances : 48690 94.3367% Total Classified Instances : 51613