Aprendizaje en Grandes Volúmenes de Datos, Clase 21 por Pablo Ariel Duboue, PhD disponible bajo licencia CC-BY-SA Comentarios clase pasada: * El proyecto es en Java? Depende del tipo de proyecto que quieran hacer pero en su gran mayoria, si. * Ventajas/desventajas de usar una distro hadoop (por ejemplo Cloudera). Muy ventajoso. Desventajas son a nivel de bug-fixes y features avanzadas. Pero sabes que versiones andan con cuales versiones, lo que es muy util cuando empezas a sumar proyectos fuera de hadoop-core (HBase, etc). * Mahout y HDFS. Los ejemplos que vimos la clase pasada corren desde HDFS simplemente cambiando la configuracion del cliente hadoop en $HADOOP_PREFIX * Como editar los programas que vienen con hadoop. Esta agregado al final de las notas de la clase pasada: $ jar xf ./mahout-examples-1.0-SNAPSHOT-job.jar driver.classes.default.props $ grep recommenditembased driver.classes.default.props org.apache.mahout.cf.taste.hadoop.item.RecommenderJob = recommenditembased : Compute recommendations using item-based collaborative filtering $ git clone https://github.com/apache/mahout.git $ cd mahout $ find . -name RecommenderJob.java ./mrlegacy/src/main/java/org/apache/mahout/cf/taste/hadoop/item/RecommenderJob.java * Tecnologia y el esfuerzo para seguirla * RFP: Spark / Hadoop Streamming Esta clase: * maven build ver pom.xml ver Java files mvn install export JAVA_HOME export HADOOP_PREFIX create in folder with some text create empty out folder $HADOOP_PREFIX/bin/hadoop jar ./target/clase21-0.0.1-SNAPSHOT.jar net.aprendizajengrande.maven.clase21.WordCount in out * clustering en mahout: mvn install -DskipTests -Drelease -Dmahout.skip.distribution=false -Dhadoop.profile=200 -Dhadoop2.version=2.4.1 -Dhbase.version=0.98.0-hadoop2 ver pom.xml --> mahout dependencies --> fat jar plugin NB: fat jar will give you trouble if hadoop version is different in the Hadoop cluster (or custom) mvn clean install assembly:single export JAVA_HOME export HADOOP_PREFIX create input file with comma-delimited numeric data create empty out folder $HADOOP_PREFIX/bin/hadoop jar ./target/clase21-0.0.1-SNAPSHOT-jar-with-dependencies.jar net.aprendizajengrande.mahout.cluster.clase21.Clusterer top20k.txt in out * Custom distance Ver clase DistanciaMusical (usa un componente distinto para el año) Para más sobre distancias de clustering, ver Clase 6.