Podcast: Téléchargement
Dans ce numéro, Vincent Heuschling nous parle de Machine Learning et nous en décrit les principes de base.
Contenu
-
Qu’est ce que le Machine Learning
-
Différence ML et stats (descriptives, Inférences, Bayes)
-
Data driven décision, dépasser le cadre de la Business Intelligence traditionnelle
-
pourquoi c’est Indispensable qd on a beaucoup de données
-
-
A quoi ça sert (rapidement)
-
Web – Personnalisation
-
Web – Recommandation
à lire :
http://www.mapr.com/practical-machine-learning
à ecouter : http://www.podcastscience.fm/dossiers/2012/04/25/les-algorithmes-de-recommandation/ -
Modèles prédictifs
-
Segmentation marketing
-
-
Comment ça marche
-
Différences entre Supervisé et Non-supervisé
-
Classification
-
Regression
-
Similarité (recommenders)
-
Clustering
-
Co-occurence
-
Prédictions
-
Overfitting
-
-
Panorama des outils disponibles :
-
R avec Rstudio => l’option du statisticien, c’est pas à la base un outil de développeur. Facile à prendre en main, avec un bel environnement de travail
-
Python / Scikitlearn => l’option du développeur, orienté sur la construction d’applications
-
Hadoop / Mahout => La scalabilité infinie par le Map-Reduce
-
Spark (in-memory bigdata en scala, python et R, avec la bibliothèque MLLib ) => Les très hautes performances…
-
Les librairies Scala dédiées au ML et à l’analyse métier http://www.scalanlp.org/
-
Davavisualisation: http://d3js.org/
-
-
R
-
Scripté
-
Pas dans la JVM (important qd on travaille dans un contexte bigdata / hadoop)
-
RStudio
-
Très performant sur la manipulation de vecteurs, de matrices <= tout est matrice en ML
-
Un très grand nombre de bibliothèques techniques et ‘métier’ (la richesse majeure de R).
-
Outils pour la datavisualisation.
-
Des app web avec Shiny.
-
Une façon fun de découvrir R: https://www.datacamp.com/
-
Le pb de la scalabilité et des traitements distribués
-
Conférences sur le sujet:
-
O’Reilly Strata (http://strata.oreilly.com/)
prochain mooc sur R sur france université numérique https://www.france-universite-numerique-mooc.fr/courses/Paris11/15001/Trimestre_2_2014/about