APPRENTISSAGE NON-SUPERVISÉ avec Python (24/30)

About
Share

Published On Mar 30, 2020

L'apprentissage Non-Supervisé (Unsupervised Learning) est une technique de Machine Learning tres populaire. Dans ce tutoriel Python sur sklearn en français, je vous dévoile les algorithmes les plus importants : K-Means Clustering, IsolationForest, et PCA (Analyse en composantes principales)

0:00 : Intro
00:33 : Apprentissage Non-Supervisé
03:17 : K-Means Clustering
06:04 : K-Means Sklearn
11:00 : K-Means – Elbow Method
14:50 : Anomaly Detection (Isolation Forest)
19:52 : Isolation Forest Sklearn
22:03 : Application Isolation Forest (digits)
26:54 : Réduction de dimension (PCA)
30:14 : Visualisation de données
33:14 : Compression de données
40:00 : Conclusion et exercice

Pour rappel, l’apprentissage supervisé est une technique d’apprentissage qui consiste à montrer à la machine des exemples X, y de ce qu’elle doit apprendre.
À l’inverse, l’apprentissage non-supervisé consiste à fournir à la machine uniquement des données X, et lui demander d’analyser la structure de ces données pour apprendre elle-même à réaliser certaines tâches.

1. Clustering
Une des applications les plus populaires de l’apprentissage non-supervisé est le Clustering. Le principe est de laisser la machine apprendre à trier des données selon leur ressemblances (et donc en analysant uniquement les features X).
Les algorithmes à connaitre :
K-Means : Tres rapide, mais non-efficace sur les clusters non-convexes.
AgglomerativeClustering : assez lent, mais efficace sur les données non-convexes
DBSCAN : efficace sur les données non-convexes, mais sélection du nombre de clusters automatique
Applications :
Trier des documents, des photos, des tweets
Segmenter la clientèle d’une entreprise
Optimiser l’organisation d’un système informatique, etc…

2. Détection d’Anomalies
Un autre exemple d’application de l’apprentissage non-supervisé est la Détection d’Anomalies. En analysant la structure X des données, la machine est capable de trouver les échantillons dont les features sont tres éloignées de celles des autres échantillons. Ces échantillons sont alors considérés comme étant des anomalies.
Les algorithmes à connaitres :
IsolationForest : Efficace pour détecter des outliers dans le train_set
Local Outlier Factor : Efficace pour détecter des anomalies futures
Applications :
Nettoyer un Dataset des valeurs aberrantes qui le composent
Détecter un comportement anormal sur un site Internet ou sur une caméra de surveillance
Maintenance prédictive des machines d’une usine

3. Réduction de dimension
La dernière application très importante de l’apprentissage non-supervisé est la réduction de dimension. Le principe est de réduire la complexité superflue d’un dataset en projetant ses données dans un espace de plus petite dimension (un espace avec moins de variables). Le but est d’Accélérer l’apprentissage de la machine et de Lutter contre le fléau de la dimension.
Algorithmes a connaitres :
Analyse en composantes principales (PCA) : le plus populaire et le plus simple a comprendre
TSNE
Isomap

Applications :
Visualisation de données : afficher sur un graphique 2D un espace de grande dimension
Compression de dataset : réduire au maximum le poids d’un dataset en conservant un maximum de qualité

► Me soutenir financierement sur Tipeee (et obtenir des vidéos BONUS)
https://fr.tipeee.com/machine-learnia

► REJOINS NOTRE COMMUNAUTÉ DISCORD
/ discord

► MON SITE INTERNET:
https://www.machinelearnia.com/

► Recevez gratuitement mon Livre:
APPRENDRE LE MACHINE LEARNING EN UNE SEMAINE
CLIQUEZ ICI:
https://www.machinelearnia.com/appren...

► Téléchargez gratuitement mes codes sur github:
https://github.com/MachineLearnia

► Abonnez-vous : / @machinelearnia

► Qui suis-je ?
Je suis Guillaume Saint-Cirgue, Senior Data Scientist avec plus de 8 ans d’expérience dans les secteurs de la tech, l’aviation, la robotique, l’énergie, et les usines connectées.

En 2019, j’ai créé Machine Learnia dans le but de partager mes connaissances dans le domaine de l’intelligence artificielle. Mon objectif est d’expliquer en détail le fonctionnement du Machine Learning et de ses algorithmes, tout en rendant ces concepts accessibles à tous.

Je suis convaincu qu'il ne suffit pas de survoler l'aspect mathématique de ce domaine; il est essentiel de s'y plonger en profondeur pour se démarquer. Cette approche a déjà convaincu plus de 150 000 personnes, et ceux que je forme aujourd'hui comptent parmi les meilleurs du secteur.

► Une question ? Contactez-moi: [email protected]

Published On Mar 30, 2020

Share/Embed

Video Link