8 Projets d'apprentissage automatique amusants pour les débutants

Dans ce guide, nous allons parcourir 8 projets d’apprentissage automatique amusants pour les débutants. Les projets font partie des meilleurs investissements de votre temps. Vous aimerez apprendre, resterez motivé et ferez des progrès plus rapides.

Vous voyez, aucune quantité de théorie ne peut remplacer la pratique pratique. Les manuels et les leçons peuvent vous bercer dans une fausse croyance de maîtrise parce que le matériel est là devant vous. Mais une fois que vous essayez de l’appliquer, vous risquez de découvrir que c’est plus difficile qu’il n’y paraît.

Les projets vous aident à améliorer rapidement vos compétences en ML appliqué tout en vous donnant la chance d’explorer un sujet intéressant.

En outre, vous pouvez ajouter des projets à votre portefeuille, ce qui vous permet de décrocher plus facilement un emploi, de trouver des opportunités de carrière cool et même de négocier un salaire plus élevé.

Voici 8 projets d’apprentissage automatique amusants pour les débutants. Vous pouvez compléter l’un d’entre eux en un seul week-end, ou les étendre en projets plus longs si vous les appréciez.

Table des matières

Gladiateur de l’apprentissage automatique
Jouer au Money Ball
Prédire le cours des actions
Apprendre à un réseau neuronal à lire l’écriture manuscrite
Enquêter sur Enron

Écrire des algorithmes ML à partir de zéro
Miner le sentiment des médias sociaux
Améliorer les soins de santé

Glaadiateur de l’apprentissage automatique

Nous l’appelons affectueusement » gladiateur de l’apprentissage automatique, » mais ce n’est pas nouveau. C’est l’une des façons les plus rapides de construire une intuition pratique autour de l’apprentissage automatique.

Le but est de prendre des modèles prêts à l’emploi et de les appliquer à différents ensembles de données. Ce projet est génial pour 3 raisons principales :

Premièrement, vous allez construire de l’intuition pour l’adéquation modèle-problème. Quels modèles sont robustes aux données manquantes ? Quels modèles gèrent bien les caractéristiques catégorielles ? Oui, vous pouvez creuser dans les manuels pour trouver les réponses, mais vous apprendrez mieux en le voyant en action.

Deuxièmement, ce projet vous enseignera la compétence inestimable de prototyper rapidement des modèles. Dans le monde réel, il est souvent difficile de savoir quel modèle sera le plus performant sans simplement les essayer.

Enfin, cet exercice vous aide à maîtriser le flux de travail de la construction de modèles. Par exemple, vous aurez l’occasion de pratiquer…

L’importation de données
Le nettoyage des données
La division en ensembles d’entraînement/de test ou de validation croisée
Pré-traitement
Transformations
L’ingénierie des caractéristiques

Parce que vous utiliserez des modèles prêts à l’emploi, vous aurez la possibilité de vous concentrer sur le perfectionnement de ces étapes critiques.

Consultez les pages de documentation de sklearn (Python) ou de caret (R) pour obtenir des instructions. Vous devriez pratiquer les algorithmes de régression, de classification et de clustering.

Tutoriels

Python : sklearn – Tutoriel officiel pour le paquet sklearn
Prédire la qualité du vin avec Scikit-Learn – Tutoriel étape par étape pour la formation d’un modèle d’apprentissage automatique
R : caret – Webinaire donné par l’auteur du paquet caret

Sources de données

Dépôt d’apprentissage automatique de l’UCI – 350+ jeux de données consultables couvrant presque tous les sujets. Vous trouverez certainement des jeux de données qui vous intéressent.
Jeux de données Kaggle – 100+ jeux de données téléchargés par la communauté Kaggle. Il y a quelques jeux de données vraiment amusants ici, notamment les lieux de frai de PokemonGo et les Burritos à San Diego.
data.gov – Jeux de données ouverts publiés par le gouvernement américain. Excellent endroit pour regarder si vous êtes intéressé par les sciences sociales.

Play Money Ball

Dans le livre Moneyball, les Oakland A’s ont révolutionné le baseball grâce au dépistage analytique des joueurs. Ils ont construit une équipe compétitive en ne dépensant qu’un tiers de ce que les équipes des grands marchés comme les Yankees payaient en salaires.

Premièrement, si vous n’avez pas encore lu le livre, vous devriez le consulter. C’est l’un de nos préférés !

Heureusement, le monde du sport dispose d’une tonne de données avec lesquelles jouer. Les données relatives aux équipes, aux matchs, aux scores et aux joueurs sont toutes suivies et librement disponibles en ligne.

Il existe de nombreux projets d’apprentissage automatique amusants pour les débutants. Par exemple, vous pourriez essayer…

Des paris sportifs… Prédire les box scores compte tenu des données disponibles au moment juste avant chaque nouveau match.
Dépistage de talents… Utiliser les statistiques des collèges pour prédire quels joueurs auraient les meilleures carrières professionnelles.
Gestion générale… Créez des groupes de joueurs en fonction de leurs points forts afin de construire une équipe bien équilibrée.

Le sport est également un excellent domaine pour pratiquer la visualisation de données et l’analyse exploratoire. Vous pouvez utiliser ces compétences pour vous aider à décider quels types de données inclure dans vos analyses.

Sources de données

Base de données de statistiques sportives – Statistiques sportives et données historiques couvrant de nombreux sports professionnels et plusieurs sports universitaires. L’interface épurée facilite le web scraping.
Sports Reference – Une autre base de données de statistiques sportives. Interface plus encombrée, mais les tableaux individuels peuvent être exportés en fichiers CSV.
cricsheet.org – Données balle par balle pour les matchs de cricket internationaux et IPL. Des fichiers CSV pour les matchs internationaux IPL et T20 sont disponibles.

Prédire les prix des actions

Le marché boursier est comme un pays de bonbons pour tous les data scientists qui s’intéressent de près ou de loin à la finance.

Premièrement, vous avez de nombreux types de données parmi lesquels vous pouvez choisir. Vous pouvez trouver des prix, des fondamentaux, des indicateurs macroéconomiques mondiaux, des indices de volatilité, etc… la liste est longue.

Deuxièmement, les données peuvent être très granulaires. Vous pouvez facilement obtenir des données de séries chronologiques par jour (ou même par minute) pour chaque entreprise, ce qui vous permet de réfléchir de manière créative à des stratégies de trading.

Enfin, les marchés financiers ont généralement des cycles de rétroaction courts. Par conséquent, vous pouvez rapidement valider vos prédictions sur de nouvelles données.

Plusieurs exemples de projets d’apprentissage automatique adaptés aux débutants que vous pourriez essayer incluent…

Investissement quantitatif de valeur… Prédire les mouvements de prix à 6 mois sur la base d’indicateurs fondamentaux provenant des rapports trimestriels des entreprises.
Prévision… Construire des modèles de séries temporelles, voire des réseaux neuronaux récurrents, sur le delta entre la volatilité implicite et la volatilité réelle.
Arbitrage statistique… Trouver des actions similaires sur la base de leurs mouvements de prix et d’autres facteurs et rechercher les périodes où leurs prix divergent.

Déni de responsabilité évident : construire des modèles de trading pour pratiquer l’apprentissage automatique est simple. Les rendre rentables est extrêmement difficile. Rien ici n’est un conseil financier, et nous ne recommandons pas de trader de l’argent réel.

Tutoriels

Python : sklearn for Investing – Série de vidéos YouTube sur l’application de l’apprentissage automatique à l’investissement.
R : Quantitative Trading with R – Notes de cours détaillées pour la finance quantitative avec R.

Sources de données

Quandl – Marché de données qui fournit des données financières et économiques gratuites (et premium). Par exemple, vous pouvez télécharger en masse les cours boursiers de fin de journée de plus de 3000 entreprises américaines ou les données économiques de la Réserve fédérale.
Quantopian – Communauté de finance quantitative qui offre une plateforme gratuite pour développer un algorithme de trading. Comprend des ensembles de données.
Archives fondamentales américaines – 5 ans de données fondamentales pour plus de 5000 entreprises américaines.

Apprendre à un réseau neuronal à lire l’écriture manuscrite

Les réseaux neuronaux et l’apprentissage profond sont deux réussites de l’intelligence artificielle moderne. Ils ont permis des avancées majeures dans la reconnaissance d’images, la génération automatique de texte, et même dans les voitures à conduite autonome.

Pour vous lancer dans ce domaine passionnant, vous devez commencer par un ensemble de données gérable.

Le défi de classification de chiffres manuscrits du MNIST est le point d’entrée classique. Les données d’image sont généralement plus difficiles à travailler que les données relationnelles « plates ». Les données MNIST sont conviviales pour les débutants et sont suffisamment petites pour tenir sur un ordinateur.

La reconnaissance de l’écriture manuscrite vous mettra au défi, mais elle ne nécessite pas une grande puissance de calcul.

Pour commencer, nous vous recommandons avec le premier chapitre du tutoriel ci-dessous. Il vous apprendra à construire un réseau neuronal à partir de zéro qui résout le défi MNIST avec une grande précision.

Tutoriel

Réseaux neuronaux et apprentissage profond (livre en ligne) – Le chapitre 1 explique comment écrire un réseau neuronal à partir de zéro en Python pour classer les chiffres de MNIST. L’auteur donne également une très bonne explication de l’intuition derrière les réseaux neuronaux.

Sources de données

MNIST – MNIST est un sous-ensemble modifié de deux ensembles de données collectés par l’Institut national des normes et de la technologie des États-Unis. Il contient 70 000 images étiquetées de chiffres manuscrits.

Enquête sur Enron

Le scandale et l’effondrement d’Enron a été l’une des plus grandes fusions d’entreprises de l’histoire.

En l’an 2000, Enron était l’une des plus grandes entreprises énergétiques d’Amérique. Puis, après avoir été démasquée pour fraude, elle a sombré dans la faillite en l’espace d’un an.

Heureusement pour nous, nous disposons de la base de données des courriels d’Enron. Elle contient 500 mille courriels entre 150 anciens employés d’Enron, pour la plupart des cadres supérieurs. C’est également la seule grande base de données publique constituée de véritables courriels, ce qui la rend encore plus précieuse.

En fait, les data scientists utilisent cet ensemble de données pour l’enseignement et la recherche depuis des années.

Des exemples de projets d’apprentissage automatique pour les débutants que vous pourriez essayer incluent…

Détection d’anomalies… Cartographiez la distribution des courriels envoyés et reçus par heure et essayez de détecter un comportement anormal menant au scandale public.
Analyse des réseaux sociaux… Construisez des modèles de graphes de réseaux entre les employés pour trouver les influenceurs clés.
Traitement du langage naturel… Analyser le corps des messages en conjonction avec les métadonnées des courriels pour classer les courriels en fonction de leurs objectifs.

Sources de données

Enron Email Dataset – Il s’agit des archives de courriels d’Enron hébergées par la CMU.
Description des données d’Enron (PDF) – Analyse exploratoire des données de courriels d’Enron qui pourrait vous aider à acquérir vos bases.

Écrire des algorithmes ML à partir de zéro

Écrire des algorithmes d’apprentissage automatique à partir de zéro est un excellent outil d’apprentissage pour deux raisons principales.

Premièrement, il n’y a pas de meilleur moyen de construire une véritable compréhension de leur mécanique. Vous serez obligé de réfléchir à chaque étape, ce qui conduit à une véritable maîtrise.

Deuxièmement, vous apprendrez à traduire des instructions mathématiques en code fonctionnel. Vous aurez besoin de cette compétence lorsque vous adapterez des algorithmes issus de la recherche universitaire.

Pour commencer, nous vous recommandons de choisir un algorithme qui n’est pas trop complexe. Il y a des dizaines de décisions subtiles que vous devrez prendre, même pour les algorithmes les plus simples.

Une fois que vous êtes à l’aise pour construire des algorithmes simples, essayez de les étendre pour plus de fonctionnalités. Par exemple, essayez d’étendre un algorithme de régression logistique vanille en une régression lasso/ridge en ajoutant des paramètres de régularisation.

Enfin, voici un conseil que tout débutant devrait connaître : Ne vous découragez pas si votre algorithme n’est pas aussi rapide ou fantaisiste que ceux des paquets existants. Ces paquets sont le fruit d’années de développement !

Tutoriels

Python : Logistic Regression from Scratch
Python : k-Nearest Neighbors from Scratch
R : Logistic Regression from Scratch

Mine Social Media Sentiment

Les médias sociaux sont presque devenus synonymes de « big data » en raison de la quantité même de contenu généré par les utilisateurs.

L’exploitation de ces riches données peut s’avérer des moyens sans précédent de prendre le pouls des opinions, des tendances et du sentiment public. Facebook, Twitter, YouTube, WeChat, WhatsApp, Reddit… la liste est longue.

En outre, chaque génération passe encore plus de temps sur les médias sociaux que ses prédécesseurs. Cela signifie que les données des médias sociaux sont vont devenir encore plus pertinentes pour le marketing, la stratégie de marque et les entreprises dans leur ensemble.

Bien qu’il existe de nombreuses plateformes de médias sociaux populaires, Twitter est le point d’entrée classique pour pratiquer l’apprentissage automatique.

Avec les données Twitter, vous obtenez un mélange intéressant de données (contenu du tweet) et de métadonnées (emplacement, hashtags, utilisateurs, re-tweets, etc.) qui ouvrent des voies d’analyse presque infinies.

Tutoriels

Python : Mining Twitter Data – Comment effectuer une analyse des sentiments sur les données Twitter
R : Sentiment analysis with machine learning – Tutoriel court et doux sur l’analyse des sentiments

Sources de données

Application Twitter – L’API twitter est une source classique de données en continu. Vous pouvez suivre les tweets, les hashtags, et plus encore.
Api StockTwits – StockTwits est comme un twitter pour les traders et les investisseurs. Vous pouvez étendre cet ensemble de données de plusieurs façons intéressantes en le joignant à des ensembles de données de séries temporelles à l’aide de l’horodatage et du symbole du téléscripteur.

Améliorer les soins de santé

Un autre secteur qui connaît des changements rapides grâce à l’apprentissage automatique est la santé mondiale et les soins de santé.

Dans la plupart des pays, devenir médecin nécessite de nombreuses années d’études. C’est un domaine exigeant avec de longues heures, des enjeux élevés et une barrière à l’entrée encore plus élevée.

Par conséquent, des efforts importants ont récemment été déployés pour alléger la charge de travail des médecins et améliorer l’efficacité globale du système de soins de santé avec l’aide de l’apprentissage automatique.

Les cas d’utilisation comprennent :

Les soins préventifs… Prédire les épidémies de maladies au niveau individuel et communautaire.
Les soins diagnostiques… Classer automatiquement les données d’image, telles que les scans, les radiographies, etc.
Assurance… Ajuster les primes d’assurance en fonction des facteurs de risque disponibles publiquement.

Alors que les hôpitaux continuent de moderniser les dossiers des patients et que nous collectons des données de santé plus granulaires, il y aura un afflux d’opportunités à portée de main pour que les data scientists puissent faire la différence.

Tutoriels

R : construire des modèles d’apprentissage automatique significatifs pour la prédiction des maladies
L’apprentissage automatique dans les soins de santé – Excellente présentation de Microsoft Research