Le deep learning est la branche du Machine Learning qui utilise des réseaux de neurones profonds pour apprendre des représentations hiérarchiques à partir des données brutes. C'est la technologie derrière la reconnaissance d'images, les assistants vocaux et les LLM.
Le neurone artificiel : unité de base
Un neurone artificiel reçoit des entrées numériques, les pondère, les somme et applique une fonction d'activation non linéaire. Cette non-linéarité est essentielle : sans elle, empiler des couches n'aurait aucun avantage sur un modèle linéaire.
- Entrées x₁, x₂, ..., xₙ multipliées par des poids w₁, w₂, ..., wₙ
- Somme pondérée : z = w₁x₁ + w₂x₂ + ... + b (biais)
- Fonction d'activation : sigmoid, ReLU, tanh, GELU selon l'architecture
- Sortie : valeur transformée transmise aux neurones de la couche suivante
Fonctions d'activation : donner la non-linéarité
La fonction d'activation détermine si un neurone est « actif » et quelle information il transmet. ReLU (Rectified Linear Unit) est aujourd'hui la plus utilisée pour les couches cachées car elle est simple, efficace et ne souffre pas du problème de gradient évanescent.
- ReLU : max(0, x) — simple, rapide, standard pour les couches cachées
- Sigmoid : [0,1] — utilisée pour les sorties de classification binaire
- Softmax : probabilités qui somment à 1 — sortie pour la classification multiclasse
- GELU : utilisée dans les Transformers (GPT, BERT) pour ses meilleures propriétés
La rétropropagation : comment le réseau apprend
La rétropropagation (backpropagation) est l'algorithme d'apprentissage des réseaux de neurones. Elle calcule le gradient de la perte par rapport à chaque poids du réseau, permettant de les mettre à jour dans la direction qui réduit l'erreur.
- Propagation avant (forward pass) : calcul des prédictions couche par couche
- Calcul de la perte (loss) : mesurer l'écart entre prédiction et vérité
- Rétropropagation : calcul des gradients via la règle de la chaîne
- Mise à jour des poids : gradient descent (SGD, Adam, AdamW)
CNN : réseaux convolutifs pour les images
Les réseaux de neurones convolutifs (CNN) sont l'architecture de référence pour la vision par ordinateur. Ils exploitent la localité spatiale des images : au lieu de connecter chaque pixel à chaque neurone, ils apprennent des filtres locaux qui se déplacent sur toute l'image.
- Couche de convolution : détecte des patterns locaux (bords, textures, formes)
- Pooling (max ou average) : réduit la dimension spatiale et ajoute de l'invariance
- Couches fully connected : classification finale sur les features apprises
- Architectures pré-entraînées : ResNet, EfficientNet, ViT — transfer learning
RNN et LSTM : pour les données séquentielles
Les réseaux récurrents traitent les séquences (texte, séries temporelles, audio) en maintenant un état caché qui résume le contexte passé. Les LSTM (Long Short-Term Memory) résolvent le problème de gradient évanescent des RNN simples.
- RNN simple : état caché transmis d'un pas à l'autre, mais gradient évanescent
- LSTM : portes d'entrée, d'oubli et de sortie pour un contrôle précis du flux d'information
- GRU : version simplifiée du LSTM avec moins de paramètres
- Applications : analyse de sentiment, traduction, prévision de séries temporelles
Transformers : l'architecture qui a tout changé
Introduite en 2017 dans « Attention Is All You Need », l'architecture Transformer a révolutionné le NLP et s'étend aujourd'hui à la vision et l'audio. Son mécanisme d'attention permet de modéliser des dépendances long-range sans les problèmes des RNN.
- Self-attention : chaque token calcule son importance relative à tous les autres
- Multi-head attention : plusieurs têtes d'attention en parallèle pour capturer différents patterns
- Positional encoding : injecter l'information de position dans les embeddings
- Encodeur / Décodeur : BERT (encodeur seul), GPT (décodeur seul), T5 (encodeur + décodeur)
Éviter les problèmes classiques
L'entraînement d'un réseau profond est semé de pièges. Overfitting, exploding gradients, learning rate inadapté — chacun a ses remèdes connus.
- Overfitting : dropout (désactive aléatoirement des neurones), L2 régularisation, data augmentation
- Batch Normalization : normalise les activations inter-couches, accélère la convergence
- Learning rate scheduling : réduire le LR progressivement (cosine decay, warmup)
- Gradient clipping : limiter la norme des gradients pour éviter les explosions
Frameworks : PyTorch vs TensorFlow
PyTorch domine aujourd'hui la recherche et prend de l'avance en production. TensorFlow/Keras reste pertinent pour les déploiements edge (TFLite) et certains pipelines GCP. Pour apprendre, PyTorch est recommandé en 2026.
Avant de coder la première couche, posez-vous la question : est-ce que du ML classique (XGBoost, SVM) ne suffirait pas ? Le deep learning nécessite plus de données, plus de calcul et plus de temps de réglage.
Ressources recommandées
fast.ai (cours pratique gratuit), 'Deep Learning' d'Ian Goodfellow (référence théorique), et les tutoriels officiels PyTorch sont les meilleures ressources pour débuter sérieusement.