Le fine-tuning consiste à adapter un LLM pré-entraîné à vos données métier spécifiques, pour obtenir de meilleures performances sur vos tâches particulières. C'est une étape puissante, mais coûteuse — à envisager après avoir épuisé les options de prompting.
Quand fine-tuner vs prompting ?
Le fine-tuning n'est pas toujours la meilleure solution. Dans de nombreux cas, une combinaison de prompting avancé et de RAG donne des résultats équivalents à un coût et une complexité bien inférieurs. Commencez toujours par le prompting.
- Fine-tuning recommandé : tâches très spécifiques avec beaucoup de données étiquetées, format de sortie rigide, latence critique
- Prompting recommandé : tâches générales, peu de données, besoin de flexibilité
- RAG recommandé : connaissance factuelle mise à jour régulièrement, traçabilité des sources
- Règle d'or : commencer par le plus simple, augmenter la complexité si nécessaire
Types de fine-tuning
Il existe plusieurs approches de fine-tuning, avec des compromis différents en termes de coût, de performance et de complexité. Le full fine-tuning est le plus performant mais le plus coûteux — les méthodes PEFT offrent un excellent compromis.
- Full fine-tuning : mise à jour de tous les paramètres, coûteux mais performant
- PEFT (Parameter-Efficient Fine-Tuning) : adapter uniquement une fraction des paramètres
- LoRA (Low-Rank Adaptation) : injecter de petites matrices dans les couches d'attention
- QLoRA : LoRA sur un modèle quantifié en 4-bit, rend le fine-tuning possible sur GPU grand public
LoRA : fine-tuning efficace expliqué
LoRA est la méthode de fine-tuning la plus populaire en 2026. Son idée centrale : les mises à jour des poids pendant le fine-tuning ont une faible dimension intrinsèque. LoRA factorise ces mises à jour en deux petites matrices, réduisant drastiquement le nombre de paramètres entraînables.
- Choisir le rang r (4 à 64) : plus grand = plus de capacité mais plus de mémoire
- Choisir alpha (2× le rang en général) : facteur de scaling des mises à jour LoRA
- Choisir les modules cibles : généralement les projections q_proj, v_proj des couches d'attention
- Fusion après entraînement : fusionner les poids LoRA avec les poids originaux pour l'inférence
Préparation des données
La qualité des données d'entraînement est le facteur le plus important pour le succès d'un fine-tuning. Garbage in, garbage out s'applique encore plus aux LLM qu'aux modèles classiques.
- Format instruction-following : paires (instruction, réponse) pour l'alignement comportemental
- Nettoyage : suppression des doublons, des exemples incohérents, des réponses toxiques
- Volume : 500 à 5000 exemples de haute qualité suffisent souvent pour le fine-tuning instruction
- Diversité : couvrir tous les sous-cas d'usage pour une bonne généralisation
Outils et frameworks
L'écosystème du fine-tuning LLM a mûri rapidement. Des frameworks comme TRL, Axolotl et Hugging Face Transformers simplifient considérablement le processus.
- TRL (Transformer Reinforcement Learning) : bibliothèque Hugging Face pour SFT, RLHF, DPO
- Axolotl : configuration YAML simple pour fine-tuner des LLM open source (Llama, Mistral)
- Unsloth : accélération 2x de l'entraînement LoRA avec 80% moins de mémoire VRAM
- LLaMA Factory : interface web + CLI pour fine-tuner sans écrire de code
Évaluation et alignement
Évaluer un LLM fine-tuné est plus complexe qu'évaluer un modèle classique. Les métriques automatiques (BLEU, ROUGE) sont insuffisantes — il faut combiner métriques automatiques, LLM-as-judge et évaluation humaine.
- Métriques de base : perplexité sur un ensemble de validation, ROUGE pour le résumé
- LLM-as-judge : utiliser GPT-4 ou Claude pour évaluer la qualité des réponses sur critères
- Benchmarks spécialisés : créer un benchmark métier de 100-200 questions représentatives
- Évaluation de régression : vérifier que le modèle ne dégrade pas ses capacités générales (catastrophic forgetting)
Déploiement du modèle fine-tuné
Un modèle fine-tuné se déploie comme n'importe quel autre LLM : via une API, avec des considérations de quantification pour réduire les coûts d'inférence.
- Quantification : GGUF avec llama.cpp pour les déploiements CPU, AWQ/GPTQ pour GPU
- vLLM : serving haute performance avec PagedAttention, jusqu'à 24x plus rapide qu'HuggingFace naïf
- Ollama : serving local simple pour les modèles <=13B, idéal pour les POC
- Hébergement : Together AI, Replicate, Modal pour les déploiements cloud sans infrastructure propre
Le fine-tuning d'un LLM n'est pas la fin du travail — c'est le début de la maintenance. Planifiez les réentraînements réguliers et le monitoring dès le premier jour.
Modèles open source recommandés en 2026
Llama 3.1 (8B et 70B), Mistral 7B et Qwen 2.5 sont d'excellents points de départ pour le fine-tuning. Ils offrent des licences permissives et des performances compétitives avec les modèles propriétaires sur des tâches spécialisées.