Bonjour,
Si vous trouvez cette newsletter utile, vous pouvez vous abonner et la partager. N'hésitez pas à me faire part de vos questions et vos feedbacks. Merci !
C’est très intéressant de suivre les articles de recherches sur l’IA générative et l’actualité et de remonter à 2017 quand tout a basculé.
En 2017, Google a publié "Attention is all you need". Un article de recherche qui présente l'Architecture Transformer. Cet article a posé les bases des LLMs et a préparé le terrain pour les modèles GPT (1,2,3 et 4) de Open AI et bien d'autres.
Suite au succès de ChatGPT, Google a restreint ses publications scientifiques. Une décision stratégique pour préserver sa position de leader qui est maintenant mise à l’épreuve à cause de cette course à l’IA générative par les GAFAM, NVIDIA, Open AI, et des nouveaux comme Anthropic, Mistral, Cohere et Inflection.
"Attention is all you need" a lancé une ère des grands modèles : les LLMs (Large Language Models) :
En 2018, BERT a 342 millions de paramètres.
En 2019, le premier LLM à dépasser le milliard de paramètres est GPT-2 (1,5 milliards).
En 2020, Megatron atteint 8,3 milliards de paramètres. Développé par l'équipe Applied Deep Learning Research à NVIDIA. NVIDIA fabrique les GPUs nécessaires pour entraîner les LLMs. Peu de temps après, arrive Megatron 2 avec 11 milliards de paramètres.
Quant à GPT-3 il a atteint 175 milliards de paramètres et depuis, il n’y a plus de limites.
Falcon a 180 milliards de paramètres.
Open AI garde le mystère sur le nombre de paramètres de GPT-4 sorti en 2023. Mais il y a des spéculations selon lesquelles les paramètres ont atteint les trillions !!
Cette évolution de la taille des LLMs est impressionnante car en très peu d'années, le nombre de leurs paramètres est passé de millions à des milliards.
Pour donner un ordre de grandeur:
Un million de secondes = 11 jours, 13 heures, 46 minutes et 40 secondes.
Et un milliard de secondes = 31 ans, 259 jours, 1 heure, 46 minutes et 40 secondes.
Les LLMs sont datavores, énergivores et leurs besoins en puissance de calculs les rendent très coûteux. Entraîner un LLM “from scratch” est restreint à très peu d’entreprises comme Nvidia, Meta, Open AI, Google et Microsoft.
Je constate que l’évolution des LLMs semble prendre deux chemins :
1- des LLMs plus petits comme phi-1.5 de Microsoft.
2- des LLMs multimodaux : génération de texte, d’image et de son comme GPT4.
Mais prochainement, on verra certainement d’autres chemins car chaque jour il y a des nouvelles approches qui émergent et des nouvelles avancées.
Merci de m’avoir lu.
N’hésiter pas à me faire un feedback ou me dire ce qui pourrait vous intéresser comme sujet.
A bientôt!
Sofia