Retour à la page principale

Gemini : un aperçu de ses caractéristiques et modèles innovants

Gemini est une famille de chatbots basés sur l'intelligence artificielle et développés par Google. À l'heure actuelle, Gemini occupe la troisième place parmi tous les chatbots en termes de parts de marché, derrière ChatGPT et Microsoft Copilot. Dans le même temps, Gemini continue de croître plus rapidement que ses concurrents et gagne régulièrement en popularité : il se classe au quatrième rang en termes d'afflux de nouveaux utilisateurs, seul Claude connaissant une croissance plus rapide parmi les chatbots les plus connus. Dans cet article, nous examinerons l'histoire de Gemini, les modèles actuels, leurs caractéristiques et leurs limites.

Bref historique de Google Gemini

Google a été un pionnier dans l'architecture des grands modèles de langage et s'appuie sur ses solides recherches pour développer ses propres modèles d'intelligence artificielle.

  • 2017 : Les chercheurs de Google présentent l'architecture du transformateur, qui est à la base de la plupart des grands modèles de langage actuels.
  • 2020 : L'entreprise présente Meena, un chatbot basé sur un réseau neuronal avec 2,6 milliards de paramètres, qui, selon Google, est supérieur à tous les autres chatbots existants à l'époque.
  • 2021 : Meena est rebaptisé LaMDA (abréviation de Language Model for Dialogue Applications) en raison de l'augmentation des données et de la puissance de calcul.
  • 2022 : Un nouveau modèle de langage appelé PaLM (Pathways Language Model) est lancé, avec des capacités plus avancées que celles de LaMDA.
  • 2023 : Un chatbot appelé Google Bard est lancé au cours du premier trimestre de l'année, soutenu par une version légère et optimisée de LaMDA. Puis, au deuxième trimestre, ils introduisent PaLM 2, avec un codage amélioré, des capacités multilingues et des capacités de raisonnement améliorées, que Bard adopte ensuite. Enfin, au dernier trimestre, Google a annoncé Gemini 1.0.
  • 2024 : Google rebaptise Bard en Gemini et fait passer ses modèles d'IA multimodale à la version 1.5. Les modèles Gemini 2.0 sont présentés en décembre.

En avril 2024, Demis Hassabis, PDG de Google DeepMind, a déclaré qu'au fil du temps, l'entreprise dépenserait plus de 100 milliards de dollars pour développer des technologies d'intelligence artificielle.

Demis Hassabis

Demis Hassabis

Les particularités de Gemini

Chaque chatbot a une connaissance limitée des événements récents, car ses données d'apprentissage ne couvrent qu'une période de temps finie. Dans le contexte des chatbots, une date limite fait référence au moment où le modèle a été entraîné sur des données et peut fournir des informations. Par exemple, si un chatbot a une date limite fixée à octobre 2023, cela signifie que toutes les connaissances et les données auxquelles il a accès ne sont valables que jusqu'à cette date. Tout événement, développement ou changement survenu après cette date ne sera pas reflété dans les réponses du chatbot. Il est important que les utilisateurs comprennent cette limitation, car elle affecte la précision et la pertinence des informations fournies, en particulier dans les domaines qui évoluent rapidement, tels que la technologie, la politique ou l'actualité. Cependant, Gemini peut contourner cette limitation en accédant et en traitant les informations provenant de recherches en ligne via Google Search, ce qui permet d'obtenir des réponses plus récentes.

Par conséquent, les utilisateurs peuvent avoir besoin de vérifier les informations provenant de sources plus récentes s'ils recherchent les dernières mises à jour ou les dernières informations. Parfois, Gemini affiche des sources et du contenu connexe à l'intérieur et en dessous de sa réponse. Il s'agit notamment de sources Web contenant des informations similaires et des liens vous permettant d'approfondir votre recherche. Gemini est conçu pour générer un contenu original, mais s'il cite directement et longuement une page web, vous verrez un guillemet avec la source citée et un lien vers cette page. Les sources et le contenu connexe peuvent inclure des sites web que Gemini a cités ou qui se rapportent à des parties de sa réponse. Si la réponse de Gemini comprend une vignette d'une image provenant du web, la source sera indiquée et un lien direct sera fourni.

Gemini montre des images de New York

Gemini a été conçu de manière multimodale dès le départ, ce qui signifie qu'il a été formé sur plusieurs types de données, et qu'il peut désormais travailler de manière transparente avec différents types de contenu. Comme vous pouvez le voir sur l'image ci-dessus, le robot peut inclure des images dans ses réponses. Gemini peut comprendre du texte, de l'audio, des fragments vidéo, des notes manuscrites, des graphiques, des diagrammes, identifier des objets sur des photos et, en outre, générer des images à l'aide d'Imagen 3, le modèle de conversion texte-image le plus avancé de Google.

Le chatbot dispose également de larges capacités multilingues puisqu'il est disponible dans 46 langues différentes.

Les modèles actuels, leurs forces et leurs capacités

Gemini propose différents modèles optimisés pour des cas d'utilisation spécifiques. Voici un bref aperçu des variantes disponibles :

ModèleEntréeSortie

Description

Gemini 2.0 Flash

Audio, images, vidéos et texteTexte, images (bientôt) et audio (bientôt)Fonctionnalités de nouvelle génération, rapidité et génération multimodale pour une grande variété de tâches

Gemini 2.0 Flash Thinking

Texte, imagesTexteUn modèle de raisonnement amélioré qui excelle en sciences et en mathématiques

Gemini 1.5 Flash

Audio, images, vidéos et texteTexteDes performances rapides et polyvalentes pour une grande variété de tâches

Gemini 1.5 Flash-8B

Audio, images, vidéos et texteTexteTâches à haut volume et à faible niveau d'intelligence

Gemini 1.5 Pro

Audio, images, vidéos et texteTexteTâches de raisonnement complexes nécessitant plus d'intelligence

Gemini 1.5 Flash est doté d'une fenêtre contextuelle de 1 million de tokens et Gemini 1.5 Pro d'une fenêtre contextuelle de 2 millions de tokens, la plus longue de tous les grands modèles linguistiques.

Un token équivaut à environ 4 caractères pour les modèles Gemini. 100 tokens correspondent à environ 60-80 mots anglais.

Dans la pratique, 1 million de tokens correspondrait à :

  • 50 000 lignes de code (avec la norme de 80 caractères par ligne).
  • Des transcriptions de plus de 200 épisodes de podcasts de longueur moyenne.
  • 8 romans anglais de longueur moyenne.
  • Tous les messages texte que vous avez envoyés au cours des 5 dernières années.

Gemini 1.5 Flash and Flash-8B

Limite des tokens d'entrée1,048,576
Limite des tokens de sortie8,192
Nombre maximum d'images3,600
Durée maximale de la vidéo1 heure
Longueur maximale de l'audioEnviron 9,5 heures

Gemini 1.5 Pro permet d'obtenir un rappel quasi parfait des tâches d'extraction de longs contextes dans toutes les modalités, ce qui permet de traiter avec précision de longs documents, des milliers de lignes de code, des heures d'audio, de vidéo et bien d'autres choses encore.

Gemini 1.5 Pro

Limite des tokens d'entrée2,097,152
Limite des tokens de sortie8,192
Nombre maximum d'images7,200
Durée maximale de la vidéo2 heures
Longueur maximale de l'audioEnviron 19 heures

Chaque image équivaut à 258 tokens. Types d'images pris en charge :

  • PNG
  • WEBP
  • JPEG
  • HEIC
  • HEIF

Bien qu'il n'y ait pas de limites spécifiques au nombre de pixels d'une image en dehors de la fenêtre contextuelle du modèle, les grandes images sont réduites à une résolution maximale de 3072x3072 tout en préservant leur rapport d'aspect d'origine, tandis que les petites images sont mises à l'échelle jusqu'à 768x768 pixels.

Capacités visuelles :

  • Légender et répondre à des questions sur des images.
  • Transcrire et raisonner sur des PDF, y compris des documents longs jusqu'à 2 millions de tokens dans la fenêtre contextuelle.
  • Décrire, segmenter et extraire des informations de vidéos, y compris des images visuelles et audio, d'une durée maximale de 90 minutes.
Gemini est capable de reconnaître correctement tout le contenu manuscrit et de vérifier le raisonnement.

Gemini est capable de reconnaître correctement tout le contenu manuscrit et de vérifier le raisonnement.

Les capacités audio de Gemini :

  • Décrire, résumer ou répondre à des questions sur le contenu audio.
  • Fournir une transcription de l'audio.
  • Fournir des réponses ou une transcription sur un segment spécifique de l'audio.

Formats audio pris en charge :

  • WAV
  • MP3
  • FLAC
  • OGG Vorbis
  • AIFF
  • AAC

Chaque seconde d'audio équivaut à 25 tokens ; par exemple, une minute d'audio est représentée par 1 500 tokens.

Gemini 2.0 Flash

Limite des tokens d'entrée1,048,576
Limite des tokens de sortie8,192

Gemini 2.0 Flash est le modèle le plus puissant et le plus polyvalent de la famille Gemini. Il peut créer des images et générer de la parole en mode natif et, en termes de performances, il surpasse les autres modèles dans la quasi-totalité des critères de référence. Voyez par vous-même.

CapacitéRepèreDescriptionGemini 1.5 FlashGemini 1.5 ProGemini 2.0 Flash
GénéralMMLU-ProÉvalue la qualité de la compréhension du langage naturel par les modèles d'apprentissage automatique67.3%75.8%76.4%
CodeNatural2CodeGénération de code en Python, Java, C++, JS, Go79.8%85.4%92.9%
CodeBird-SQL (Dev)Évalue la conversion des questions en langage naturel en SQL exécutable45.6%54.4%56.9%
FactualitéFACTS GroundingCapacité à fournir des réponses correctes sur le plan factuel à partir de documents et de demandes d'utilisateurs divers82.9%80.0%83.6%
MathématiquesMATHProblèmes mathématiques difficiles (y compris algèbre, géométrie, pré-calcul, et autres)77.9%86.5%89.7%
MathématiquesHiddenMathProblèmes mathématiques au niveau du concours47.2%52.0%63.0%
RaisonnementGPQA (diamond)Ensemble de questions difficiles rédigées par des experts en biologie, en physique et en chimie51.0%59.1%62.1%
ImageMMMUProblèmes de compréhension et de raisonnement multidisciplinaires et multimodaux de niveau universitaire62.3%65.9%70.7%
AudioCoVoST2 (21 lang)Traduction automatique de la parole37.440.139.2
VidéoEgoSchema (test)Analyse vidéo66.8%71.2%71.5%

Gemini 2.0 Flash Thinking allie vitesse et performance, démontrant une expertise remarquable dans la résolution de problèmes complexes en mathématiques et en sciences. Une fenêtre contextuelle d'un million de tokens permet une analyse plus approfondie des textes longs. L'amélioration de la réflexion permet une plus grande cohérence entre les pensées et les réponses.

Gemini 2.0 Flash Thinking

Limite des tokens d'entrée1,048,576
Limite des tokens de sortie65,536

Notez l'énorme fenêtre de sortie du token. Elle permet au modèle non seulement de traiter de longues requêtes, mais aussi de renvoyer des réponses détaillées, ce qui peut s'avérer utile pour générer de gros morceaux de code, par exemple.

Voyez comment Gemini 2.0 Flash Thinking surpasse Gemini 1.5 Pro et Gemini 2.0 en mathématiques, sciences et raisonnement multimodal. Il n'est peut-être pas aussi polyvalent que ces deux modèles en général, mais dans ces domaines spécifiques, Gemini 2.0 Flash Thinking est inégalé.

Mathématiques, sciences et raisonnement

Mathématiques, sciences et raisonnement

Mathématiques et sciences

Mathématiques et sciences

Critiques

Le chatbot Gemini a connu des débuts difficiles lors de sa sortie en 2023. Les développeurs étaient trop pressés de sortir un rival de ChatGPT. C'est pourquoi la version initiale du chatbot était truffée de bugs. Les utilisateurs se sont plaints d'un grand nombre d'erreurs factuelles et d'inexactitudes dans les réponses du chatbot.

La controverse sur la génération d'images a été l'une des plus médiatisées. Gemini a tenté de présenter une diversité raciale maximale, même lorsque cela n'était pas approprié. Selon le chatbot, voici à quoi ressemblaient les soldats allemands en 1943 :

Soldats allemands en 1943 généré par Gemini

Voici à quoi ressemblaient les sénateurs américains des années 1800 :

Sénateurs américains des années 1800 générés par Gemini

En raison du mécontentement des utilisateurs, les actions de la société ont chuté de 4,5 %, ce qui correspond approximativement à une perte de 90 millions de dollars. Les développeurs ont également dû bloquer temporairement la possibilité de générer des images de personnes.

À la suite de la controverse sur la génération d'images, certains utilisateurs ont commencé à accuser les réponses textuelles de Gemini d'être biaisées en faveur de la gauche. Dans l'un de ces exemples, Gemini a déclaré qu'il était « difficile de dire avec certitude » si Elon Musk ou le dictateur nazi Adolf Hitler avaient un impact négatif plus important sur la société. En outre, d'autres utilisateurs ont noté que Gemini semblait favoriser les politiciens de gauche et des questions telles que la discrimination positive et le droit à l'avortement, tout en étant réticent à soutenir les personnalités de droite, la consommation de viande et les combustibles fossiles.

Mais il faut dire que toutes ces difficultés sont en grande partie derrière nous. Aujourd'hui, Gemini n'a plus aucun problème et est l'un des chatbots les plus réussis et les plus populaires au monde.