Voltar ao principal

Gemini: uma visão geral de seus recursos e modelos inovadores

Gemini é uma família de chatbots baseada em inteligência artificial desenvolvida pelo Google. No momento, o Gemini está em terceiro lugar entre todos os chatbots em termos de participação de mercado, atrás apenas do ChatGPT e do Microsoft Copilot. Ao mesmo tempo, o Gemini continua a crescer mais rapidamente do que seus concorrentes e está ganhando popularidade de forma constante: ele ocupa o quarto lugar em termos de entrada de novos usuários, sendo que apenas o Claude cresce mais rapidamente entre os chatbots conhecidos. Neste artigo, veremos a história do Gemini, os modelos atuais, seus recursos e limitações.

Um breve histórico do Google Gemini

O Google foi pioneiro na arquitetura de modelos de linguagem de grande porte e se baseia em sua pesquisa robusta para desenvolver seus próprios modelos de inteligência artificial.

  • 2017: Os pesquisadores do Google apresentam a arquitetura do transformador, que é a base de muitos dos modelos de linguagem de grande porte atuais.
  • 2020: A empresa apresenta o Meena, um chatbot baseado em rede neural com 2,6 bilhões de parâmetros, que o Google afirmava ser superior a todos os outros chatbots existentes na época.
  • 2021: O Meena é renomeado para LaMDA (abreviação de Language Model for Dialogue Applications, modelo de linguagem para aplicativos de diálogo) à medida que seus dados e sua capacidade de computação aumentam.
  • 2022: É lançado um novo modelo de linguagem chamado PaLM (Pathways Language Model), com recursos mais avançados em comparação com o LaMDA.
  • 2023: Um chatbot chamado Google Bard é lançado durante o primeiro trimestre do ano, com o apoio de uma versão leve e otimizada do LaMDA. Em seguida, no segundo trimestre, eles introduziram o PaLM 2, com codificação aprimorada, recursos multilíngues e habilidades de raciocínio melhoradas, que o Bard adotou. Finalmente, no último trimestre, o Google anunciou o Gemini 1.0.
  • 2024: O Google renomeia o Bard como Gemini e atualiza seus modelos de IA multimodal para a versão 1.5. Os modelos Gemini 2.0 são introduzidos em dezembro.

Em abril de 2024, o CEO da Google DeepMind, Demis Hassabis, disse que, ao longo do tempo, a empresa gastará mais de US$ 100 bilhões no desenvolvimento de tecnologia de inteligência artificial.

Demis Hassabis

Demis Hassabis

Características distintivas do Gemini

Todo chatbot tem conhecimento limitado de eventos recentes porque seus dados de treinamento abrangem apenas um período finito de tempo. Uma data de corte no contexto dos chatbots refere-se ao ponto no tempo até o qual o modelo foi treinado com dados e pode fornecer informações. Por exemplo, se um chatbot tiver uma data limite de outubro de 2023, isso significa que todo o conhecimento e os dados aos quais ele tem acesso são atuais somente até essa data. Quaisquer eventos, desenvolvimentos ou mudanças que tenham ocorrido após essa data não serão refletidos nas respostas do chatbot. É importante que os usuários entendam essa limitação, pois ela afeta a precisão e a relevância das informações fornecidas, especialmente em campos que mudam rapidamente, como tecnologia, política ou eventos atuais. No entanto, o Gemini pode contornar essa limitação acessando e processando informações de pesquisas on-line por meio da Pesquisa Google, fornecendo respostas mais atualizadas.

Consequentemente, os usuários podem precisar verificar as informações de fontes mais recentes se estiverem buscando as últimas atualizações ou percepções. Às vezes, o Gemini mostra fontes e conteúdo relacionado dentro e abaixo de sua resposta. Isso inclui fontes da Web com informações semelhantes e links para você se aprofundar. O Gemini foi projetado para gerar conteúdo original, mas se ele citar diretamente uma página da Web, você verá uma aspa com a fonte citada e um link para essa página. As fontes e o conteúdo relacionado podem incluir sites que o Gemini citou ou que estejam relacionados a partes de sua resposta. Se a resposta da Gemini incluir uma miniatura de uma imagem da Web, ela mostrará a fonte e fornecerá um link direto para ela.

Gemini mostra fotos de Nova York

O Gemini foi projetado para ser multimodal desde o início, o que significa que foi treinado em vários tipos de dados e agora pode trabalhar perfeitamente com diferentes tipos de conteúdo. Como você pode ver na imagem acima, o bot pode incluir imagens em suas respostas. O Gemini pode compreender texto, áudio, fragmentos de vídeo, anotações manuscritas, gráficos, diagramas, identificar objetos em fotos e, além disso, gerar imagens usando o Imagen 3, o modelo de texto para imagem mais avançado do Google.

O chatbot também tem amplos recursos multilíngues, pois está disponível em 46 idiomas diferentes.

Modelos atuais, seus pontos fortes e recursos

O Gemini oferece modelos diferentes que são otimizados para casos de uso específicos. Aqui está uma breve visão geral das variantes disponíveis:

ModeloEntradaSaídaDescrição

Gemini 2.0 Flash

Áudio, imagens, vídeos e textoTexto, imagens (em breve) e áudio (em breve)Recursos de última geração, velocidade e geração multimodal para uma grande variedade de tarefas

Gemini 2.0 Flash Thinking

Texto, imagensTextoModelo de raciocínio aprimorado que se destaca em ciências e matemática

Gemini 1.5 Flash

Áudio, imagens, vídeos e textoTextoDesempenho rápido e versátil em uma grande variedade de tarefas

Gemini 1.5 Flash-8B

Áudio, imagens, vídeos e textoTextoTarefas de alto volume e baixa inteligência

Gemini 1.5 Pro

Áudio, imagens, vídeos e textoTextoTarefas de raciocínio complexas que exigem mais inteligência

O Gemini 1.5 Flash vem com uma janela de contexto de 1 milhão de tokens, e o Gemini 1.5 Pro vem com uma janela de contexto de 2 milhões de tokens, que é a mais longa de qualquer modelo de linguagem grande.

Um token é equivalente a cerca de 4 caracteres para os modelos Gemini. 100 tokens equivalem a cerca de 60-80 palavras em inglês.

Na prática, 1 milhão de tokens se pareceria com:

  • 50.000 linhas de código (com o padrão de 80 caracteres por linha).
  • Transcrições de mais de 200 episódios de podcast de tamanho médio.
  • 8 romances ingleses de tamanho médio.
  • Todas as mensagens de texto que você enviou nos últimos 5 anos.

Gemini 1.5 Flash e Flash-8B

Limite de token de entrada1,048,576
Limite de token de saída8,192
Número máximo de imagens3,600
Duração máxima do vídeo1 hora
Duração máxima do áudioAproximadamente 9,5 horas

O Gemini 1.5 Pro alcança uma recuperação quase perfeita em tarefas de recuperação de contexto longo em todas as modalidades, liberando a capacidade de processar com precisão documentos longos, milhares de linhas de código, horas de áudio, vídeo e muito mais.

Gemini 1.5 Pro

Limite de token de entrada2,097,152
Limite de token de saída8,192
Número máximo de imagens7,200
Duração máxima do vídeo2 horas
Duração máxima do áudioAproximadamente 19 horas

Cada imagem é equivalente a 258 tokens. Tipos de imagem compatíveis:

  • PNG
  • WEBP
  • JPEG
  • HEIC
  • HEIF

Embora não haja limites específicos para o número de pixels em uma imagem além da janela de contexto do modelo, as imagens maiores são reduzidas a uma resolução máxima de 3072x3072, preservando a proporção original, enquanto as imagens menores são reduzidas a 768x768 pixels.

Recursos de visão:

  • Legenda e responde a perguntas sobre imagens.
  • Transcrever e raciocinar sobre PDFs, inclusive documentos longos com até 2 milhões de tokens de janela de contexto.
  • Descrever, segmentar e extrair informações de vídeos, incluindo quadros visuais e áudio, com até 90 minutos de duração.
O Gemini é capaz de reconhecer corretamente todo o conteúdo manuscrito e verificar o raciocínio.

O Gemini é capaz de reconhecer corretamente todo o conteúdo manuscrito e verificar o raciocínio.

Recursos de áudio do Gemini:

  • Descrever, resumir ou responder a perguntas sobre o conteúdo de áudio.
  • Fornecer uma transcrição do áudio.
  • Fornecer respostas ou uma transcrição sobre um segmento específico do áudio.

Formatos de áudio compatíveis:

  • WAV
  • MP3
  • FLAC
  • OGG Vorbis
  • AIFF
  • AAC

Cada segundo de áudio é equivalente a 25 tokens; por exemplo, um minuto de áudio é representado por 1.500 tokens.

Gemini 2.0 Flash

Limite de token de entrada1,048,576
Limite de token de saída8,192

O Gemini 2.0 Flash é o modelo mais avançado e versátil da família Gemini. Ele pode criar imagens e gerar fala de forma nativa e, no que diz respeito ao desempenho, supera outros modelos em quase todos os principais benchmarks. Veja você mesmo.

CapacidadeReferênciaDescriçãoGemini 1.5 FlashGemini 1.5 ProGemini 2.0 Flash
GeralMMLU-ProAvalia a capacidade dos modelos de aprendizado de máquina de entender a linguagem natural67.3%75.8%76.4%
CódigoNatural2CodeGeração de código em Python, Java, C++, JS, Go79.8%85.4%92.9%
CódigoBird-SQL (Dev)Avalia a conversão de perguntas de linguagem natural em SQL executável45.6%54.4%56.9%
FactualidadeFACTS GroundingCapacidade de fornecer respostas corretas e factuais a documentos e solicitações diversas de usuários82.9%80.0%83.6%
MatemáticaMATHProblemas desafiadores de matemática (incluindo álgebra, geometria, pré-cálculo e outros)77.9%86.5%89.7%
MatemáticaHiddenMathProblemas de matemática em nível de competição47.2%52.0%63.0%
RaciocínioGPQA (diamond)Conjunto de dados desafiador de perguntas escritas por especialistas em biologia, física e química51.0%59.1%62.1%
ImagemMMMUProblemas de compreensão e raciocínio multimodais multidisciplinares de nível universitário62.3%65.9%70.7%
ÁudioCoVoST2 (21 lang)Tradução automática de fala37.440.139.2
VídeoEgoSchema (test)Análise de vídeo66.8%71.2%71.5%

O Gemini 2.0 Flash Thinking combina velocidade e desempenho, demonstrando uma experiência notável na resolução de problemas complexos em matemática e ciências. Uma janela de contexto de um milhão de tokens permite uma análise mais profunda de textos longos. O pensamento aprimorado proporciona mais consistência entre pensamentos e respostas.

Gemini 2.0 Flash Thinking

Limite de token de entrada1,048,576
Limite de token de saída65,536

Observe a enorme janela de token de saída. Ela permite que o modelo não apenas processe solicitações longas, mas também devolva respostas extensas, o que pode ser útil para gerar grandes blocos de código, por exemplo.

Veja como o Gemini 2.0 Flash Thinking supera o Gemini 1.5 Pro e o Gemini 2.0 em matemática, ciências e raciocínio multimodal. Ele pode não ser tão versátil quanto esses dois modelos em geral, mas nesses domínios específicos, o Gemini 2.0 Flash Thinking é incomparável.

Matemática, ciências e raciocínio

Matemática, ciências e raciocínio

Matemática e ciências

Matemática e ciências

Críticas

O chatbot Gemini teve um início difícil quando foi lançado em 2023. Os desenvolvedores estavam com muita pressa para lançar um rival para o ChatGPT. E é por isso que a versão de lançamento do chatbot estava repleta de bugs. Os usuários reclamaram de um grande número de erros factuais e imprecisões nas respostas do bot.

Um dos mais conhecidos foi a controvérsia sobre a geração de imagens. O Gemini tentou apresentar o máximo de diversidade racial, mesmo quando isso não era apropriado. De acordo com o chatbot, esta é a aparência dos soldados alemães em 1943:

Soldados alemães em 1943 gerados pela Gemini

E esta é a aparência dos senadores americanos do século XIX:

Senadores dos EUA do século XIX gerados por Gemini

Devido ao descontentamento dos usuários, as ações da empresa caíram 4,5%, o que corresponde aproximadamente a uma perda de US$ 90 milhões. Os desenvolvedores também tiveram que bloquear temporariamente a capacidade de gerar imagens de pessoas.

Após a controvérsia em torno da geração de imagens, alguns usuários começaram a acusar as respostas de texto do Gemini de serem tendenciosas para a esquerda. Em um exemplo, a Gemini afirmou que era “difícil dizer com certeza” se Elon Musk ou o ditador nazista Adolf Hitler tiveram um impacto negativo maior na sociedade. Além disso, outros usuários observaram que Gemini parecia favorecer políticos de esquerda e questões como ação afirmativa e direito ao aborto, ao mesmo tempo em que relutava em apoiar figuras de direita, consumo de carne e combustíveis fósseis.

Mas é preciso dizer que todas essas dificuldades já passaram. Agora, o Gemini não tem problemas e é um dos chatbots mais bem-sucedidos e populares do mundo.