Voltar ao principal

O que é o OpenAI o1 e como esse modelo é melhor do que o GPT-4o

Em 12 de setembro de 2024, a OpenAI, conhecida pelo ChatGPT, apresentou sua nova série de modelos de inteligência artificial chamada OpenAI o1. Neste artigo, analisaremos: como o OpenAI o1 difere do GPT-4o, quais são seus pontos fortes e em que áreas ele pode ser usado.

O que é o OpenAI o1?

É uma nova família de chatbots, ou, mais precisamente, modelos de linguagem baseados em inteligência artificial, projetados para resolver tarefas complexas ou particularmente difíceis que exigem precisão e raciocínio lógico.

Atualmente, a família o1 inclui:

  • o1-preview - o modelo principal (ainda em uma versão inicial, conforme indicado pela palavra “preview”),
  • o1-mini - um modelo mais leve e mais rápido que é particularmente eficaz na codificação.

Há algum simbolismo no próprio nome “o1”:

Mas, para tarefas de raciocínio complexas, esse é um avanço significativo e representa um novo nível de capacidade de IA. Por isso, estamos redefinindo o contador de volta para 1 e nomeando esta série como OpenAI o1.

Diferenças em relação ao GPT-4o

O OpenAI o1 é uma alternativa ao GPT-4o, mas não um substituto direto. Caso contrário, o modelo seria chamado simplesmente de GPT-5.

Por estar em um estágio relativamente inicial de desenvolvimento, o OpenAI o1 ainda não pode fazer muitas das coisas que o GPT-4o pode fazer. Por exemplo, ele não suporta o upload de arquivos e imagens.

No entanto, os modelos o1 se destacam pela precisão de suas respostas, pela consistência e pela lógica de seu raciocínio, o que permite que sejam aplicados com sucesso em áreas como:

  • Física quântica,
  • Genética,
  • Medicina,
  • Desenvolvimento de software.

O OpenAI o1 não gera simplesmente uma resposta a uma pergunta, mas constrói uma cadeia de raciocínio. Por isso, o modelo pode levar mais tempo para responder do que outros chatbots - geralmente de 5 a 10 segundos e, em alguns casos, até 20 a 30 segundos. Esse tempo não é tão longo a ponto de se tornar um inconveniente real. A consideração cuidadosa das respostas torna os modelos OpenAI o1 menos propensos a alucinações em comparação com seus concorrentes. Alucinações são quando um chatbot inventa fatos do nada, fornecendo informações falsas.

Pontos fortes e avaliações do OpenAI o1

Acima, já mencionamos os pontos fortes do OpenAI o1, como a precisão das respostas e a fraca suscetibilidade a alucinações. Agora vamos ver como tudo isso se traduz em números: qual a pontuação do modelo o1 em vários testes.

O OpenAI o1 está classificado no 89º percentil em questões competitivas de programação (Codeforces), está entre os 500 melhores alunos dos EUA em uma eliminatória para a Olimpíada de Matemática dos EUA (AIME) e excede a precisão humana em nível de doutorado em uma referência de problemas de física, biologia e química (GPQA).

o1 vs GPT-4o vs humano experiente

Da esquerda para a direita: Matemática do concurso, Código do concurso, Perguntas de ciências em nível de doutorado

Nos exames AIME 2024, o GPT-4o resolveu corretamente apenas 13% dos problemas, enquanto o o1 obteve 83%.

No teste GPQA Diamond, que inclui questões científicas de nível de doutorado em física, biologia e química, os modelos da o1 se saíram ainda melhor do que os especialistas humanos. Anteriormente, a inteligência artificial não era capaz de superar os humanos nesse teste.

o1 vs GPT-4o

Turquesa: GPT-4o, Vermelho: o1

A imagem acima mostra a excelência da o1 em disciplinas que vão de matemática a literatura inglesa. O teste MMLU inclui 57 categorias. O modelo da o1 venceu em 54 delas. Apenas 7 delas se encaixam na imagem:

  • Fatos globais
  • Química universitária
  • Matemática universitária
  • Direito Profissional
  • Relações Públicas
  • Econometria
  • Lógica formal

É interessante notar que o o1-mini tem um desempenho melhor em codificação do que o o1-preview, como mostram os benchmarks Codeforces e HumanEval:

o1-mini vs o1-preview vs GPT-4o em benchmarks de codificação

Referências de proficiência em codificação

Além de exames e referências acadêmicas, a OpenAI também avaliou a preferência humana entre o1-preview e GPT-4o:

  • Redação pessoal
  • Edição de texto
  • Programação de computadores
  • Análise de dados
  • Cálculo matemático

Nessa avaliação, os instrutores humanos receberam respostas anônimas de o1-preview e GPT-4o e votaram na resposta que preferiam.

Preferências humanas: o1-preview vs GPT-4o

Taxa de vitória do o1-preview vs GPT-4o (%)

O o1-preview é preferido ao GPT-4o por uma grande margem em categorias de raciocínio pesado, como análise de dados, codificação e matemática. No entanto, o o1-preview não é preferido em algumas tarefas de linguagem natural, como escrever e editar textos, o que sugere que o modelo o1-preview não é adequado para todos os casos de uso.

OpenAI o1 versus outros modelos de linguagem grandes

O OpenAI o1-preview é realmente inteligente. Quão inteligente? Com base no teste Mensa da Noruega, ele tem um QI de 120, o que é significativamente mais alto do que outros modelos de linguagem testados. O pico no gráfico representa o QI humano médio. Tudo à esquerda do pico está abaixo da média, enquanto tudo à direita está acima da média.

Resultados do teste de QI

O OpenAI o1 supera a concorrência, tanto nos principais benchmarks quanto nos testes caseiros.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o
o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5
o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Você nem precisa entender esses testes. Tudo o que você precisa é ver o OpenAI o1 na parte superior.

Cadeia de pensamento

Os modelos da série o1 são treinados para raciocinar, criando uma cadeia de pensamentos. Assim, o chatbot não apenas dá uma resposta pronta, mas também mostra o caminho que percorreu para chegar lá. Pode ser muito interessante seguir esse caminho.

Vamos dar uma olhada em uma das perguntas mais difíceis do teste de QI mencionado anteriormente.

Pergunta do teste de QI

O bot escolheu a Opção D como resposta, e aqui está a explicação:

Opção D - Ao analisar os padrões na grade, vemos que cada coluna combina determinados componentes para incluir todos os elementos (V, V de cabeça para baixo, lados do retângulo) até a terceira linha. Na terceira coluna, os componentes Rleft e Rright (os lados do retângulo) ainda não apareceram. Portanto, a resposta correta para a célula vazia é a Opção D, que inclui o “v” normal e os dois lados do retângulo, completando o conjunto de componentes dessa coluna.

Agora vamos dar uma olhada em um quebra-cabeça mais simples (não do teste de QI):

Cadeia de pensamento da o1

Pergunta: O Sr. e a Sra. Smith e seus dois filhos formam uma típica família americana. De acordo com um de seus vizinhos mais falantes: George e Dorothy são parentes de sangue. Howard é mais velho que George. Virginia é mais nova que Howard. Virgínia é mais velha que Dorothy. Se duas e somente duas dessas afirmações forem verdadeiras, qual é o primeiro nome de cada membro da família?

Cadeia de raciocínio: Para resolver esse quebra-cabeça, precisamos determinar os primeiros nomes de cada membro da família com base nas afirmações fornecidas e na condição de que exatamente duas afirmações sejam verdadeiras. Vamos decompor as informações passo a passo.

Agora o modelo lista os membros da família, suas possíveis funções e nomes; analisa as afirmações, descobrindo quais são verdadeiras e quais são falsas. Então, com base em tudo isso, o modelo dá a resposta final.

Resposta: O Sr. Smith é George, a Sra. Smith é Virginia, o Filho é Howard, a Filha é Dorothy.

Conclusão

O modelo o1-preview é capaz de raciocinar logicamente, o que é necessário para resolver problemas científicos e matemáticos complexos. O modelo o1-mini é brilhante ao escrever código. No entanto, ambos os modelos o1 da OpenAI são ferramentas especializadas de forma bastante restrita, não são tão versáteis em suas aplicações quanto o GPT-4o e não são adequados para muitas tarefas rotineiras ou criativas: trabalhar com textos, tradução literária, edição. Entretanto, em seu domínio (matemática, ciências naturais e exatas), os modelos OpenAI o1 são incomparáveis.