O que é o OpenAI o1 e como esse modelo é melhor do que o GPT-4o

Em 12 de setembro de 2024, a OpenAI, conhecida pelo ChatGPT, apresentou sua nova série de modelos de inteligência artificial chamada OpenAI o1. Neste artigo, analisaremos: como o OpenAI o1 difere do GPT-4o, quais são seus pontos fortes e em que áreas ele pode ser usado.

O que é o OpenAI o1?

É uma nova família de chatbots, ou, mais precisamente, modelos de linguagem baseados em inteligência artificial, projetados para resolver tarefas complexas ou particularmente difíceis que exigem precisão e raciocínio lógico.

Atualmente, a família o1 inclui:

o1-preview - o modelo principal (ainda em uma versão inicial, conforme indicado pela palavra “preview”),
o1-mini - um modelo mais leve e mais rápido que é particularmente eficaz na codificação.

Há algum simbolismo no próprio nome “o1”:

Mas, para tarefas de raciocínio complexas, esse é um avanço significativo e representa um novo nível de capacidade de IA. Por isso, estamos redefinindo o contador de volta para 1 e nomeando esta série como OpenAI o1.

Diferenças em relação ao GPT-4o

O OpenAI o1 é uma alternativa ao GPT-4o, mas não um substituto direto. Caso contrário, o modelo seria chamado simplesmente de GPT-5.

Por estar em um estágio relativamente inicial de desenvolvimento, o OpenAI o1 ainda não pode fazer muitas das coisas que o GPT-4o pode fazer. Por exemplo, ele não suporta o upload de arquivos e imagens.

No entanto, os modelos o1 se destacam pela precisão de suas respostas, pela consistência e pela lógica de seu raciocínio, o que permite que sejam aplicados com sucesso em áreas como:

Física quântica,
Genética,
Medicina,
Desenvolvimento de software.

O OpenAI o1 não gera simplesmente uma resposta a uma pergunta, mas constrói uma cadeia de raciocínio. Por isso, o modelo pode levar mais tempo para responder do que outros chatbots - geralmente de 5 a 10 segundos e, em alguns casos, até 20 a 30 segundos. Esse tempo não é tão longo a ponto de se tornar um inconveniente real. A consideração cuidadosa das respostas torna os modelos OpenAI o1 menos propensos a alucinações em comparação com seus concorrentes. Alucinações são quando um chatbot inventa fatos do nada, fornecendo informações falsas.

Pontos fortes e avaliações do OpenAI o1

Acima, já mencionamos os pontos fortes do OpenAI o1, como a precisão das respostas e a fraca suscetibilidade a alucinações. Agora vamos ver como tudo isso se traduz em números: qual a pontuação do modelo o1 em vários testes.

O OpenAI o1 está classificado no 89º percentil em questões competitivas de programação (Codeforces), está entre os 500 melhores alunos dos EUA em uma eliminatória para a Olimpíada de Matemática dos EUA (AIME) e excede a precisão humana em nível de doutorado em uma referência de problemas de física, biologia e química (GPQA).

Da esquerda para a direita: Matemática do concurso, Código do concurso, Perguntas de ciências em nível de doutorado

Nos exames AIME 2024, o GPT-4o resolveu corretamente apenas 13% dos problemas, enquanto o o1 obteve 83%.

No teste GPQA Diamond, que inclui questões científicas de nível de doutorado em física, biologia e química, os modelos da o1 se saíram ainda melhor do que os especialistas humanos. Anteriormente, a inteligência artificial não era capaz de superar os humanos nesse teste.

Turquesa: GPT-4o, Vermelho: o1

A imagem acima mostra a excelência da o1 em disciplinas que vão de matemática a literatura inglesa. O teste MMLU inclui 57 categorias. O modelo da o1 venceu em 54 delas. Apenas 7 delas se encaixam na imagem:

Fatos globais
Química universitária
Matemática universitária
Direito Profissional
Relações Públicas
Econometria
Lógica formal

É interessante notar que o o1-mini tem um desempenho melhor em codificação do que o o1-preview, como mostram os benchmarks Codeforces e HumanEval:

o1-mini vs o1-preview vs GPT-4o em benchmarks de codificação

Referências de proficiência em codificação

Além de exames e referências acadêmicas, a OpenAI também avaliou a preferência humana entre o1-preview e GPT-4o:

Redação pessoal
Edição de texto
Programação de computadores
Análise de dados
Cálculo matemático

Nessa avaliação, os instrutores humanos receberam respostas anônimas de o1-preview e GPT-4o e votaram na resposta que preferiam.

Preferências humanas: o1-preview vs GPT-4o

Taxa de vitória do o1-preview vs GPT-4o (%)

O o1-preview é preferido ao GPT-4o por uma grande margem em categorias de raciocínio pesado, como análise de dados, codificação e matemática. No entanto, o o1-preview não é preferido em algumas tarefas de linguagem natural, como escrever e editar textos, o que sugere que o modelo o1-preview não é adequado para todos os casos de uso.

OpenAI o1 versus outros modelos de linguagem grandes

O OpenAI o1-preview é realmente inteligente. Quão inteligente? Com base no teste Mensa da Noruega, ele tem um QI de 120, o que é significativamente mais alto do que outros modelos de linguagem testados. O pico no gráfico representa o QI humano médio. Tudo à esquerda do pico está abaixo da média, enquanto tudo à direita está acima da média.

O OpenAI o1 supera a concorrência, tanto nos principais benchmarks quanto nos testes caseiros.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Você nem precisa entender esses testes. Tudo o que você precisa é ver o OpenAI o1 na parte superior.

Cadeia de pensamento

Os modelos da série o1 são treinados para raciocinar, criando uma cadeia de pensamentos. Assim, o chatbot não apenas dá uma resposta pronta, mas também mostra o caminho que percorreu para chegar lá. Pode ser muito interessante seguir esse caminho.

Vamos dar uma olhada em uma das perguntas mais difíceis do teste de QI mencionado anteriormente.

O bot escolheu a Opção D como resposta, e aqui está a explicação:

Opção D - Ao analisar os padrões na grade, vemos que cada coluna combina determinados componentes para incluir todos os elementos (V, V de cabeça para baixo, lados do retângulo) até a terceira linha. Na terceira coluna, os componentes Rleft e Rright (os lados do retângulo) ainda não apareceram. Portanto, a resposta correta para a célula vazia é a Opção D, que inclui o “v” normal e os dois lados do retângulo, completando o conjunto de componentes dessa coluna.

Agora vamos dar uma olhada em um quebra-cabeça mais simples (não do teste de QI):

Pergunta: O Sr. e a Sra. Smith e seus dois filhos formam uma típica família americana. De acordo com um de seus vizinhos mais falantes: George e Dorothy são parentes de sangue. Howard é mais velho que George. Virginia é mais nova que Howard. Virgínia é mais velha que Dorothy. Se duas e somente duas dessas afirmações forem verdadeiras, qual é o primeiro nome de cada membro da família?

Cadeia de raciocínio: Para resolver esse quebra-cabeça, precisamos determinar os primeiros nomes de cada membro da família com base nas afirmações fornecidas e na condição de que exatamente duas afirmações sejam verdadeiras. Vamos decompor as informações passo a passo.

Agora o modelo lista os membros da família, suas possíveis funções e nomes; analisa as afirmações, descobrindo quais são verdadeiras e quais são falsas. Então, com base em tudo isso, o modelo dá a resposta final.

Resposta: O Sr. Smith é George, a Sra. Smith é Virginia, o Filho é Howard, a Filha é Dorothy.

Conclusão

O modelo o1-preview é capaz de raciocinar logicamente, o que é necessário para resolver problemas científicos e matemáticos complexos. O modelo o1-mini é brilhante ao escrever código. No entanto, ambos os modelos o1 da OpenAI são ferramentas especializadas de forma bastante restrita, não são tão versáteis em suas aplicações quanto o GPT-4o e não são adequados para muitas tarefas rotineiras ou criativas: trabalhar com textos, tradução literária, edição. Entretanto, em seu domínio (matemática, ciências naturais e exatas), os modelos OpenAI o1 são incomparáveis.