O que é o OpenAI o1 e como esse modelo é melhor do que o GPT-4o
Em 12 de setembro de 2024, a OpenAI, conhecida pelo ChatGPT, apresentou sua nova série de modelos de inteligência artificial chamada OpenAI o1. Neste artigo, analisaremos: como o OpenAI o1 difere do GPT-4o, quais são seus pontos fortes e em que áreas ele pode ser usado.
O que é o OpenAI o1?
É uma nova família de chatbots, ou, mais precisamente, modelos de linguagem baseados em inteligência artificial, projetados para resolver tarefas complexas ou particularmente difíceis que exigem precisão e raciocínio lógico.
Atualmente, a família o1 inclui:
- o1-preview - o modelo principal (ainda em uma versão inicial, conforme indicado pela palavra “preview”),
- o1-mini - um modelo mais leve e mais rápido que é particularmente eficaz na codificação.
Há algum simbolismo no próprio nome “o1”:
Mas, para tarefas de raciocínio complexas, esse é um avanço significativo e representa um novo nível de capacidade de IA. Por isso, estamos redefinindo o contador de volta para 1 e nomeando esta série como OpenAI o1.
Diferenças em relação ao GPT-4o
O OpenAI o1 é uma alternativa ao GPT-4o, mas não um substituto direto. Caso contrário, o modelo seria chamado simplesmente de GPT-5.
Por estar em um estágio relativamente inicial de desenvolvimento, o OpenAI o1 ainda não pode fazer muitas das coisas que o GPT-4o pode fazer. Por exemplo, ele não suporta o upload de arquivos e imagens.
No entanto, os modelos o1 se destacam pela precisão de suas respostas, pela consistência e pela lógica de seu raciocínio, o que permite que sejam aplicados com sucesso em áreas como:
- Física quântica,
- Genética,
- Medicina,
- Desenvolvimento de software.
O OpenAI o1 não gera simplesmente uma resposta a uma pergunta, mas constrói uma cadeia de raciocínio. Por isso, o modelo pode levar mais tempo para responder do que outros chatbots - geralmente de 5 a 10 segundos e, em alguns casos, até 20 a 30 segundos. Esse tempo não é tão longo a ponto de se tornar um inconveniente real. A consideração cuidadosa das respostas torna os modelos OpenAI o1 menos propensos a alucinações em comparação com seus concorrentes. Alucinações são quando um chatbot inventa fatos do nada, fornecendo informações falsas.
Pontos fortes e avaliações do OpenAI o1
Acima, já mencionamos os pontos fortes do OpenAI o1, como a precisão das respostas e a fraca suscetibilidade a alucinações. Agora vamos ver como tudo isso se traduz em números: qual a pontuação do modelo o1 em vários testes.
O OpenAI o1 está classificado no 89º percentil em questões competitivas de programação (Codeforces), está entre os 500 melhores alunos dos EUA em uma eliminatória para a Olimpíada de Matemática dos EUA (AIME) e excede a precisão humana em nível de doutorado em uma referência de problemas de física, biologia e química (GPQA).

Da esquerda para a direita: Matemática do concurso, Código do concurso, Perguntas de ciências em nível de doutorado
Nos exames AIME 2024, o GPT-4o resolveu corretamente apenas 13% dos problemas, enquanto o o1 obteve 83%.
No teste GPQA Diamond, que inclui questões científicas de nível de doutorado em física, biologia e química, os modelos da o1 se saíram ainda melhor do que os especialistas humanos. Anteriormente, a inteligência artificial não era capaz de superar os humanos nesse teste.

Turquesa: GPT-4o, Vermelho: o1
A imagem acima mostra a excelência da o1 em disciplinas que vão de matemática a literatura inglesa. O teste MMLU inclui 57 categorias. O modelo da o1 venceu em 54 delas. Apenas 7 delas se encaixam na imagem:
- Fatos globais
- Química universitária
- Matemática universitária
- Direito Profissional
- Relações Públicas
- Econometria
- Lógica formal
É interessante notar que o o1-mini tem um desempenho melhor em codificação do que o o1-preview, como mostram os benchmarks Codeforces e HumanEval:

Referências de proficiência em codificação
Além de exames e referências acadêmicas, a OpenAI também avaliou a preferência humana entre o1-preview e GPT-4o:
- Redação pessoal
- Edição de texto
- Programação de computadores
- Análise de dados
- Cálculo matemático
Nessa avaliação, os instrutores humanos receberam respostas anônimas de o1-preview e GPT-4o e votaram na resposta que preferiam.

Taxa de vitória do o1-preview vs GPT-4o (%)
O o1-preview é preferido ao GPT-4o por uma grande margem em categorias de raciocínio pesado, como análise de dados, codificação e matemática. No entanto, o o1-preview não é preferido em algumas tarefas de linguagem natural, como escrever e editar textos, o que sugere que o modelo o1-preview não é adequado para todos os casos de uso.
OpenAI o1 versus outros modelos de linguagem grandes
O OpenAI o1-preview é realmente inteligente. Quão inteligente? Com base no teste Mensa da Noruega, ele tem um QI de 120, o que é significativamente mais alto do que outros modelos de linguagem testados. O pico no gráfico representa o QI humano médio. Tudo à esquerda do pico está abaixo da média, enquanto tudo à direita está acima da média.

O OpenAI o1 supera a concorrência, tanto nos principais benchmarks quanto nos testes caseiros.



Você nem precisa entender esses testes. Tudo o que você precisa é ver o OpenAI o1 na parte superior.
Cadeia de pensamento
Os modelos da série o1 são treinados para raciocinar, criando uma cadeia de pensamentos. Assim, o chatbot não apenas dá uma resposta pronta, mas também mostra o caminho que percorreu para chegar lá. Pode ser muito interessante seguir esse caminho.
Vamos dar uma olhada em uma das perguntas mais difíceis do teste de QI mencionado anteriormente.

O bot escolheu a Opção D como resposta, e aqui está a explicação:
Opção D - Ao analisar os padrões na grade, vemos que cada coluna combina determinados componentes para incluir todos os elementos (V, V de cabeça para baixo, lados do retângulo) até a terceira linha. Na terceira coluna, os componentes Rleft e Rright (os lados do retângulo) ainda não apareceram. Portanto, a resposta correta para a célula vazia é a Opção D, que inclui o “v” normal e os dois lados do retângulo, completando o conjunto de componentes dessa coluna.
Agora vamos dar uma olhada em um quebra-cabeça mais simples (não do teste de QI):

Pergunta: O Sr. e a Sra. Smith e seus dois filhos formam uma típica família americana. De acordo com um de seus vizinhos mais falantes: George e Dorothy são parentes de sangue. Howard é mais velho que George. Virginia é mais nova que Howard. Virgínia é mais velha que Dorothy. Se duas e somente duas dessas afirmações forem verdadeiras, qual é o primeiro nome de cada membro da família?
Cadeia de raciocínio: Para resolver esse quebra-cabeça, precisamos determinar os primeiros nomes de cada membro da família com base nas afirmações fornecidas e na condição de que exatamente duas afirmações sejam verdadeiras. Vamos decompor as informações passo a passo.
Agora o modelo lista os membros da família, suas possíveis funções e nomes; analisa as afirmações, descobrindo quais são verdadeiras e quais são falsas. Então, com base em tudo isso, o modelo dá a resposta final.
Resposta: O Sr. Smith é George, a Sra. Smith é Virginia, o Filho é Howard, a Filha é Dorothy.
Conclusão
O modelo o1-preview é capaz de raciocinar logicamente, o que é necessário para resolver problemas científicos e matemáticos complexos. O modelo o1-mini é brilhante ao escrever código. No entanto, ambos os modelos o1 da OpenAI são ferramentas especializadas de forma bastante restrita, não são tão versáteis em suas aplicações quanto o GPT-4o e não são adequados para muitas tarefas rotineiras ou criativas: trabalhar com textos, tradução literária, edição. Entretanto, em seu domínio (matemática, ciências naturais e exatas), os modelos OpenAI o1 são incomparáveis.