OpenAI o1とは何か、また、このモデルがGPT-4oよりも優れている点とは何か

2024年9月12日、チャットGPTで知られるOpenAIは、OpenAI o1と呼ばれる新しい人工知能モデルシリーズを発表しました。この記事では、OpenAI o1がGPT-4oとどのように異なるのか、その強みは何か、どのような分野で使用できるのかを分析します。

OpenAI o1とは？

新しいチャットボットのファミリー、あるいはより正確に言えば、正確性と論理的思考を必要とする複雑な、あるいは特に困難なタスクを解決するために設計された人工知能に基づく言語モデルです。

現在、o1ファミリーには以下のモデルが含まれます。

o1-preview – メインモデル（「プレビュー」という言葉が示すように、まだ初期バージョンです）。
o1-mini – 軽量で高速なモデルで、特にコーディングに効果的です。

o1という名称自体にもいくつかの象徴的な意味があります。

しかし、複雑な推論タスクにおいては、これは大きな進歩であり、人工知能の能力の新たなレベルを表しています。このため、カウンターを1に戻し、このシリーズをOpenAI o1と名付けます。

GPT-4oとの相違点

OpenAI o1はGPT-4oの代替モデルですが、直接的な置き換えではありません。そうでなければ、このモデルは単にGPT-5と呼ばれているでしょう。

開発の初期段階にあるため、OpenAI o1はGPT-4oが実行できる多くのことをまだ実行できません。例えば、ファイルや画像のアップロードはサポートされていません。

しかし、o1モデルは回答の精度、推論の一貫性と論理性に優れており、次のような分野での応用に成功しています。

量子物理学、
遺伝学、
医学、
ソフトウェア開発。

OpenAI o1は、質問に対する回答を単純に生成するのではなく、推論の連鎖を構築します。このため、他のチャットボットよりも回答までに時間がかかる場合があります。通常は5～10秒、場合によっては20～30秒かかることもあります。しかし、これは実用上問題となるほど長い時間ではありません。回答を慎重に検討することで、OpenAI o1モデルは競合他社と比較して、誤った情報を提供するような空想をすることが少なくなっています。チャットボットが事実をでっちあげ、誤った情報を提供することを「空想」といいます。

OpenAI o1の長所と評価

すでに上述したように、OpenAI o1の長所には、反応の正確さや幻覚に対する弱い感受性などがあります。では、これらの長所が数値にどのように反映されるのか、つまり、o1モデルがさまざまなテストでどのようなスコアを獲得するのかを見てみましょう。

OpenAI o1は、プログラミングの競技問題（Codeforces）では89パーセンタイルにランクインし、全米数学オリンピック予選（AIME）では全米の上位500人にランクインし、物理学、生物学、化学の問題のベンチマークでは博士号レベルの精度を上回る。

左から右へ：数学の競技、コードの競技、博士レベルの科学問題

2024年のAIME試験では、GPT-4oは問題の13%のみを正しく解いたのに対し、o1は83%を正解しました。

物理学、生物学、化学の博士課程レベルの科学問題を含むGPQAダイヤモンド試験では、o1モデルは人間の専門家よりもさらに優れた結果を出しました。これまで、この試験で人工知能が人間を上回ることはできませんでした。

ターコイズ：GPT-4o、赤：o1

上の画像は、数学から英文学まで、幅広い分野におけるo1の優秀さを示しています。MMLUテストには57のカテゴリーがあります。o1モデルは、そのうち54のカテゴリーで1位を獲得しました。画像に収まるのはそのうちの7つだけです。

グローバルファクト
大学化学
大学数学
プロフェッショナル法
広報
計量経済学
形式論理学

興味深いことに、CodeforcesとHumanEvalのベンチマークテストの両方で、o1-previewよりもo1-miniの方がコーディングのパフォーマンスが優れています。

o1-mini vs o1-preview vs GPT-4oのコーディングベンチマーク

コーディング能力のベンチマーク

試験や学術的なベンチマークに加えて、OpenAIは次の分野におけるo1-previewとGPT-4oの人間の好みについても評価しました。

個人的な文章作成
テキストの編集
コンピュータープログラミング
データ分析
数学的計算

この評価では、人間のトレーナーにo1-previewとGPT-4oの匿名化された回答を見せ、どちらの回答が好ましいかを投票で選んでもらいました。

o1-previewのGPT-4に対する勝率（%）

o1-previewは、データ分析、コーディング、数学など、推論を多用するカテゴリーではGPT-4oよりもはるかに優れています。しかし、文章の執筆や編集など、自然言語のタスクではo1-previewは好まれないため、o1-previewモデルがすべてのユースケースに適しているわけではないことが示唆されます。

OpenAI o1と他の大規模言語モデルの比較

OpenAI o1-previewは非常に賢い。どのくらい賢いか？ノルウェー・メンサテストによると、IQは120で、他のテスト対象の言語モデルよりもはるかに高い。グラフのピークは、人間の平均IQを表している。ピークの左側にあるものはすべて平均以下、右側にあるものはすべて平均以上である。

OpenAIのo1は、主要なベンチマークでも、独自に実施したテストでも、競合他社を圧倒的に凌駕しています。

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

これらのテストを理解する必要はありません。必要なのは、OpenAI o1 がトップに表示されていることだけです。

思考の連鎖

o1 シリーズのモデルは、思考の連鎖を構築するように訓練されています。そのため、チャットボットは既製の回答を返すだけでなく、そこに至るまでの思考の過程も示します。この過程を追うのは非常に興味深いものです。

先ほど挙げたIQテストの難問の1つを見てみましょう。

このボットは答えとしてオプションDを選び、以下のように説明しました。

オプションD — グリッド内のパターンを分析すると、3行目までに各列が特定のコンポーネントを組み合わせて、すべての要素（V、上下逆さのV、四角形の辺）を含んでいることが分かります。3列目では、コンポーネントRleftとRright（四角形の辺）はまだ登場していません。したがって、空欄の正しい答えはオプションDで、通常の「v」と長方形の2辺を含み、その列のすべての要素を完成させるものです。

次に、より簡単なパズル（IQテストのものではない）を見てみましょう。

問題：スミス夫妻と2人の子供たちは典型的なアメリカ人家族です。おしゃべり好きな隣人の一人によると、ジョージとドロシーは血縁関係にあるそうです。ハワードはジョージより年上です。バージニアはハワードより年下です。バージニアはドロシーより年上です。これらのうち2つだけが正しい場合、家族のそれぞれの名前は何でしょうか？

思考の流れ：このパズルを解くには、与えられた文と、正確に2つの文が真であるという条件に基づいて、家族の各メンバーのファーストネームを決定する必要があります。情報を段階的に分解してみましょう。

まず、モデルが家族のメンバー、その役割、名前をリストアップし、文を分析して、どの文が真でどの文が偽かを特定します。そして、モデルが提示したすべての情報に基づいて最終的な答えを出します。

回答：スミス氏はジョージ、スミス夫人はバージニア、息子はハワード、娘はドロシー。

結論

o1-previewモデルは、複雑な科学や数学の問題を解決するために必要な論理的推論を行うことができます。o1-miniモデルは、コードの記述に優れています。しかし、OpenAIのo1モデルはどちらもかなり狭い用途に特化したツールであり、GPT-4oほど用途が広くはなく、テキストの処理、文芸翻訳、編集など、多くの日常的または創造的な作業には適していません。しかし、その領域（数学、自然科学、精密科学）においては、OpenAIのo1モデルは比類のないものです。