OpenAI o1 nedir ve bu model GPT-4o'dan nasıl daha iyidir?

12 Eylül 2024 tarihinde, ChatGPT ile tanınan OpenAI, OpenAI o1 adlı yeni yapay zeka modelleri serisini tanıttı. Bu makalede OpenAI o1'in GPT-4o'dan ne kadar farklı olduğunu, güçlü yönlerinin neler olduğunu ve hangi alanlarda kullanılabileceğini analiz edeceğiz.

OpenAI o1 nedir?

Doğruluk ve mantıksal düşünme gerektiren karmaşık veya özellikle zor görevleri çözmek için tasarlanmış yeni bir chatbot ailesi veya daha doğrusu yapay zekaya dayalı dil modelleridir.

Şu anda o1 ailesi şunları içermektedir:

o1-preview - ana model (“preview” kelimesiyle belirtildiği gibi hala erken bir sürümde),
o1-mini - özellikle kodlamada etkili olan daha hafif, daha hızlı bir model.

“o1” adının kendisinde bazı sembolizmler vardır:

Ancak karmaşık muhakeme görevleri için bu önemli bir ilerlemedir ve yeni bir YZ yeteneği seviyesini temsil eder. Bunu göz önünde bulundurarak, sayacı tekrar 1'e sıfırlıyoruz ve bu seriye OpenAI o1 adını veriyoruz.

GPT-4o'dan farklılıklar

OpenAI o1, GPT-4o'ya bir alternatiftir, ancak doğrudan bir ikame değildir. Aksi takdirde, model basitçe GPT-5 olarak adlandırılırdı.

Geliştirmenin nispeten erken bir aşamasında olan OpenAI o1, GPT-4o'nun yapabildiği birçok şeyi henüz yapamamaktadır. Örneğin, dosya ve görüntü yüklemeyi desteklememektedir.

Bununla birlikte, o1 modelleri yanıtlarının doğruluğu, akıl yürütmelerinin tutarlılığı ve mantığı açısından üstündür ve bu da onların aşağıdaki gibi alanlarda başarıyla uygulanmasına olanak tanır:

Kuantum fiziği,
Genetik,
Tıp,
Yazılım geliştirme.

OpenAI o1 sadece bir soruya cevap üretmekle kalmaz, aynı zamanda bir muhakeme zinciri oluşturur. Bu nedenle, modelin yanıt vermesi diğer sohbet robotlarından daha uzun sürebilir - tipik olarak 5-10 saniye ve bazı durumlarda 20-30 saniyeye kadar. Bu süre gerçek bir rahatsızlık yaratacak kadar uzun değildir. Yanıtların dikkatli bir şekilde değerlendirilmesi, OpenAI o1 modellerinin rakiplerine kıyasla halüsinasyonlara daha az eğilimli olmasını sağlar. Halüsinasyon, bir sohbet robotunun gerçekleri havadan uydurarak yanlış bilgi vermesidir.

OpenAI o1'in güçlü yönleri ve değerlendirmeleri

Yukarıda OpenAI o1'in yanıtların doğruluğu ve halüsinasyonlara karşı zayıf duyarlılık gibi güçlü yönlerinden bahsetmiştik. Şimdi tüm bunların rakamlara nasıl dönüştüğünü görelim: o1 modelinin çeşitli testlerde aldığı puanlar.

OpenAI o1, rekabetçi programlama sorularında (Codeforces) 89. yüzdelik dilimde yer alıyor, ABD Matematik Olimpiyatı (AIME) elemelerinde ABD'deki ilk 500 öğrenci arasına giriyor ve fizik, biyoloji ve kimya problemlerinden oluşan bir ölçütte (GPQA) insan doktora düzeyindeki doğruluğu aşıyor.

Soldan sağa doğru: Yarışma matematiği, Yarışma kodu, Doktora Düzeyinde Bilim Soruları

2024 AIME sınavlarında GPT-4o problemlerin yalnızca %13'ünü doğru çözerken, o1 %83 puan almıştır.

Fizik, biyoloji ve kimya alanlarında doktora düzeyinde fen bilimleri sorularını içeren GPQA Diamond testinde ise o1 modelleri insan uzmanlardan bile daha başarılı oldu. Daha önce yapay zeka bu testte insanlardan daha iyi performans gösterememişti.

Turkuaz: GPT-4o, Kırmızı: o1

Yukarıdaki görsel, o1'in matematikten İngiliz edebiyatına kadar çeşitli disiplinlerdeki mükemmelliğini göstermektedir. MMLU testi 57 kategori içermektedir. o1 modeli bunların 54'ünde kazanmıştır. Sadece 7 tanesi resme sığıyor:

Küresel Gerçekler
Üniversite Kimyası
Üniversite Matematiği
Meslek Hukuku
Halkla İlişkiler
Ekonometri
Biçimsel Mantık

İlginçtir ki, hem Codeforces hem de HumanEval kıyaslamalarının gösterdiği gibi, o1-mini kodlamada o1-preview'den daha iyi performans gösteriyor:

Kodlama kıyaslamalarında o1-mini vs o1-preview vs GPT-4o

Kodlama yeterlilik ölçütleri

Sınavlara ve akademik ölçütlere ek olarak OpenAI, GPT-4o'ya karşı o1-preview'in insan tercihini de değerlendirdi:

Kişisel Yazılar
Metin Düzenleme
Bilgisayar Programcılığı
Veri Analizi
Matematiksel Hesaplama

Bu değerlendirmede, insan eğitmenlere o1-preview ve GPT-4o'dan anonimleştirilmiş yanıtlar gösterilmiş ve hangi yanıtı tercih ettikleri oylanmıştır.

GPT-4o'ya karşı o1-önizleme kazanma oranı (%)

o1-preview, veri analizi, kodlama ve matematik gibi muhakeme ağırlıklı kategorilerde büyük bir farkla GPT-4o'ya tercih edilmektedir. Bununla birlikte, o1-preview, metin yazma ve düzenleme gibi bazı doğal dil görevlerinde tercih edilmemektedir, bu da o1-preview modelinin tüm kullanım durumları için uygun olmadığını göstermektedir.

OpenAI o1 vs diğer büyük dil modelleri

OpenAI o1-preview gerçekten akıllı. Ne kadar akıllı? Norveç Mensa testine göre, 120 IQ'ya sahip ve bu da test edilen diğer dil modellerinden önemli ölçüde daha yüksek. Grafikteki tepe noktası ortalama insan IQ'sunu temsil ediyor. Zirvenin solundaki her şey ortalamanın altında, sağındaki her şey ise ortalamanın üzerindedir.

OpenAI o1, hem büyük kıyaslamalarda hem de ev yapımı testlerde rakiplerine fark atıyor.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Bu testleri anlamanıza bile gerek yok. İhtiyacınız olan tek şey OpenAI o1'i en üstte görmek.

Düşünce zinciri

o1 serisinin modelleri, bir düşünce zinciri oluşturarak mantık yürütmek üzere eğitilmiştir. Böylece chatbot sadece hazır bir cevap vermekle kalmaz, aynı zamanda oraya ulaşmak için izlediği yolu da gösterir. Bu yolu takip etmek çok ilginç olabilir.

Daha önce bahsettiğimiz IQ testindeki zor sorulardan birine bakalım.

Bot cevap olarak D seçeneğini seçti ve bunu şu şekilde açıkladı:

Seçenek D - Izgaradaki desenleri analiz ederek, her sütunun üçüncü satıra kadar tüm öğeleri (V, baş aşağı V, dikdörtgen kenarları) içerecek şekilde belirli bileşenleri birleştirdiğini görüyoruz. Üçüncü sütunda, Rleft ve Rright (dikdörtgenin kenarları) bileşenleri henüz ortaya çıkmamıştır. Bu nedenle, boş hücre için doğru yanıt, normal 'v' ve dikdörtgenin iki kenarını içeren ve bu sütun için bileşen kümesini tamamlayan D seçeneğidir.

Şimdi daha basit bir bulmacaya bakalım (IQ testinden değil):

Soru: Bay ve Bayan Smith ve iki çocukları tipik bir Amerikan ailesidir. Daha konuşkan komşularından birine göre: George ve Dorothy kan bağı olan akrabalar. Howard, George'dan büyüktür. Virginia, Howard'dan daha genç. Virginia Dorothy'den daha yaşlı. Bu ifadelerden ikisi ve sadece ikisi doğruysa, ailenin her bir üyesinin ilk adı nedir?

Düşünce zinciri: Bu bulmacayı çözmek için, verilen ifadelere ve tam olarak iki ifadenin doğru olması koşuluna dayanarak her bir aile üyesinin ilk adlarını belirlememiz gerekir. Bilgileri adım adım inceleyelim.

Şimdi model aile üyelerini, olası rollerini ve isimlerini listeliyor; ifadeleri analiz ediyor, bunlardan hangilerinin doğru hangilerinin yanlış olduğunu buluyor. Daha sonra tüm bunlara dayanarak model nihai cevabı verir.

Cevap: Bay Smith George, Bayan Smith Virginia, Oğlu Howard, Kızı Dorothy'dir.

Sonuç

o1-preview modeli, karmaşık bilimsel ve matematiksel problemleri çözmek için gerekli olan mantıksal muhakeme yeteneğine sahiptir. o1-mini modeli kod yazma konusunda mükemmeldir. Bununla birlikte, her iki OpenAI o1 modeli de oldukça dar bir şekilde uzmanlaşmış araçlardır, uygulamalarında GPT-4o kadar çok yönlü değildirler ve birçok rutin veya yaratıcı görev için uygun değildirler: metinlerle çalışmak, edebi çeviri, düzenleme. Bununla birlikte, kendi alanlarında (matematik, doğa ve kesin bilimler), OpenAI o1 modelleri benzersizdir.