Apa itu OpenAI o1 dan bagaimana model ini lebih baik daripada GPT-4o

Pada tanggal 12 September 2024, OpenAI, yang dikenal dengan ChatGPT, memperkenalkan seri model kecerdasan buatan barunya yang disebut OpenAI o1. Pada artikel ini kita akan menganalisis: bagaimana OpenAI o1 berbeda dari GPT-4o, apa saja kelebihannya dan di area mana saja OpenAI o1 dapat digunakan.

Apa itu OpenAI o1?

Ini adalah keluarga baru chatbot, atau, lebih tepatnya, model bahasa berdasarkan kecerdasan buatan, yang dirancang untuk menyelesaikan tugas-tugas yang kompleks atau sangat sulit yang membutuhkan akurasi dan pemikiran logis.

Saat ini, keluarga o1 meliputi:

o1-preview - model utama (masih dalam versi awal, seperti yang ditunjukkan oleh kata “preview”),
o1-mini - model yang lebih ringan dan lebih cepat yang sangat efektif dalam pengkodean.

Ada beberapa simbolisme dalam nama “o1” itu sendiri:

Namun untuk tugas penalaran yang kompleks, ini merupakan kemajuan yang signifikan dan mewakili tingkat kemampuan kecerdasan buatan yang baru. Dengan mempertimbangkan hal ini, kami mengatur ulang penghitung kembali ke 1 dan menamai seri ini OpenAI o1.

Perbedaan dari GPT-4o

OpenAI o1 adalah alternatif untuk GPT-4o, tetapi bukan pengganti langsung. Jika tidak, model ini hanya akan disebut sebagai GPT-5.

Karena masih dalam tahap pengembangan yang relatif awal, OpenAI o1 belum dapat melakukan banyak hal yang dapat dilakukan oleh GPT-4o. Sebagai contoh, ia tidak mendukung pengunggahan file dan gambar.

Namun, model o1 unggul dalam keakuratan responsnya, konsistensi dan logika penalarannya, yang memungkinkannya untuk berhasil diterapkan di berbagai bidang seperti:

Fisika kuantum,
Genetika,
Kedokteran,
Pengembangan perangkat lunak.

OpenAI o1 tidak hanya menghasilkan jawaban atas sebuah pertanyaan, tetapi membangun rantai penalaran. Karena itu, model ini mungkin membutuhkan waktu lebih lama untuk merespons daripada chatbot lain - biasanya 5-10 detik, dan dalam beberapa kasus hingga 20-30 detik. Ini tidak terlalu lama sehingga menjadi ketidaknyamanan yang nyata. Pertimbangan yang cermat terhadap respons membuat model OpenAI o1 tidak terlalu rentan terhadap halusinasi dibandingkan dengan pesaing mereka. Halusinasi adalah ketika chatbot mengarang fakta begitu saja, memberikan informasi yang salah.

Kekuatan dan evaluasi OpenAI o1

Di atas kami telah menyebutkan kekuatan OpenAI o1, seperti keakuratan respons dan kerentanan yang lemah terhadap halusinasi. Sekarang mari kita lihat bagaimana semua ini diterjemahkan ke dalam angka: berapa skor model o1 dalam berbagai tes.

OpenAI o1 berada di peringkat persentil ke-89 pada pertanyaan pemrograman kompetitif (Codeforces), berada di antara 500 siswa terbaik di AS dalam kualifikasi untuk Olimpiade Matematika AS (AIME), dan melebihi akurasi tingkat PhD manusia pada tolok ukur masalah fisika, biologi, dan kimia (GPQA).

Dari kiri ke kanan: Kompetisi Matematika, Kode Kompetisi, Pertanyaan Sains Tingkat PhD

Pada ujian AIME 2024, GPT-4o hanya menyelesaikan 13% soal dengan benar, sedangkan o1 mendapat skor 83%.

Dalam tes GPQA Diamond, yang mencakup Pertanyaan Sains Tingkat PhD di bidang fisika, biologi, dan kimia, model o1 bahkan lebih baik daripada pakar manusia. Sebelumnya, kecerdasan buatan belum mampu mengungguli manusia dalam tes ini.

Pirus: GPT-4o, Merah: o1

Gambar di atas menunjukkan keunggulan o1 dalam berbagai disiplin ilmu mulai dari matematika hingga sastra Inggris. Tes MMLU mencakup 57 kategori. Model o1 menang dalam 54 kategori. Hanya 7 di antaranya yang sesuai dengan gambar:

Fakta Global
Kimia Perguruan Tinggi
Matematika Perguruan Tinggi
Hukum Profesional
Hubungan Masyarakat
Ekonometrika
Logika Formal

Yang cukup menarik, o1-mini memiliki kinerja yang lebih baik dalam pengkodean daripada o1-preview, seperti yang ditunjukkan oleh tolok ukur Codeforces dan HumanEval:

o1-mini vs o1-preview vs GPT-4o dalam tolok ukur pengkodean

Tolok ukur kemahiran pengkodean

Selain ujian dan tolok ukur akademis, OpenAI juga mengevaluasi preferensi manusia terhadap o1-preview vs GPT-4o in:

Penulisan Pribadi
Mengedit Teks
Pemrograman Komputer
Analisis Data
Perhitungan Matematika

Dalam evaluasi ini, para pelatih manusia diperlihatkan jawaban anonim dari o1-preview dan GPT-4o, dan memilih jawaban yang mereka sukai.

Preferensi manusia: o1-preview vs GPT-4o

Tingkat kemenangan “o1-preview” vs GPT-4o (%)

o1-preview lebih disukai daripada GPT-4o dengan selisih yang besar dalam kategori yang membutuhkan penalaran seperti analisis data, pengkodean, dan matematika. Namun, o1-preview tidak disukai pada beberapa tugas bahasa alami seperti menulis dan mengedit teks, menunjukkan bahwa model o1-preview tidak cocok untuk semua kasus penggunaan.

OpenAI o1 vs model bahasa besar lainnya

OpenAI o1-preview sangat cerdas. Seberapa pintar? Berdasarkan tes Mensa Norwegia, ia memiliki IQ 120, yang secara signifikan lebih tinggi daripada model bahasa lain yang diuji. Puncak pada grafik mewakili IQ rata-rata manusia. Semua yang berada di sebelah kiri puncak berada di bawah rata-rata, sedangkan yang berada di sebelah kanan berada di atas rata-rata.

OpenAI o1 mengungguli para pesaingnya, baik dalam tolok ukur utama maupun pengujian buatan sendiri.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Anda bahkan tidak perlu memahami tes-tes tersebut. Yang Anda perlukan hanyalah melihat OpenAI o1 di bagian atas.

Rantai pemikiran

Model seri o1 dilatih untuk bernalar, membangun rantai pemikiran. Dengan demikian, chatbot tidak hanya memberikan jawaban yang sudah jadi, tetapi juga menunjukkan jalan yang harus ditempuh untuk sampai ke sana. Bisa jadi sangat menarik untuk mengikuti jalur ini.

Mari kita lihat salah satu pertanyaan yang lebih sulit dari tes IQ yang disebutkan sebelumnya.

Bot memilih Opsi D sebagai jawabannya, dan inilah penjelasannya:

Opsi D - Dengan menganalisis pola dalam kisi, kita melihat bahwa setiap kolom menggabungkan komponen tertentu untuk menyertakan semua elemen (V, V terbalik, sisi persegi panjang) pada baris ketiga. Pada kolom ketiga, komponen R Kiri dan R Kanan (sisi persegi panjang) belum muncul. Oleh karena itu, jawaban yang benar untuk sel kosong adalah Opsi D, yang mencakup huruf 'v' normal dan dua sisi persegi panjang, melengkapi rangkaian komponen untuk kolom tersebut.

Sekarang mari kita lihat teka-teki yang lebih sederhana (bukan dari tes IQ):

Pertanyaan: Tuan dan Nyonya Smith beserta kedua anak mereka merupakan keluarga Amerika yang khas. Menurut salah satu tetangga mereka yang banyak bicara: George dan Dorothy adalah saudara sedarah. Howard lebih tua dari George. Virginia lebih muda dari Howard. Virginia lebih tua dari Dorothy. Jika dua dan hanya dua dari pernyataan-pernyataan ini yang benar, apa nama depan setiap anggota keluarga?

Rantai pemikiran: Untuk menyelesaikan teka-teki ini, kita perlu menentukan nama depan setiap anggota keluarga berdasarkan pernyataan yang diberikan dan kondisi bahwa tepat dua pernyataan benar. Mari kita uraikan informasi tersebut selangkah demi selangkah.

Sekarang model akan membuat daftar anggota keluarga, kemungkinan peran dan nama mereka; menganalisis pernyataan-pernyataannya, mencari tahu mana yang benar dan mana yang salah. Kemudian berdasarkan semua itu, model tersebut memberikan jawaban akhir.

Jawaban: Tuan Smith adalah George, Nyonya Smith adalah Virginia, Anak laki-laki adalah Howard, Anak perempuan adalah Dorothy.

Kesimpulan

Model o1-preview mampu melakukan penalaran logis, yang diperlukan untuk memecahkan masalah ilmiah dan matematika yang kompleks. Model o1-mini sangat bagus dalam menulis kode. Namun, kedua model OpenAI o1 adalah alat khusus yang agak sempit, mereka tidak serbaguna dalam aplikasinya seperti GPT-4o, dan mereka tidak cocok untuk banyak tugas rutin atau kreatif: bekerja dengan teks, terjemahan sastra, pengeditan. Namun, dalam domain mereka (matematika, ilmu pengetahuan alam dan eksakta), model OpenAI o1 tidak ada bandingannya.