OpenAI o1 là gì và mô hình này tốt hơn GPT-4o như thế nào

Vào ngày 12 tháng 9 năm 2024, OpenAI, được biết đến với tên gọi ChatGPT, đã giới thiệu loạt mô hình trí tuệ nhân tạo mới có tên gọi là OpenAI o1. Trong bài viết này, chúng tôi sẽ phân tích: OpenAI o1 khác với GPT-4o như thế nào, điểm mạnh của nó là gì và có thể sử dụng trong những lĩnh vực nào.

OpenAI o1 là gì?

Đây là một họ chatbot mới, hay nói chính xác hơn là các mô hình ngôn ngữ dựa trên trí tuệ nhân tạo, được thiết kế để giải quyết các nhiệm vụ phức tạp hoặc đặc biệt khó khăn đòi hỏi sự chính xác và tư duy logic.

Hiện tại, họ o1 bao gồm:

o1-preview – mô hình chính (vẫn đang ở phiên bản đầu, như được chỉ ra bởi từ "preview"),
o1-mini – một mô hình nhẹ hơn, nhanh hơn, đặc biệt hiệu quả trong việc mã hóa.

Có một số biểu tượng trong chính cái tên “o1”:

Nhưng đối với các tác vụ lý luận phức tạp thì đây là một tiến bộ đáng kể và thể hiện một cấp độ mới về khả năng trí tuệ nhân tạo. Với điều này, chúng tôi đang đặt lại bộ đếm về 1 và đặt tên cho chuỗi này là OpenAI o1.

Sự khác biệt so với GPT-4o

OpenAI o1 là giải pháp thay thế cho GPT-4o, nhưng không phải là sự thay thế trực tiếp. Nếu không, mô hình này sẽ được gọi đơn giản là GPT-5.

OpenAI o1 vẫn đang trong giai đoạn phát triển khá sớm, chưa thể thực hiện được nhiều chức năng mà GPT-4o có thể thực hiện. Ví dụ, nó không hỗ trợ tải tệp và hình ảnh lên.

Tuy nhiên, các mô hình o1 nổi trội về độ chính xác của phản hồi, tính nhất quán và logic trong lý luận, cho phép chúng được áp dụng thành công trong các lĩnh vực như:

Vật lý lượng tử,
Di truyền học,
Y học,
Phát triển phần mềm.

OpenAI o1 không chỉ tạo ra câu trả lời cho một câu hỏi mà còn xây dựng một chuỗi lý luận. Do đó, mô hình có thể mất nhiều thời gian hơn để phản hồi so với các chatbot khác - thường là 5-10 giây và trong một số trường hợp lên đến 20-30 giây. Khoảng thời gian này không quá dài để trở thành sự bất tiện thực sự. Việc cân nhắc kỹ lưỡng các phản hồi khiến các mô hình OpenAI o1 ít bị ảo giác hơn so với các đối thủ cạnh tranh. Ảo giác là khi chatbot bịa ra những sự thật không có thật, cung cấp thông tin sai lệch.

Điểm mạnh và đánh giá của OpenAI o1

Ở trên chúng tôi đã đề cập đến những điểm mạnh của OpenAI o1, chẳng hạn như độ chính xác của phản hồi và khả năng dễ bị ảo giác thấp. Bây giờ chúng ta hãy xem tất cả những điều này được chuyển thành con số như thế nào: mô hình o1 đạt điểm gì trong các bài kiểm tra khác nhau.

OpenAI o1 được xếp hạng ở mức phần trăm thứ 89 về các câu hỏi lập trình cạnh tranh (Codeforces), lọt vào top 500 học sinh tại Hoa Kỳ trong vòng loại của Kỳ thi Olympic Toán Hoa Kỳ (AIME) và vượt qua độ chính xác ở cấp độ Tiến sĩ của con người trong chuẩn mực về các bài toán vật lý, sinh học và hóa học (GPQA).

o1 so với GPT-4o so với chuyên gia con người

Từ trái sang phải: Toán thi, Luật thi, Câu hỏi khoa học trình độ tiến sĩ

Trong kỳ thi AIME năm 2024, GPT-4o chỉ giải đúng 13% bài toán, trong khi o1 đạt 83%.

Trong bài kiểm tra GPQA Diamond, bao gồm các Câu hỏi Khoa học cấp độ Tiến sĩ về vật lý, sinh học và hóa học, các mô hình o1 thậm chí còn làm tốt hơn cả các chuyên gia là con người. Trước đây, trí tuệ nhân tạo không thể vượt trội hơn con người trong bài kiểm tra này.

Màu ngọc lam: GPT-4o, Màu đỏ: o1

Hình ảnh trên cho thấy sự xuất sắc của o1 trong các môn học từ toán học đến văn học Anh. Bài kiểm tra MMLU bao gồm 57 hạng mục. Mô hình o1 đã giành chiến thắng ở 54 hạng mục trong số đó. Chỉ có 7 hạng mục trong số đó phù hợp với hình ảnh:

Sự kiện toàn cầu
Hóa học đại học
Toán học đại học
Luật chuyên nghiệp
Quan hệ công chúng
Kinh tế lượng
Logic hình thức

Điều thú vị là o1-mini hoạt động tốt hơn trong việc mã hóa so với o1-preview, như cả điểm chuẩn Codeforces và HumanEval đều cho thấy:

o1-mini so với o1-preview so với GPT-4o trong các chuẩn mực mã hóa

Tiêu chuẩn đánh giá trình độ mã hóa

Ngoài các kỳ thi và chuẩn mực học thuật, OpenAI cũng đánh giá sở thích của con người về o1-preview so với GPT-4o trong:

Viết cá nhân
Chỉnh sửa văn bản
Lập trình máy tính
Phân tích dữ liệu
Tính toán toán học

Trong đánh giá này, người đào tạo được hiển thị các câu trả lời ẩn danh từ o1-preview và GPT-4o, và bỏ phiếu cho câu trả lời mà họ thích hơn.

Sở thích của con người: o1-preview so với GPT-4o

Tỷ lệ thắng o1-preview so với GPT-4o (%)

o1-preview được ưa chuộng hơn GPT-4o với biên độ lớn trong các danh mục nặng về lý luận như phân tích dữ liệu, mã hóa và toán học. Tuy nhiên, o1-preview không được ưa chuộng trong một số tác vụ ngôn ngữ tự nhiên như viết và chỉnh sửa văn bản, cho thấy mô hình o1-preview không phù hợp với mọi trường hợp sử dụng.

OpenAI o1 so với các mô hình ngôn ngữ lớn khác

OpenAI o1-preview thực sự thông minh. Thông minh đến mức nào? Dựa trên bài kiểm tra Mensa của Na Uy, nó có IQ là 120, cao hơn đáng kể so với các mô hình ngôn ngữ được thử nghiệm khác. Đỉnh trên biểu đồ biểu thị IQ trung bình của con người. Mọi thứ ở bên trái đỉnh đều dưới mức trung bình, trong khi mọi thứ ở bên phải đều trên mức trung bình.

OpenAI o1 đánh bại mọi đối thủ trong các bài kiểm tra chuẩn mực cũng như các bài kiểm tra tự chế.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Bạn thậm chí không cần phải hiểu những bài kiểm tra đó. Tất cả những gì bạn cần là thấy OpenAI o1 ở trên cùng.

Chuỗi suy nghĩ

Các mô hình của dòng o1 được đào tạo để lý luận, xây dựng một chuỗi suy nghĩ. Do đó, chatbot không chỉ đưa ra câu trả lời có sẵn mà còn chỉ ra con đường mà nó đã đi để đến đó. Có thể rất thú vị khi theo dõi con đường này.

Chúng ta hãy xem một trong những câu hỏi khó hơn trong bài kiểm tra IQ đã đề cập trước đó.

Bot đã chọn đáp án D và đây là cách giải thích của nó:

Tùy chọn D — Bằng cách phân tích các mẫu trong lưới, chúng ta thấy rằng mỗi cột kết hợp các thành phần nhất định để bao gồm tất cả các phần tử (V, V ngược, các cạnh hình chữ nhật) theo hàng thứ ba. Trong cột thứ ba, các thành phần Rleft và Rright (các cạnh của hình chữ nhật) vẫn chưa xuất hiện. Do đó, câu trả lời đúng cho ô trống là Tùy chọn D, bao gồm 'v' bình thường và hai cạnh của hình chữ nhật, hoàn thành tập hợp các thành phần cho cột đó.

Bây giờ chúng ta hãy xem một câu đố đơn giản hơn (không phải từ bài kiểm tra IQ):

Câu hỏi: Ông bà Smith và hai đứa con của họ tạo thành một gia đình Mỹ điển hình. Theo một trong những người hàng xóm hay nói của họ: George và Dorothy là họ hàng huyết thống. Howard lớn tuổi hơn George. Virginia nhỏ tuổi hơn Howard. Virginia lớn tuổi hơn Dorothy. Nếu hai và chỉ hai trong số những câu sau là đúng, tên của mỗi thành viên trong gia đình là gì?

Chuỗi suy nghĩ: Để giải câu đố này, chúng ta cần xác định tên của mỗi thành viên trong gia đình dựa trên các câu đã cho và điều kiện là có đúng hai câu là đúng. Chúng ta hãy phân tích thông tin từng bước.

Bây giờ, mô hình liệt kê các thành viên trong gia đình, vai trò và tên có thể có của họ; phân tích các câu, tìm ra câu nào đúng và câu nào sai. Sau đó, dựa trên tất cả những điều đó, mô hình đưa ra câu trả lời cuối cùng.

Trả lời: Ông Smith là George, Bà Smith là Virginia, Con trai là Howard, Con gái là Dorothy.

Phần kết luận

Mô hình o1-preview có khả năng suy luận logic, điều này là cần thiết để giải quyết các vấn đề khoa học và toán học phức tạp. Mô hình o1-mini rất tuyệt vời trong việc viết mã. Tuy nhiên, cả hai mô hình OpenAI o1 đều là các công cụ chuyên biệt hẹp, chúng không linh hoạt trong các ứng dụng của chúng như GPT-4o và chúng không phù hợp với nhiều tác vụ thông thường hoặc sáng tạo: làm việc với văn bản, dịch thuật văn học, biên tập. Tuy nhiên, trong phạm vi của chúng (toán học, khoa học tự nhiên và khoa học chính xác), các mô hình OpenAI o1 là vô song.