OpenAI o1 คืออะไร และโมเดลนี้ดีกว่า GPT-4o อย่างไร

เมื่อวันที่ 12 กันยายน 2024 OpenAI หรือที่รู้จักกันในชื่อ ChatGPT ได้เปิดตัวโมเดลปัญญาประดิษฐ์ชุดใหม่ที่เรียกว่า OpenAI o1 ในบทความนี้ เราจะวิเคราะห์ว่า OpenAI o1 แตกต่างจาก GPT-4o อย่างไร มีจุดแข็งอย่างไร และนำไปใช้ในด้านใดได้บ้าง

OpenAI o1 คืออะไร?

เป็นตระกูลใหม่ของแชทบ็อต หรือพูดให้ถูกต้องกว่านั้นก็คือโมเดลภาษาที่อิงตามปัญญาประดิษฐ์ ออกแบบมาเพื่อแก้ปัญหาที่ซับซ้อนหรือยากเป็นพิเศษที่ต้องใช้ความแม่นยำและการคิดเชิงตรรกะ

ปัจจุบัน ตระกูล o1 ประกอบด้วย:

o1-preview – โมเดลหลัก (ยังอยู่ในเวอร์ชันแรกๆ ตามที่ระบุไว้โดยคำว่า "preview")
o1-mini – โมเดลที่เบากว่าและเร็วกว่า ซึ่งมีประสิทธิภาพในการเขียนโค้ดเป็นพิเศษ

ชื่อ "o1" เองก็มีสัญลักษณ์บางอย่าง:

แต่สำหรับงานการใช้เหตุผลที่ซับซ้อน นี่ถือเป็นความก้าวหน้าที่สำคัญและแสดงถึงความสามารถด้านปัญญาประดิษฐ์ในระดับใหม่ เมื่อเป็นเช่นนี้ เราจึงรีเซ็ตตัวนับกลับเป็น 1 และตั้งชื่อซีรีส์นี้ว่า OpenAI o1

ความแตกต่างจาก GPT-4o

OpenAI o1 เป็นทางเลือกแทน GPT-4o แต่ไม่ใช่การทดแทนโดยตรง มิฉะนั้น โมเดลจะถูกเรียกง่ายๆ ว่า GPT-5

เนื่องจาก OpenAI o1 อยู่ในช่วงเริ่มต้นของการพัฒนา จึงยังไม่สามารถทำสิ่งต่างๆ หลายอย่างที่ GPT-4o ทำได้ ตัวอย่างเช่น ไม่รองรับการอัปโหลดไฟล์และรูปภาพ

อย่างไรก็ตาม โมเดล o1 โดดเด่นในด้านความแม่นยำของการตอบสนอง ความสอดคล้อง และตรรกะของการใช้เหตุผล ซึ่งทำให้สามารถนำไปใช้ในพื้นที่ต่างๆ เช่น:

ฟิสิกส์ควอนตัม,
พันธุศาสตร์,
การแพทย์,
การพัฒนาซอฟต์แวร์

OpenAI o1 ไม่เพียงแต่สร้างคำตอบให้กับคำถามเท่านั้น แต่ยังสร้างสายเหตุผลอีกด้วย ด้วยเหตุนี้ โมเดลจึงอาจใช้เวลาในการตอบสนองนานกว่าแชทบ็อตอื่นๆ โดยทั่วไปคือ 5-10 วินาที และในบางกรณีอาจใช้เวลานานถึง 20-30 วินาที ซึ่งไม่นานเกินไปที่จะทำให้เกิดความไม่สะดวกอย่างแท้จริง การพิจารณาคำตอบอย่างรอบคอบทำให้โมเดล OpenAI o1 มีแนวโน้มที่จะเกิดภาพหลอนน้อยกว่าคู่แข่ง ภาพหลอนเกิดขึ้นเมื่อแชทบ็อตแต่งข้อเท็จจริงขึ้นมาโดยไม่ได้คิดไตร่ตรองให้ดีก่อนจะให้ข้อมูลเท็จ

จุดแข็งและการประเมินของ OpenAI o1

ข้างต้น เราได้กล่าวถึงจุดแข็งของ OpenAI o1 ไปแล้ว เช่น ความแม่นยำของการตอบสนองและความไวต่อภาพหลอนที่อ่อนแอ ตอนนี้มาดูกันว่าสิ่งเหล่านี้ทั้งหมดสามารถแปลงเป็นตัวเลขได้อย่างไร: โมเดล o1 ทำคะแนนได้เท่าไรในการทดสอบต่างๆ

OpenAI o1 อยู่ในอันดับเปอร์เซ็นไทล์ที่ 89 ในคำถามการเขียนโปรแกรมเชิงแข่งขัน (Codeforces) อยู่ในอันดับ 500 นักเรียนที่ดีที่สุดในสหรัฐอเมริกาในการแข่งขันคณิตศาสตร์โอลิมปิกของสหรัฐอเมริกา (AIME) และมีความแม่นยำสูงกว่าระดับปริญญาเอกของมนุษย์ในเกณฑ์มาตรฐานของปัญหาทางฟิสิกส์ ชีววิทยา และเคมี (GPQA)

จากซ้ายไปขวา: คณิตศาสตร์การแข่งขัน, รหัสการแข่งขัน, คำถามวิทยาศาสตร์ระดับปริญญาเอก

ในการสอบ AIME ปี 2024 GPT-4o แก้โจทย์ได้ถูกต้องเพียง 13% ในขณะที่ o1 ทำคะแนนได้ 83%

ในการทดสอบ GPQA Diamond ซึ่งรวมถึงคำถามวิทยาศาสตร์ระดับปริญญาเอกในสาขาฟิสิกส์ ชีววิทยา และเคมี โมเดล o1 ทำได้ดีกว่าผู้เชี่ยวชาญที่เป็นมนุษย์ด้วยซ้ำ ก่อนหน้านี้ ปัญญาประดิษฐ์ยังไม่สามารถทำผลงานได้ดีกว่ามนุษย์ในการทดสอบนี้

สีฟ้าอมเขียว: GPT-4o, สีแดง: o1

รูปภาพด้านบนแสดงให้เห็นความเป็นเลิศของ o1 ในสาขาวิชาต่างๆ ตั้งแต่คณิตศาสตร์ไปจนถึงวรรณคดีอังกฤษ การทดสอบ MMLU ประกอบด้วย 57 หมวดหมู่ โมเดล o1 ชนะ 54 หมวดหมู่ มีเพียง 7 หมวดหมู่เท่านั้นที่เข้าข่าย:

ข้อเท็จจริงทั่วโลก
เคมีในวิทยาลัย
คณิตศาสตร์ในวิทยาลัย
กฎหมายวิชาชีพ
ประชาสัมพันธ์
เศรษฐมิติ
ตรรกะเชิงรูปแบบ

ที่น่าสนใจคือ o1-mini ทำงานได้ดีกว่าในการเขียนโค้ดเมื่อเทียบกับ o1-preview ดังจะเห็นได้จากเกณฑ์มาตรฐานของ Codeforces และ HumanEval:

o1-mini เทียบกับ o1-preview และ GPT-4o ในการทดสอบประสิทธิภาพการเขียนโค้ด

เกณฑ์มาตรฐานความสามารถการเขียนโค้ด

นอกเหนือจากการสอบและเกณฑ์มาตรฐานทางวิชาการแล้ว OpenAI ยังประเมินความชอบของมนุษย์ระหว่าง o1-preview และ GPT-4o ใน:

การเขียนส่วนบุคคล
การแก้ไขข้อความ
การเขียนโปรแกรมคอมพิวเตอร์
การวิเคราะห์ข้อมูล
การคำนวณทางคณิตศาสตร์

ในการประเมินนี้ ผู้ฝึกสอนที่เป็นมนุษย์จะได้รับชมคำตอบที่ไม่ระบุชื่อจาก o1-preview และ GPT-4o และลงคะแนนว่าต้องการคำตอบใด

ความชอบของมนุษย์: o1-preview เทียบกับ GPT-4o

อัตราการชนะของ o1-preview เทียบกับ GPT-4o (%)

o1-preview ได้รับความนิยมมากกว่า GPT-4o ในหมวดหมู่ที่เน้นการใช้เหตุผล เช่น การวิเคราะห์ข้อมูล การเขียนโค้ด และคณิตศาสตร์ อย่างไรก็ตาม o1-preview ไม่ได้รับการนิยมใช้ในงานภาษาธรรมชาติบางประเภท เช่น การเขียนและแก้ไขข้อความ ซึ่งแสดงให้เห็นว่าโมเดล o1-preview นั้นไม่เหมาะสำหรับกรณีการใช้งานทั้งหมด

OpenAI o1 เทียบกับโมเดลภาษาขนาดใหญ่อื่น ๆ

OpenAI o1-preview มีความฉลาดมาก ฉลาดขนาดไหน? จากการทดสอบ Mensa ของนอร์เวย์ พบว่ามีค่า IQ อยู่ที่ 120 ซึ่งสูงกว่าโมเดลภาษาอื่นที่ทดสอบอย่างเห็นได้ชัด จุดสูงสุดบนกราฟแสดงถึงค่าเฉลี่ย IQ ของมนุษย์ ทุกอย่างทางซ้ายของจุดสูงสุดนั้นต่ำกว่าค่าเฉลี่ย ในขณะที่ทุกอย่างทางขวามือนั้นสูงกว่าค่าเฉลี่ย

OpenAI o1 เอาชนะคู่แข่งได้อย่างขาดลอย ไม่ว่าจะเป็นในเกณฑ์มาตรฐานหลักหรือการทดสอบแบบทำเองก็ตาม

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

คุณไม่จำเป็นต้องเข้าใจการทดสอบเหล่านั้นด้วยซ้ำ คุณเพียงแค่ต้องเห็น OpenAI o1 อยู่ด้านบน

ห่วงโซ่แห่งความคิด

โมเดลของซีรีส์ o1 ได้รับการฝึกฝนให้มีเหตุผลและสร้างห่วงโซ่แห่งความคิด ดังนั้น แชทบอตจึงไม่เพียงแต่ให้คำตอบสำเร็จรูปเท่านั้น แต่ยังแสดงเส้นทางที่ใช้ในการไปถึงจุดนั้นด้วย การเดินตามเส้นทางนี้อาจเป็นเรื่องที่น่าสนใจมาก

มาดูคำถามที่ยากกว่าข้อหนึ่งจากการทดสอบ IQ ที่กล่าวถึงก่อนหน้านี้กัน

บอทเลือกตัวเลือก D เป็นคำตอบ และนี่คือคำอธิบาย:

ตัวเลือก D — เมื่อวิเคราะห์รูปแบบในตาราง เราจะเห็นว่าแต่ละคอลัมน์จะรวมส่วนประกอบบางส่วนเข้าด้วยกันเพื่อรวมส่วนประกอบทั้งหมด (V, V กลับหัว, ด้านของสี่เหลี่ยมผืนผ้า) ในแถวที่สาม ในคอลัมน์ที่สาม ส่วนประกอบ Rleft และ Rright (ด้านของสี่เหลี่ยมผืนผ้า) ยังไม่ปรากฏขึ้น ดังนั้น คำตอบที่ถูกต้องสำหรับเซลล์ว่างคือตัวเลือก D ซึ่งรวม 'v' ปกติและสองด้านของสี่เหลี่ยมผืนผ้า ทำให้ชุดส่วนประกอบสำหรับคอลัมน์นั้นสมบูรณ์

ตอนนี้มาดูปริศนาที่ง่ายกว่านี้ (ไม่ใช่จากการทดสอบ IQ):

คำถาม: นายและนางสมิธและลูกสองคนของพวกเขาเป็นครอบครัวชาวอเมริกันทั่วไป ตามคำบอกเล่าของเพื่อนบ้านที่พูดมากคนหนึ่ง จอร์จและโดโรธีเป็นญาติสายเลือด ฮาวเวิร์ดอายุมากกว่าจอร์จ เวอร์จิเนียอายุน้อยกว่าฮาวเวิร์ด เวอร์จิเนียอายุมากกว่าโดโรธี หากข้อความเหล่านี้เป็นจริงเพียงสองข้อจากสองข้อ ชื่อแรกของสมาชิกในครอบครัวแต่ละคนคืออะไร

ลำดับความคิด: เพื่อไขปริศนานี้ เราต้องกำหนดชื่อแรกของสมาชิกในครอบครัวแต่ละคนโดยอิงจากข้อความที่กำหนดและเงื่อนไขที่ว่าข้อความสองข้อเป็นจริงอย่างแน่นอน มาแบ่งข้อมูลทีละขั้นตอนกัน

ตอนนี้แบบจำลองจะแสดงรายชื่อสมาชิกในครอบครัว บทบาทที่เป็นไปได้และชื่อของพวกเขา วิเคราะห์ข้อความเหล่านั้นโดยค้นหาว่าข้อความใดเป็นจริงและข้อความใดเป็นเท็จ จากนั้นจึงใช้คำตอบสุดท้ายจากข้อมูลทั้งหมดที่มีในแบบจำลอง

คำตอบ: นายสมิธคือจอร์จ นางสมิธคือเวอร์จิเนีย ลูกชายคือฮาวเวิร์ด ลูกสาวคือโดโรธี

บทสรุป

โมเดล o1-preview มีความสามารถในการใช้เหตุผลเชิงตรรกะ ซึ่งจำเป็นสำหรับการแก้ปัญหาทางวิทยาศาสตร์และคณิตศาสตร์ที่ซับซ้อน โมเดล o1-mini นั้นยอดเยี่ยมในการเขียนโค้ด อย่างไรก็ตาม โมเดล o1 ของ OpenAI ทั้งสองรุ่นนั้นเป็นเครื่องมือเฉพาะทางที่ค่อนข้างแคบ ไม่คล่องตัวในการใช้งานเท่ากับ GPT-4o และไม่เหมาะสำหรับงานประจำหรืองานสร้างสรรค์หลายๆ อย่าง เช่น การทำงานกับข้อความ การแปลวรรณกรรม การแก้ไข อย่างไรก็ตาม ในสาขาของโมเดล o1 ของ OpenAI นั้นไม่มีใครเทียบได้ (คณิตศาสตร์ วิทยาศาสตร์ธรรมชาติและวิทยาศาสตร์ที่แน่นอน)