ChatGPT ทำงานอย่างไรจริง ๆ ?

ChatGPT เป็นแชทบอตที่ใช้โมเดลภาษาขนาดใหญ่ (GPT-3.5 หรือ GPT-4) ภายใต้ประทุน ChatGPT เป็นโครงข่ายประสาทเทียมที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลข้อความที่เปิดเผยต่อสาธารณะจำนวนมหาศาลจากอินเทอร์เน็ต

ข้อมูลจำนวนมหาศาลนี้ทำให้โมเดลสามารถเรียนรู้รูปแบบ ไวยากรณ์ บริบท และแม้แต่ความรู้สามัญสำนึกบางประการ ทำให้สามารถสร้างการตอบสนองต่อคำค้นหาของผู้ใช้ที่มีความหมายและสอดคล้องกัน ChatGPT มีความสามารถพิเศษในการมีส่วนร่วมในการสนทนาเชิงโต้ตอบและไดนามิกกับผู้ใช้ ทำให้เป็นเครื่องมือที่น่าหวังสำหรับแอปพลิเคชันที่หลากหลาย

โมเดลภาษาขนาดใหญ่คืออะไร

โมเดลภาษาขนาดใหญ่คืออัลกอริธึม AI ที่ใช้เทคนิคการเรียนรู้เชิงลึกที่เรียกว่าการประมวลผลภาษาธรรมชาติเพื่ออ่าน ทำความเข้าใจ สร้าง และคาดเดาข้อความ

เมื่อคุณพิมพ์ข้อความแจ้ง โมเดลจะไม่ค้นหาคำตอบบนอินเทอร์เน็ต แต่จะให้คำตอบแก่คุณแบบเหนือศีรษะ (แม้ว่าจะไม่มีส่วนหัวก็ตาม) โดยจะสร้างคำตอบทีละคำ โดยกำหนดทุกคำถัดไปโดยพิจารณาจากความน่าจะเป็นที่ได้รับจากข้อมูลข้อความที่ฝึกและข้อความที่สร้างขึ้นจนถึงตอนนี้

พารามิเตอร์ 11 พันล้านตัว: การตอบคำถาม เลขคณิต ความเข้าใจภาษา

เป็นไปได้อย่างไร? ChatGPT ไม่จำเป็นต้องค้นหาข้อมูลทางอินเทอร์เน็ตเพราะมันรู้ทุกอย่างแล้ว (เกือบแล้ว) ความรู้ทั้งหมดที่มีบนอินเทอร์เน็ตรวมอยู่ใน ChatGPT ผ่านพารามิเตอร์ 175 พันล้านตัว

พารามิเตอร์ 62 พันล้าน: การแปล การใช้เหตุผลสามัญสำนึก การเติมโค้ดให้สมบูรณ์

เมื่อพารามิเตอร์โมเดลมีจำนวนเพิ่มขึ้น ความสามารถใหม่ๆ ก็เกิดขึ้นในโมเดลที่ไม่ได้ออกแบบโดยใครก็ตาม

พารามิเตอร์ 540 พันล้าน: สายการอนุมานเชิงตรรกะ การจดจำรูปแบบ ความเข้าใจในการอ่าน

วิธีการฝึกอบรม ChatGPT

ChatGPT ได้รับการฝึกอบรมเกี่ยวกับหนังสือ บทความ บทสนทนานับแสนเล่ม รวมถึง:

WebText2 (ไลบรารีขนาดใหญ่ที่มีข้อมูลข้อความมากกว่า 45 เทราไบต์)
Cornell Movie Dialogs Corpus (ชุดข้อมูลที่มีบทสนทนามากกว่า 200,000 รายการระหว่างตัวละครภาพยนตร์ 10,000 ตัวในสคริปต์ภาพยนตร์)
Ubuntu Dialogue Corpus (คอลเลกชันการสนทนาแบบหลายรอบ 1,000,000 รายการระหว่างผู้ใช้ Ubuntu และทีมสนับสนุนชุมชน)
โค้ดนับพันล้านบรรทัดจาก GitHub

ประการแรก GPT ได้รับอนุญาตให้ประมวลผลข้อมูลทั้งหมดที่เข้าถึงได้โดยไม่ต้องมีคำแนะนำจากมนุษย์ ทำให้สามารถเข้าใจกฎระเบียบและความเชื่อมโยงที่กำหนดขอบเขตของข้อความได้อย่างอิสระ (เรียกว่า "การเรียนรู้แบบไม่มีผู้ดูแล")

จากนั้น เพื่อปรับแต่งโมเดลภาษาอย่างละเอียด จึงมีการใช้เทคนิคที่เรียกว่าการเรียนรู้แบบเสริมกำลังด้วยการตอบสนองของมนุษย์ (RLHF)

ผู้ฝึกสอน AI ของมนุษย์ทำการสนทนาโดยเล่นทั้งสองฝ่าย ทั้งผู้ใช้และผู้ช่วย AI พวกเขาสามารถเข้าถึงข้อเสนอแนะที่เป็นลายลักษณ์อักษรเพื่อช่วยเขียนคำตอบ แบบจำลองนี้ได้รับการฝึกฝนโดยใช้การปรับแต่งแบบละเอียดภายใต้การดูแลเพื่อคาดเดาข้อความถัดไปของผู้ช่วยโดยพิจารณาจากประวัติการสนทนา
เพื่อสร้างแบบจำลองการให้รางวัลสำหรับการเรียนรู้แบบเสริมกำลัง จึงรวบรวมข้อมูลการเปรียบเทียบ ผู้ฝึกสอน AI จัดอันดับการตอบสนองของโมเดลหลายรายการตามคุณภาพ โดยพิจารณาว่าการตอบสนองนั้นสมเหตุสมผลหรือไม่ และมีประโยชน์หรือไม่ การตอบกลับที่เลือกกลายเป็นชุดข้อมูลการสนทนาพร้อมข้อความที่เขียนด้วยแบบจำลองใหม่
โมเดลการให้รางวัลถูกสร้างขึ้นโดยใช้เทคนิคที่เรียกว่าการสร้างแบบจำลองการให้รางวัล โดยที่แบบจำลองได้รับการฝึกอบรมให้คาดการณ์คุณภาพของการตอบสนองโดยอิงจากข้อมูลการเปรียบเทียบที่รวบรวมไว้ในขั้นตอนก่อนหน้า

ในท้ายที่สุด ChatGPT ได้เรียนรู้วิธีตอบสนองในสถานการณ์ใดๆ ให้คำตอบที่แม่นยำและเกี่ยวข้อง และหลีกเลี่ยงหัวข้อที่อาจเป็นอันตราย

สถาปัตยกรรมหม้อแปลงไฟฟ้า

กระบวนการฝึกอบรม ChatGPT เกี่ยวข้องกับการทำนายคำถัดไปในประโยคจากคำก่อนหน้า เพื่อให้บรรลุเป้าหมายนี้ จึงมีการใช้สถาปัตยกรรม Transformer (โดยพื้นฐานแล้ว T ใน ChatGPT ย่อมาจาก Transformer) ซึ่งประกอบด้วยกลไกการเอาใจใส่ตนเองหลายชั้น การเอาใจใส่ตนเองช่วยให้แบบจำลองชั่งน้ำหนักคำต่างๆ ในประโยคตามความสำคัญและความเกี่ยวข้องเพื่อคาดเดาคำถัดไปได้อย่างแม่นยำ

โครงข่ายประสาทเทียมที่เกิดซ้ำ (RNN) รุ่นเก่าอ่านข้อความจากซ้ายไปขวา แม้ว่าวิธีนี้จะใช้ได้ผลดีเมื่อคำที่เกี่ยวข้องอยู่ติดกัน แต่จะกลายเป็นเรื่องท้าทายเมื่อคำเหล่านั้นอยู่คนละปลายประโยค

ดังนั้น เมื่อ RNN ทำงานกับข้อความหน้าเดียว เมื่อถึงกลางย่อหน้าที่สาม มันก็จะ "ลืม" สิ่งที่อยู่ตอนเริ่มต้นไปแล้ว

ในทางตรงกันข้าม หม้อแปลงไฟฟ้าสามารถประมวลผลทุกคำในประโยคไปพร้อมๆ กัน และเปรียบเทียบแต่ละคำกับคำอื่นๆ ทั้งหมดได้ ซึ่งช่วยให้พวกเขาสามารถมุ่งความสนใจไปที่คำที่เกี่ยวข้องมากที่สุด โดยไม่คำนึงถึงตำแหน่งภายในลำดับการป้อนข้อมูล

โทเค็น

สิ่งสำคัญคือต้องทราบว่าหม้อแปลงไฟฟ้าไม่ทำงานกับคำแต่ละคำ (ไม่สามารถอ่านได้เหมือนมนุษย์) ข้อความที่ป้อนจะถูกแบ่งออกเป็นโทเค็นแต่ละรายการแทน ซึ่งรวมถึงคำ เครื่องหมายวรรคตอน และโทเค็นพิเศษ โทเค็นใน ChatGPT คือกลุ่มข้อความที่แสดงเป็นเวกเตอร์ (ตัวเลขพร้อมทิศทางและตำแหน่ง)

ความใกล้ชิดของเวกเตอร์โทเค็นในอวกาศจะกำหนดระดับการเชื่อมโยง: ยิ่งอยู่ใกล้มากเท่าไรก็ยิ่งมีความเกี่ยวข้องกันมากขึ้นเท่านั้น นอกจากนี้ ความสนใจจะถูกเข้ารหัสเป็นเวกเตอร์ ซึ่งช่วยให้โครงข่ายประสาทเทียมที่ใช้หม้อแปลงไฟฟ้าสามารถเก็บข้อมูลสำคัญจากส่วนก่อนหน้าของย่อหน้าได้

เมื่อผู้ใช้โต้ตอบกับ ChatGPT โมเดลจะได้รับประวัติการสนทนาเป็นอินพุต รวมทั้งข้อความแจ้งของผู้ใช้และการตอบกลับที่สร้างโดยโมเดล อินพุตจะถูกโทเค็นแล้วป้อนเข้าสู่โครงข่ายประสาทเทียม แต่ละโทเค็นเชื่อมโยงกับการฝังที่แสดงถึงความหมายในบริบทของการสนทนา

GPT-3 ได้รับการฝึกฝนเกี่ยวกับโทเค็นประมาณ 500 พันล้านโทเค็น ซึ่งช่วยให้โมเดลภาษาสามารถกำหนดความหมายได้ง่ายขึ้น และทำนายข้อความที่ตามมาที่เป็นไปได้โดยการแมปพวกมันในปริภูมิเวกเตอร์ คำหลายคำจับคู่กับโทเค็นเดียว แม้ว่าคำที่ยาวหรือซับซ้อนกว่านั้นมักจะแบ่งออกเป็นหลายโทเค็น โดยเฉลี่ยแล้ว โทเค็นจะมีความยาวประมาณสี่อักขระ

ในระหว่างขั้นตอนการอนุมาน ซึ่งโมเดลสร้างการตอบสนอง จะมีการใช้กระบวนการที่เรียกว่าการถดถอยอัตโนมัติ ซึ่งหมายความว่าโมเดลจะคาดเดาทีละคำในขณะที่ปรับสภาพประวัติการสนทนาและคำที่สร้างไว้ก่อนหน้านี้ เพื่อให้แน่ใจว่าการตอบสนองที่สร้างขึ้นมีความสอดคล้องและเกี่ยวข้อง จึงมีการใช้เทคนิคต่างๆ เช่น การสุ่มตัวอย่างแบบ top-p และมาตราส่วนอุณหภูมิ

กล่าวโดยสรุป พารามิเตอร์ top-p จะทำให้โมเดลมีตัวเลือก (โทเค็น) ให้เลือก ในขณะที่อุณหภูมิจะกำหนดความน่าจะเป็นในการเลือกโทเค็นบางตัว เมื่อตั้งค่าอุณหภูมิเป็น 0 โมเดลจะเลือกเฉพาะโทเค็นที่ "ยอดนิยม" ที่สุด (คำที่มักพบร่วมกันในข้อมูลข้อความที่ ChatGPT ได้รับการฝึก):

นั่นไม่ได้ยอดเยี่ยมเสมอไป อุณหภูมิที่สูงขึ้นทำให้ผลลัพธ์มีความหลากหลายมากขึ้น:

ข้อมูลเพิ่มเติมเกี่ยวกับพารามิเตอร์ ChatGPT: