Gemini: ภาพรวมของคุณสมบัติและโมเดลนวัตกรรมใหม่

Gemini คือกลุ่มแชทบ็อตที่ใช้ปัญญาประดิษฐ์ซึ่งพัฒนาโดย Google ขณะนี้ Gemini อยู่ในอันดับที่สามในบรรดาแชทบ็อตทั้งหมดในแง่ของส่วนแบ่งการตลาด ตามหลังเพียง ChatGPT และ Microsoft Copilot เท่านั้น ในขณะเดียวกัน Gemini ยังคงเติบโตเร็วกว่าคู่แข่งและได้รับความนิยมเพิ่มขึ้นอย่างต่อเนื่อง โดยอยู่ในอันดับที่ 4 ในแง่ของการไหลเข้าของผู้ใช้ใหม่ โดยมีเพียง Claude เท่านั้นที่เติบโตเร็วกว่าในบรรดาแชทบ็อตที่เป็นที่รู้จัก ในบทความนี้ เราจะมาดูประวัติของ Gemini รุ่นปัจจุบัน คุณสมบัติ และข้อจำกัดของรุ่นเหล่านั้น

ประวัติโดยย่อของ Google Gemini

Google เป็นผู้บุกเบิกสถาปัตยกรรมโมเดลภาษาขนาดใหญ่และอาศัยการวิจัยอันแข็งแกร่งเพื่อพัฒนาโมเดลปัญญาประดิษฐ์ของตนเอง

2017: นักวิจัยของ Google นำเสนอสถาปัตยกรรมทรานส์ฟอร์มเมอร์ ซึ่งเป็นพื้นฐานของโมเดลภาษาขนาดใหญ่จำนวนมากในปัจจุบัน
2020: บริษัทเปิดตัว Meena ซึ่งเป็นแชทบอทที่ใช้เครือข่ายประสาทเทียมซึ่งมีพารามิเตอร์ 2.6 พันล้านตัว ซึ่ง Google อ้างว่าเหนือกว่าแชทบอทอื่นๆ ที่มีอยู่ทั้งหมดในขณะนั้น
2021: Meena เปลี่ยนชื่อเป็น LaMDA (ย่อมาจาก Language Model for Dialogue Applications) เนื่องจากพลังของข้อมูลและการประมวลผลเพิ่มขึ้น
2022: เปิดตัวโมเดลภาษาใหม่ที่เรียกว่า PaLM (Pathways Language Model) ซึ่งมีความสามารถขั้นสูงกว่าเมื่อเปรียบเทียบกับ LaMDA
2023: เปิดตัวแชทบอทชื่อ Google Bard ในช่วงไตรมาสแรกของปี โดยได้รับการสนับสนุนจาก LaMDA เวอร์ชันน้ำหนักเบาและปรับให้เหมาะสม จากนั้นในไตรมาสที่สอง พวกเขาได้เปิดตัว PaLM 2 ซึ่งมีคุณลักษณะการเขียนโค้ดที่ดีขึ้น ความสามารถหลายภาษา และทักษะการใช้เหตุผลที่ดีขึ้น ซึ่ง Bard ก็ได้นำมาใช้ในที่สุด ในไตรมาสสุดท้าย Google ได้ประกาศเปิดตัว Gemini 1.0
2024: Google เปลี่ยนชื่อ Bard เป็น Gemini และอัปเกรดโมเดล AI หลายโหมดเป็นเวอร์ชัน 1.5 โมเดล Gemini 2.0 เปิดตัวในเดือนธันวาคม

ในเดือนเมษายน 2024 Demis Hassabis ซีอีโอของ Google DeepMind กล่าวว่าในอนาคต บริษัทจะใช้จ่ายเงินมากกว่า 100 พันล้านดอลลาร์ในการพัฒนาเทคโนโลยีปัญญาประดิษฐ์

Demis Hassabis

คุณสมบัติที่โดดเด่นของ Gemini

แชทบ็อตทุกตัวมีความรู้เกี่ยวกับเหตุการณ์ล่าสุดอย่างจำกัด เนื่องจากข้อมูลการฝึกครอบคลุมระยะเวลาจำกัด วันตัดรอบในบริบทของแชทบ็อตหมายถึงจุดในเวลาที่โมเดลได้รับการฝึกด้วยข้อมูลและสามารถให้ข้อมูลได้ ตัวอย่างเช่น หากแชทบ็อตมีวันตัดรอบคือเดือนตุลาคม 2023 แสดงว่าความรู้และข้อมูลทั้งหมดที่เข้าถึงได้นั้นเป็นข้อมูลปัจจุบันจนถึงวันที่ดังกล่าวเท่านั้น เหตุการณ์ พัฒนาการ หรือการเปลี่ยนแปลงใดๆ ที่เกิดขึ้นหลังจากวันที่ดังกล่าวจะไม่สะท้อนให้เห็นในคำตอบของแชทบ็อต ข้อจำกัดนี้มีความสำคัญที่ผู้ใช้ต้องเข้าใจ เนื่องจากจะส่งผลต่อความถูกต้องและความเกี่ยวข้องของข้อมูลที่ให้ไว้ โดยเฉพาะอย่างยิ่งในสาขาที่มีการเปลี่ยนแปลงอย่างรวดเร็ว เช่น เทคโนโลยี การเมือง หรือเหตุการณ์ปัจจุบัน อย่างไรก็ตาม Gemini สามารถหลีกเลี่ยงข้อจำกัดนี้ได้โดยการเข้าถึงและประมวลผลข้อมูลจากการค้นหาออนไลน์ผ่าน Google Search ซึ่งจะทำให้ได้คำตอบที่ทันสมัยยิ่งขึ้น

ดังนั้นผู้ใช้จึงอาจจำเป็นต้องตรวจสอบข้อมูลจากแหล่งที่ใหม่กว่าหากต้องการข้อมูลอัปเดตหรือข้อมูลเชิงลึกล่าสุด บางครั้ง Gemini จะแสดงแหล่งที่มาและเนื้อหาที่เกี่ยวข้องภายในและด้านล่างคำตอบ ซึ่งรวมถึงแหล่งที่มาบนเว็บที่มีข้อมูลและลิงก์ที่คล้ายคลึงกันเพื่อให้คุณเจาะลึกยิ่งขึ้น Gemini ออกแบบมาเพื่อสร้างเนื้อหาต้นฉบับ แต่หากอ้างอิงโดยตรงจากหน้าเว็บ คุณจะเห็นเครื่องหมายคำพูดพร้อมแหล่งที่มาที่อ้างอิงและลิงก์ไปยังหน้านั้น แหล่งที่มาและเนื้อหาที่เกี่ยวข้องอาจรวมถึงเว็บไซต์ที่ Gemini อ้างอิงหรือที่เกี่ยวข้องกับบางส่วนของคำตอบ หากคำตอบของ Gemini มีภาพขนาดย่อจากเว็บ ก็จะแสดงแหล่งที่มาและให้ลิงก์ไปยังแหล่งที่มาโดยตรง

Gemini ได้รับการออกแบบมาให้รองรับการทำงานหลายโหมดตั้งแต่แรก ซึ่งหมายความว่าได้รับการฝึกฝนจากข้อมูลหลายประเภท และตอนนี้สามารถทำงานกับเนื้อหาประเภทต่างๆ ได้อย่างราบรื่น ดังที่คุณเห็นในภาพด้านบน บอตสามารถใส่รูปภาพในคำตอบได้ Gemini สามารถเข้าใจข้อความ เสียง ส่วนวิดีโอ บันทึกย่อที่เขียนด้วยลายมือ กราฟ ไดอะแกรม สามารถระบุวัตถุบนภาพถ่าย และนอกจากนั้น ยังสามารถสร้างภาพโดยใช้ Imagen 3 ซึ่งเป็นโมเดลการแปลงข้อความเป็นรูปภาพที่ล้ำหน้าที่สุดของ Google

นอกจากนี้แชทบอทยังมีความสามารถในการรองรับหลายภาษาเนื่องจากมีให้บริการถึง 46 ภาษา

โมเดลปัจจุบัน จุดแข็งและความสามารถ

Gemini นำเสนอโมเดลต่างๆ ที่ได้รับการปรับให้เหมาะสมสำหรับกรณีการใช้งานเฉพาะ นี่คือภาพรวมสั้นๆ ของตัวแปรที่พร้อมใช้งาน:

แบบอย่าง	ป้อนข้อมูล	เอาท์พุต	คำอธิบาย
Gemini 2.0 Flash	เสียง รูปภาพ วิดีโอ และข้อความ	ข้อความ รูปภาพ (เร็วๆ นี้) และเสียง (เร็วๆ นี้)	คุณสมบัติ ความเร็ว และการสร้างหลายโหมดรุ่นใหม่สำหรับงานที่หลากหลาย
Gemini 2.0 Flash Thinking	ข้อความ,รูปภาพ	ข้อความ	โมเดลการใช้เหตุผลขั้นสูงที่โดดเด่นในด้านวิทยาศาสตร์และคณิตศาสตร์
Gemini 1.5 Flash	เสียง รูปภาพ วิดีโอ และข้อความ	ข้อความ	ประสิทธิภาพที่รวดเร็วและหลากหลายสำหรับงานที่หลากหลาย
Gemini 1.5 Flash-8B	เสียง รูปภาพ วิดีโอ และข้อความ	ข้อความ	งานที่มีปริมาณมากและงานที่มีสติปัญญาต่ำ
Gemini 1.5 Pro	เสียง รูปภาพ วิดีโอ และข้อความ	ข้อความ	งานการใช้เหตุผลที่ซับซ้อนซึ่งต้องใช้สติปัญญาเพิ่มมากขึ้น

Gemini 1.5 Flash มาพร้อมกับหน้าต่างบริบท 1 ล้านโทเค็น และ Gemini 1.5 Pro มาพร้อมกับหน้าต่างบริบท 2 ล้านโทเค็น ซึ่งถือเป็นหน้าต่างบริบทที่ยาวที่สุดเมื่อเทียบกับโมเดลภาษาขนาดใหญ่อื่นๆ

โทเค็นหนึ่งอันเทียบเท่ากับอักขระประมาณ 4 ตัวสำหรับรุ่น Gemini ส่วนโทเค็น 100 อันเทียบเท่ากับคำภาษาอังกฤษประมาณ 60-80 คำ

ในทางปฏิบัติ โทเค็น 1 ล้านจะมีลักษณะดังนี้:

รหัส 50,000 บรรทัด (บรรทัดละ 80 อักขระมาตรฐาน)
บทถอดเสียงจากตอนพอดแคสต์ความยาวเฉลี่ยมากกว่า 200 ตอน
นวนิยายภาษาอังกฤษความยาวเฉลี่ย 8 เรื่อง
ข้อความทั้งหมดที่คุณส่งในช่วง 5 ปีที่ผ่านมา

Gemini 1.5 Flash and Flash-8B
ขีดจำกัดโทเค็นอินพุต	1,048,576
ขีดจำกัดโทเค็นเอาท์พุต	8,192
จำนวนภาพสูงสุด	3,600
ความยาวสูงสุดของวิดีโอ	1 ชั่วโมง
ความยาวเสียงสูงสุด	ประมาณ 9.5 ชั่วโมง

Gemini 1.5 Pro สามารถเรียกคืนข้อมูลในบริบทระยะยาวได้เกือบสมบูรณ์แบบในทุกโหมด ช่วยปลดล็อกความสามารถในการประมวลผลเอกสารยาวๆ โค้ดหลายพันบรรทัด ไฟล์เสียง วิดีโอหลายชั่วโมง และอื่นๆ ได้อย่างแม่นยำ

Gemini 1.5 Pro
ขีดจำกัดโทเค็นอินพุต	2,097,152
ขีดจำกัดโทเค็นเอาท์พุต	8,192
จำนวนภาพสูงสุด	7,200
ความยาวสูงสุดของวิดีโอ	2 ชั่วโมง
ความยาวเสียงสูงสุด	ประมาณ 19 ชั่วโมง

แต่ละภาพเทียบเท่ากับ 258 โทเค็น ประเภทภาพที่รองรับ:

PNG
WEBP
JPEG
HEIC
HEIF

แม้ว่าจะไม่มีข้อจำกัดเฉพาะเจาะจงเกี่ยวกับจำนวนพิกเซลในภาพนอกเหนือจากหน้าต่างบริบทของโมเดล แต่ภาพขนาดใหญ่จะถูกปรับขนาดลงให้มีความละเอียดสูงสุดที่ 3072x3072 ในขณะที่ยังคงอัตราส่วนภาพเดิมเอาไว้ ขณะที่ภาพขนาดเล็กจะถูกปรับขนาดขึ้นเป็น 768x768 พิกเซล

ความสามารถในการมองเห็น:

ใส่คำอธิบายภาพและตอบคำถามเกี่ยวกับภาพ
ถอดเสียงและอธิบายเหตุผลในไฟล์ PDF รวมถึงเอกสารยาวที่มีหน้าต่างบริบทโทเค็นถึง 2 ล้านหน้าต่าง
อธิบาย แบ่งส่วน และดึงข้อมูลจากวิดีโอ รวมทั้งเฟรมภาพและเสียง ความยาวสูงสุด 90 นาที

ราศีเมถุนจะสามารถจดจำเนื้อหาที่เขียนด้วยลายมือได้อย่างถูกต้องและตรวจสอบเหตุผลได้

ความสามารถด้านเสียงของ Gemini:

อธิบาย สรุป หรือตอบคำถามเกี่ยวกับเนื้อหาเสียง
ให้การถอดเสียงของเสียง
ให้คำตอบหรือการถอดเสียงเกี่ยวกับส่วนเฉพาะของเสียง

รูปแบบเสียงที่รองรับ:

WAV
MP3
FLAC
OGG Vorbis
AIFF
AAC

เสียงแต่ละวินาทีเทียบเท่ากับโทเค็น 25 โทเค็น เช่น เสียงหนึ่งนาทีเทียบเท่ากับโทเค็น 1,500 โทเค็น

Gemini 2.0 Flash
ขีดจำกัดโทเค็นอินพุต	1,048,576
ขีดจำกัดโทเค็นเอาท์พุต	8,192

Gemini 2.0 Flash คือรุ่นที่ทรงพลังและอเนกประสงค์ที่สุดของตระกูล Gemini สามารถสร้างภาพและพูดได้เอง และเมื่อพิจารณาถึงประสิทธิภาพแล้ว ถือว่าเหนือกว่ารุ่นอื่นๆ ในเกณฑ์มาตรฐานสำคัญเกือบทั้งหมด ลองดูด้วยตัวคุณเอง

ความสามารถ	เกณฑ์มาตรฐาน	คำอธิบาย	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 2.0 Flash
ทั่วไป	MMLU-Pro	ประเมินว่าโมเดลการเรียนรู้ของเครื่องจักรเข้าใจภาษาธรรมชาติได้ดีเพียงใด	67.3%	75.8%	76.4%
รหัส	Natural2Code	การสร้างโค้ดใน Python, Java, C++, JS, Go	79.8%	85.4%	92.9%
รหัส	Bird-SQL (Dev)	ประเมินการแปลงคำถามภาษาธรรมชาติเป็น SQL ที่สามารถทำงานได้	45.6%	54.4%	56.9%
ความเป็นจริง	FACTS Grounding	ความสามารถในการให้คำตอบที่ถูกต้องตามข้อเท็จจริงตามเอกสารและคำขอของผู้ใช้ที่หลากหลาย	82.9%	80.0%	83.6%
คณิตศาสตร์	MATH	ปัญหาคณิตศาสตร์ที่ท้าทาย (รวมถึงพีชคณิต เรขาคณิต แคลคูลัสเบื้องต้น และอื่นๆ)	77.9%	86.5%	89.7%
คณิตศาสตร์	HiddenMath	โจทย์คณิตศาสตร์ระดับการแข่งขัน	47.2%	52.0%	63.0%
การใช้เหตุผล	GPQA (diamond)	ชุดข้อมูลที่ท้าทายของคำถามที่เขียนโดยผู้เชี่ยวชาญในสาขาชีววิทยา ฟิสิกส์ และเคมี	51.0%	59.1%	62.1%
ภาพ	MMMU	ปัญหาความเข้าใจและการใช้เหตุผลแบบหลายรูปแบบในระดับวิทยาลัยหลายสาขาวิชา	62.3%	65.9%	70.7%
เสียง	CoVoST2 (21 lang)	การแปลคำพูดอัตโนมัติ	37.4	40.1	39.2
วีดีโอ	EgoSchema (test)	การวิเคราะห์วิดีโอ	66.8%	71.2%	71.5%

Gemini 2.0 Flash Thinking ผสานรวมความเร็วและประสิทธิภาพเข้าด้วยกัน แสดงให้เห็นถึงความเชี่ยวชาญที่โดดเด่นในการแก้ปัญหาที่ซับซ้อนทั้งทางคณิตศาสตร์และวิทยาศาสตร์ หน้าต่างบริบทขนาดหนึ่งล้านโทเค็นช่วยให้วิเคราะห์ข้อความยาวได้ลึกขึ้น การคิดที่ดีขึ้นช่วยให้มีความสอดคล้องกันมากขึ้นระหว่างความคิดและคำตอบ

Gemini 2.0 Flash Thinking
ขีดจำกัดโทเค็นอินพุต	1,048,576
ขีดจำกัดโทเค็นเอาท์พุต	65,536

โปรดทราบว่าหน้าต่างโทเค็นเอาต์พุตมีขนาดใหญ่มาก ซึ่งช่วยให้โมเดลไม่เพียงแต่ประมวลผลคำขอยาวๆ เท่านั้น แต่ยังให้คำตอบที่ครอบคลุม ซึ่งอาจมีประโยชน์สำหรับการสร้างชิ้นส่วนโค้ดขนาดใหญ่ เช่น

ดูว่า Gemini 2.0 Flash Thinking เหนือกว่า Gemini 1.5 Pro และ Gemini 2.0 ในด้านคณิตศาสตร์ วิทยาศาสตร์ และการใช้เหตุผลแบบหลายโหมดได้อย่างไร แม้ว่าโดยทั่วไปแล้ว Gemini 2.0 Flash Thinking จะไม่มีความคล่องตัวเท่ากับสองโมเดลนี้ แต่ในโดเมนเฉพาะเหล่านี้ Gemini 2.0 Flash Thinking ก็ไม่มีใครเทียบได้

คณิตศาสตร์ วิทยาศาสตร์ และการใช้เหตุผล

คณิตศาสตร์และวิทยาศาสตร์

การวิจารณ์

Gemini chatbot มีจุดเริ่มต้นที่ค่อนข้างลำบากเมื่อเปิดตัวในปี 2023 นักพัฒนารีบร้อนเกินไปที่จะเปิดตัวคู่แข่งของ ChatGPT และนั่นคือสาเหตุที่เวอร์ชันเปิดตัวของ chatbot เต็มไปด้วยจุดบกพร่อง ผู้ใช้บ่นเกี่ยวกับข้อผิดพลาดเชิงข้อเท็จจริงและความไม่ถูกต้องจำนวนมากในคำตอบของ bot

หนึ่งในประเด็นที่ได้รับความสนใจมากที่สุดคือข้อโต้แย้งเกี่ยวกับการสร้างภาพ Gemini พยายามนำเสนอความหลากหลายทางเชื้อชาติสูงสุดแม้ว่าจะไม่เหมาะสมก็ตาม ตามที่ chatbot กล่าว นี่คือลักษณะของทหารเยอรมันในปี 1943:

ทหารเยอรมันในปีพ.ศ.2486 สร้างขึ้นโดย Gemini

และนี่คือหน้าตาของสมาชิกวุฒิสภาสหรัฐในช่วงปี ค.ศ. 1800:

วุฒิสมาชิกสหรัฐจากปี 1800 ที่สร้างโดย Gemini

เนื่องจากผู้ใช้ไม่พอใจ หุ้นของบริษัทจึงลดลง 4.5% ซึ่งคิดเป็นการสูญเสียประมาณ 90 ล้านเหรียญสหรัฐ นอกจากนี้ นักพัฒนายังต้องปิดกั้นความสามารถในการสร้างรูปภาพของบุคคลเป็นการชั่วคราว

หลังจากเกิดข้อโต้แย้งเกี่ยวกับการสร้างรูปภาพ ผู้ใช้บางคนเริ่มกล่าวหาว่าการตอบกลับข้อความของ Gemini นั้นมีอคติไปทางซ้าย ในตัวอย่างหนึ่ง Gemini กล่าวว่า "ยากที่จะระบุได้อย่างชัดเจน" ว่า Elon Musk หรือ Adolf Hitler จอมเผด็จการนาซีมีผลกระทบเชิงลบต่อสังคมมากกว่ากัน นอกจากนี้ ผู้ใช้รายอื่นๆ ยังสังเกตว่า Gemini ดูเหมือนจะสนับสนุนนักการเมืองฝ่ายซ้ายและประเด็นต่างๆ เช่น การกระทำเชิงบวกและสิทธิในการทำแท้ง ในขณะที่ไม่เต็มใจที่จะสนับสนุนบุคคลฝ่ายขวา การบริโภคเนื้อสัตว์ และเชื้อเพลิงฟอสซิล

แต่ต้องบอกว่าปัญหาทั้งหมดเหล่านี้ส่วนใหญ่ผ่านพ้นไปแล้ว ตอนนี้ Gemini ไม่มีปัญหาใดๆ แล้ว และเป็นหนึ่งในแชทบ็อตที่ประสบความสำเร็จและเป็นที่นิยมมากที่สุดในโลก