Gemini: Tổng quan về các tính năng và mô hình sáng tạo của nó
Gemini là một họ chatbot dựa trên trí tuệ nhân tạo do Google phát triển. Hiện tại, Gemini đang đứng thứ ba trong số tất cả các chatbot về thị phần, chỉ sau ChatGPT và Microsoft Copilot. Đồng thời, Gemini tiếp tục phát triển nhanh hơn các đối thủ cạnh tranh và đang dần trở nên phổ biến: đứng thứ 4 về lượng người dùng mới, chỉ có Claude phát triển nhanh hơn trong số các chatbot nổi tiếng. Trong bài viết này, chúng ta sẽ xem xét lịch sử của Gemini, các mô hình hiện tại, các tính năng và hạn chế của chúng.
Lịch sử tóm tắt của Google Gemini
Google là công ty tiên phong trong kiến trúc mô hình ngôn ngữ lớn và dựa trên nghiên cứu mạnh mẽ của mình để phát triển các mô hình trí tuệ nhân tạo của riêng mình.
- 2017: Các nhà nghiên cứu của Google trình bày kiến trúc máy biến áp, nền tảng cho nhiều mô hình ngôn ngữ lớn hiện nay.
- 2020: Công ty giới thiệu Meena, một chatbot dựa trên mạng nơ-ron với 2,6 tỷ tham số, mà Google tuyên bố là vượt trội hơn tất cả các chatbot hiện có khác tại thời điểm đó.
- 2021: Meena đổi tên thành LaMDA (viết tắt của Language Model for Dialogue Applications) khi dữ liệu và sức mạnh tính toán của nó tăng lên.
- 2022: Một mô hình ngôn ngữ mới có tên là PaLM (Pathways Language Model) được phát hành, với các khả năng tiên tiến hơn so với LaMDA.
- 2023: Một chatbot có tên là Google Bard được phát hành trong quý đầu tiên của năm, được hỗ trợ bởi phiên bản nhẹ và được tối ưu hóa của LaMDA. Sau đó, trong quý thứ hai, họ giới thiệu PaLM 2, có tính năng mã hóa được cải thiện, khả năng đa ngôn ngữ và kỹ năng lập luận nâng cao, sau đó Bard đã áp dụng. Cuối cùng, trong quý trước, Google đã công bố Gemini 1.0.
- 2024: Google đổi tên Bard thành Gemini và nâng cấp các mô hình AI đa phương thức của mình lên phiên bản 1.5. Các mô hình Gemini 2.0 được giới thiệu vào tháng 12.
Vào tháng 4 năm 2024, Giám đốc điều hành Google DeepMind Demis Hassabis cho biết theo thời gian, công ty sẽ chi hơn 100 tỷ đô la để phát triển công nghệ trí tuệ nhân tạo.

Demis Hassabis
Những đặc điểm nổi bật của Gemini
Mỗi chatbot đều có kiến thức hạn chế về các sự kiện gần đây vì dữ liệu đào tạo của nó chỉ bao gồm một khoảng thời gian hữu hạn. Ngày cắt trong bối cảnh của chatbot đề cập đến thời điểm mà mô hình đã được đào tạo về dữ liệu và có thể cung cấp thông tin. Ví dụ: nếu chatbot có ngày cắt là tháng 10 năm 2023, điều đó có nghĩa là tất cả kiến thức và dữ liệu mà nó có quyền truy cập chỉ là hiện tại cho đến ngày đó. Bất kỳ sự kiện, diễn biến hoặc thay đổi nào xảy ra sau ngày đó sẽ không được phản ánh trong phản hồi của chatbot. Người dùng cần hiểu hạn chế này vì nó ảnh hưởng đến độ chính xác và tính liên quan của thông tin được cung cấp, đặc biệt là trong các lĩnh vực thay đổi nhanh như công nghệ, chính trị hoặc các sự kiện hiện tại. Tuy nhiên, Gemini có thể khắc phục hạn chế này bằng cách truy cập và xử lý thông tin từ các tìm kiếm trực tuyến thông qua Google Tìm kiếm, cung cấp các câu trả lời cập nhật hơn.
Do đó, người dùng có thể cần xác minh thông tin từ các nguồn gần đây hơn nếu họ đang tìm kiếm các bản cập nhật hoặc thông tin chi tiết mới nhất. Đôi khi, Gemini hiển thị cho bạn các nguồn và nội dung liên quan trong và bên dưới phản hồi của nó. Những nguồn này bao gồm các nguồn web có thông tin tương tự và các liên kết để bạn tìm hiểu sâu hơn. Gemini được thiết kế để tạo nội dung gốc, nhưng nếu trích dẫn trực tiếp từ một trang web, bạn sẽ thấy dấu ngoặc kép với nguồn được trích dẫn và liên kết đến trang đó. Nguồn và nội dung liên quan có thể bao gồm các trang web mà Gemini đã trích dẫn hoặc liên quan đến một phần phản hồi của Gemini. Nếu phản hồi của Gemini bao gồm hình thu nhỏ của một hình ảnh từ web, nó sẽ hiển thị nguồn và cung cấp liên kết trực tiếp đến nguồn đó.

Gemini được thiết kế đa phương thức ngay từ đầu, nghĩa là nó được đào tạo trên nhiều loại dữ liệu và giờ đây nó có thể hoạt động liền mạch với nhiều loại nội dung khác nhau. Như bạn có thể thấy trong hình trên, bot có thể bao gồm hình ảnh trong phản hồi của nó. Gemini có thể hiểu văn bản, âm thanh, đoạn video, ghi chú viết tay, đồ thị, sơ đồ, có thể xác định các đối tượng trên ảnh và trên hết là có thể tạo hình ảnh bằng Imagen 3, mô hình chuyển văn bản thành hình ảnh tiên tiến nhất của Google.
Chatbot này cũng có khả năng đa ngôn ngữ vì nó hỗ trợ 46 ngôn ngữ khác nhau.
Các mô hình hiện tại, điểm mạnh và khả năng của chúng
Gemini cung cấp các mô hình khác nhau được tối ưu hóa cho các trường hợp sử dụng cụ thể. Sau đây là tổng quan ngắn gọn về các biến thể có sẵn:
Người mẫu | Đầu vào | Đầu ra | Sự miêu tả |
Gemini 2.0 Flash | Âm thanh, hình ảnh, video và văn bản | Văn bản, hình ảnh (sắp có) và âm thanh (sắp có) | Các tính năng thế hệ tiếp theo, tốc độ và thế hệ đa phương thức cho nhiều loại nhiệm vụ khác nhau |
Gemini 2.0 Flash Thinking | Văn bản, hình ảnh | Chữ | Mô hình lý luận nâng cao vượt trội về khoa học và toán học |
Gemini 1.5 Flash | Âm thanh, hình ảnh, video và văn bản | Chữ | Hiệu suất nhanh và linh hoạt trên nhiều loại tác vụ khác nhau |
Gemini 1.5 Flash-8B | Âm thanh, hình ảnh, video và văn bản | Chữ | Nhiệm vụ khối lượng lớn và trí thông minh thấp |
Gemini 1.5 Pro | Âm thanh, hình ảnh, video và văn bản | Chữ | Nhiệm vụ suy luận phức tạp đòi hỏi nhiều trí thông minh hơn |
Gemini 1.5 Flash có cửa sổ ngữ cảnh chứa 1 triệu token, còn Gemini 1.5 Pro có cửa sổ ngữ cảnh chứa 2 triệu token, là cửa sổ dài nhất trong bất kỳ mô hình ngôn ngữ lớn nào.
Một token tương đương với khoảng 4 ký tự đối với mô hình Gemini. 100 token tương đương với khoảng 60-80 từ tiếng Anh.
Trên thực tế, 1 triệu token sẽ trông như thế này:
- 50.000 dòng mã (với 80 ký tự tiêu chuẩn trên mỗi dòng).
- Bản ghi chép của hơn 200 tập podcast có độ dài trung bình.
- 8 tiểu thuyết tiếng Anh có độ dài trung bình.
- Tất cả tin nhắn văn bản bạn đã gửi trong 5 năm qua.
Gemini 1.5 Flash and Flash-8B | |
| Giới hạn token đầu vào | 1,048,576 |
| Giới hạn token đầu ra | 8,192 |
| Số lượng hình ảnh tối đa | 3,600 |
| Độ dài video tối đa | 1 giờ |
| Độ dài âm thanh tối đa | Khoảng 9,5 giờ |
Gemini 1.5 Pro đạt được khả năng nhớ lại gần như hoàn hảo đối với các tác vụ truy xuất ngữ cảnh dài trên nhiều phương thức, mở ra khả năng xử lý chính xác các tài liệu dài, hàng nghìn dòng mã, nhiều giờ âm thanh, video, v.v.
Gemini 1.5 Pro | |
| Giới hạn token đầu vào | 2,097,152 |
| Giới hạn token đầu ra | 8,192 |
| Số lượng hình ảnh tối đa | 7,200 |
| Độ dài video tối đa | 2 giờ |
| Độ dài âm thanh tối đa | Khoảng 19 giờ |
Mỗi hình ảnh tương đương với 258 token. Các loại hình ảnh được hỗ trợ:
- PNG
- WEBP
- JPEG
- HEIC
- HEIF
Mặc dù không có giới hạn cụ thể nào về số lượng pixel trong một hình ảnh ngoài cửa sổ ngữ cảnh của mô hình, những hình ảnh lớn hơn sẽ được thu nhỏ xuống độ phân giải tối đa là 3072x3072 trong khi vẫn giữ nguyên tỷ lệ khung hình gốc, trong khi những hình ảnh nhỏ hơn sẽ được thu nhỏ lên tới 768x768 pixel.
Khả năng thị giác:
- Ghi chú và trả lời các câu hỏi về hình ảnh.
- Phiên âm và lý luận trên PDF, bao gồm các tài liệu dài lên đến 2 triệu token cửa sổ ngữ cảnh.
- Mô tả, phân đoạn và trích xuất thông tin từ video, bao gồm cả khung hình trực quan và âm thanh, dài tới 90 phút.

Gemini có khả năng nhận dạng chính xác toàn bộ nội dung viết tay và xác minh lý luận.
Khả năng âm thanh của Gemini:
- Mô tả, tóm tắt hoặc trả lời các câu hỏi về nội dung âm thanh.
- Cung cấp bản ghi chép âm thanh.
- Cung cấp câu trả lời hoặc bản ghi chép về một phân đoạn cụ thể của âm thanh.
Định dạng âm thanh được hỗ trợ:
- WAV
- MP3
- FLAC
- OGG Vorbis
- AIFF
- AAC
Mỗi giây âm thanh tương đương với 25 token; ví dụ, một phút âm thanh được biểu thị bằng 1.500 token.
Gemini 2.0 Flash | |
| Giới hạn token đầu vào | 1,048,576 |
| Giới hạn token đầu ra | 8,192 |
Gemini 2.0 Flash là mô hình mạnh mẽ và linh hoạt nhất trong gia đình Gemini. Nó có thể tạo hình ảnh và tạo giọng nói một cách tự nhiên, và khi nói đến hiệu suất, nó vượt trội hơn các mô hình khác ở hầu hết các điểm chuẩn chính. Hãy tự mình xem.
| Khả năng | Điểm chuẩn | Sự miêu tả | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 2.0 Flash |
| Tổng quan | MMLU-Pro | Đánh giá mức độ hiểu ngôn ngữ tự nhiên của các mô hình học máy | 67.3% | 75.8% | 76.4% |
| Mã số | Natural2Code | Tạo mã trên Python, Java, C++, JS, Go | 79.8% | 85.4% | 92.9% |
| Mã số | Bird-SQL (Dev) | Đánh giá việc chuyển đổi các câu hỏi ngôn ngữ tự nhiên thành SQL có thể thực thi | 45.6% | 54.4% | 56.9% |
| Sự thật | FACTS Grounding | Khả năng cung cấp phản hồi chính xác về mặt thực tế dựa trên các tài liệu và yêu cầu đa dạng của người dùng | 82.9% | 80.0% | 83.6% |
| Toán học | MATH | Các bài toán khó (bao gồm đại số, hình học, tiền giải tích và các bài toán khác) | 77.9% | 86.5% | 89.7% |
| Toán học | HiddenMath | Các bài toán cấp độ thi đấu | 47.2% | 52.0% | 63.0% |
| Lý luận | GPQA (diamond) | Bộ dữ liệu câu hỏi đầy thử thách do các chuyên gia trong lĩnh vực sinh học, vật lý và hóa học biên soạn | 51.0% | 59.1% | 62.1% |
| Hình ảnh | MMMU | Các vấn đề lý luận và hiểu biết đa phương thức ở cấp độ đại học đa ngành | 62.3% | 65.9% | 70.7% |
| Âm thanh | CoVoST2 (21 lang) | Dịch giọng nói tự động | 37.4 | 40.1 | 39.2 |
| Băng hình | EgoSchema (test) | Phân tích video | 66.8% | 71.2% | 71.5% |
Gemini 2.0 Flash Thinking kết hợp tốc độ và hiệu suất, thể hiện chuyên môn đáng chú ý trong việc giải quyết các vấn đề phức tạp trong cả toán học và khoa học. Cửa sổ ngữ cảnh một triệu token cho phép phân tích sâu hơn văn bản dài. Tư duy được cải thiện mang lại sự nhất quán hơn giữa các suy nghĩ và câu trả lời.
Gemini 2.0 Flash Thinking | |
| Giới hạn token đầu vào | 1,048,576 |
| Giới hạn token đầu ra | 65,536 |
Xin lưu ý cửa sổ mã thông báo đầu ra khổng lồ. Nó cho phép mô hình không chỉ xử lý các yêu cầu dài mà còn trả về các phản hồi mở rộng, có thể hữu ích để tạo các đoạn mã lớn, chẳng hạn.
Xem cách Gemini 2.0 Flash Thinking vượt trội hơn Gemini 1.5 Pro và Gemini 2.0 về Toán, Khoa học và Lý luận đa phương thức. Nó có thể không linh hoạt bằng hai mô hình đó nói chung, nhưng trong các lĩnh vực cụ thể này, Gemini 2.0 Flash Thinking là vô song.

Toán, khoa học và lý luận

Toán học và khoa học
Phê bình
Chatbot Gemini đã có khởi đầu khó khăn khi được phát hành vào năm 2023. Các nhà phát triển đã quá vội vàng để phát hành đối thủ của ChatGPT. Và đó là lý do tại sao phiên bản phát hành của chatbot lại đầy lỗi. Người dùng phàn nàn về một số lượng lớn lỗi thực tế và không chính xác trong câu trả lời của bot.
Một trong những vấn đề gây chú ý nhất là tranh cãi về việc tạo hình ảnh. Gemini đã cố gắng thể hiện sự đa dạng chủng tộc tối đa ngay cả khi điều đó không phù hợp. Theo chatbot, đây là hình ảnh những người lính Đức trông như thế nào vào năm 1943:

Và đây là hình ảnh các thượng nghị sĩ Hoa Kỳ vào những năm 1800:

Do người dùng bất mãn, cổ phiếu của công ty đã giảm 4,5%, tương ứng với khoản lỗ 90 triệu đô la. Các nhà phát triển cũng phải tạm thời chặn khả năng tạo hình ảnh của mọi người.
Sau tranh cãi xung quanh việc tạo hình ảnh, một số người dùng bắt đầu cáo buộc phản hồi văn bản của Gemini thiên về cánh tả. Trong một ví dụ như vậy, Gemini tuyên bố rằng "khó có thể nói chắc chắn" liệu Elon Musk hay tên độc tài Đức Quốc xã Adolf Hitler có tác động tiêu cực lớn hơn đến xã hội. Ngoài ra, những người dùng khác lưu ý rằng Gemini dường như ủng hộ các chính trị gia thiên tả và các vấn đề như hành động khẳng định và quyền phá thai, trong khi lại miễn cưỡng ủng hộ những nhân vật cánh hữu, tiêu thụ thịt và nhiên liệu hóa thạch.
Nhưng phải nói rằng tất cả những khó khăn này hầu như đã qua rồi. Bây giờ Gemini không còn vấn đề gì nữa và là một trong những chatbot thành công và phổ biến nhất trên thế giới.