Grok: Chatbot "Tìm kiếm sự thật tối đa" của Elon Musk

Grok là một chatbot trí tuệ nhân tạo sinh ra được phát triển bởi xAI, công ty nghiên cứu do Elon Musk sáng lập. Giống như các chatbot phổ biến khác, Grok có thể tạo văn bản hoặc mã, phân tích dữ liệu và giải quyết các vấn đề phức tạp. Tuy nhiên, điều khiến Grok trở nên khác biệt là khiếu hài hước và tư duy sáng tạo. Trong bài viết này, chúng ta sẽ khám phá lịch sử, khả năng và các tính năng nổi bật của chatbot.

Lịch sử của Grok

Elon Musk đồng sáng lập OpenAI (được biết đến với tên gọi ChatGPT) vào năm 2015, nhưng đã rời công ty 3 năm sau đó vì ông "không đồng ý với một số điều mà nhóm OpenAI muốn làm".

Vào tháng 4 năm 2023, Elon Musk đã nói trong một cuộc phỏng vấn rằng ChatGPT quá chính xác về mặt chính trị, trong khi ông dự định tạo ra "một AI tìm kiếm sự thật tối đa, cố gắng hiểu bản chất của vũ trụ". Tên tạm thời cho dự án này là TruthGPT (bắt nguồn từ từ tiếng Anh 'truth')."

Elon Musk giới thiệu TruthGPT

Cuối cùng, họ đổi tên thành Grok, lấy cảm hứng từ tiểu thuyết khoa học viễn tưởng năm 1961 của Robert A. Heinlein "Stranger in a Strange Land", trong đó thuật ngữ "grok" có nghĩa là hiểu sâu sắc và trực quan về một điều gì đó.

Phiên bản đầu tiên của Grok được phát hành vào tháng 11 năm 2023.
Vào tháng 3 năm 2024, nó được nâng cấp lên Grok-1.5, có khả năng logic biên giới và cửa sổ ngữ cảnh lớn hơn với 128.000 mã thông báo.
Vào tháng 12 năm 2024, Grok-2 được phát hành. Mô hình này có thể xử lý cả văn bản và hình ảnh.
Cuối cùng, Grok 3 được phát hành vào tháng 2 năm 2025. Elon Musk gọi mô hình này là "thông minh đáng sợ".

Phiên bản mới này được đào tạo trên siêu máy tính Colossus với sức mạnh tính toán gấp 10 lần so với các mô hình tiên tiến trước đó.

Hiệu suất của Grok

Elon Musk nói Grok 3 là AI thông minh nhất trên Trái Đất. Liệu nó có thực sự tốt như quảng cáo không? Chúng ta hãy cùng xem:

Grok 3 cho thấy độ chính xác cao hơn 20% so với phiên bản tiền nhiệm, được xác minh thông qua các chuẩn NLP và AI theo tiêu chuẩn công nghiệp.
Tốc độ xử lý nhanh hơn 25% và độ chính xác cao hơn 15% trong khả năng hiểu ngôn ngữ tự nhiên và tạo phản hồi so với ChatGPT o1 pro và DeepSeek R1.
Kết quả ấn tượng trong các chuẩn toán học, khoa học và mã hóa.

Toán, khoa học, mã hóa

Thêm điểm chuẩn:

toán học, khoa học tự nhiên, mã hóa, hiểu biết đa phương thức

Như chúng ta có thể thấy trong các hình ảnh trên, Grok 3 cực kỳ giỏi về:

toán (AIME’25 và AIME’24)
khoa học tự nhiên, chẳng hạn như sinh học, vật lý và hóa học (GPQA)
mã hóa (LCB)
hiểu biết đa phương thức (MMMU)

Chỉ riêng chuẩn MMMU đã bao gồm 11500 câu hỏi bao gồm các môn học trên nhiều lĩnh vực, bao gồm Nghệ thuật & Thiết kế, Kinh doanh, Sức khỏe & Y học, Khoa học, Nhân văn & Khoa học xã hội và Công nghệ & Kỹ thuật.

Ví dụ MMMU

Phiên bản đầu tiên của Grok-3 (tên mã là “Chocolate”) đã giành được vị trí số 1 trong LMSYS Arena (một nền tảng được thiết kế để đánh giá và so sánh các mô hình ngôn ngữ lớn khác nhau trong môi trường cạnh tranh), trở thành mô hình AI đầu tiên vượt qua số điểm 1400 trên tất cả các hạng mục.

Các mô hình hiện tại của Grok

Grok 3 có nhiều hình dạng và kích thước khác nhau. Mô hình chủ lực được gọi đơn giản là Grok 3. Nó sở hữu kiến thức chuyên sâu về tài chính, chăm sóc sức khỏe, luật pháp và khoa học. Một mô hình nhẹ được gọi là Grok 3 mini. Nó nhanh, thông minh và tuyệt vời cho các tác vụ dựa trên logic không yêu cầu kiến thức chuyên sâu về lĩnh vực.

Ngoài ra, còn có các biến thể nhanh (grok-3-fast-beta và grok-3-mini-beta) sử dụng cùng một mô hình cơ bản và cung cấp chất lượng phản hồi giống hệt nhau, nhưng chúng được phục vụ trên cơ sở hạ tầng nhanh hơn, dẫn đến thời gian phản hồi nhanh hơn đáng kể.

Thông số kỹ thuật
Tốc độ xử lý	1,5 petaflop
Các tham số	2,7 nghìn tỷ
Mã thông báo đào tạo	12,8 nghìn tỷ
Độ trễ phản hồi	67 mili giây (trung bình)
Cửa sổ ngữ cảnh	131072 token

Grok có thể phân tích hình ảnh (mô tả hình ảnh, xác định đối tượng, đọc văn bản):

Kích thước hình ảnh tối đa: 10MiB
Số lượng hình ảnh tối đa: Không giới hạn
Các loại tệp hình ảnh được hỗ trợ: jpg, jpeg, png
Chấp nhận bất kỳ thứ tự nhập hình ảnh/văn bản nào

Ngoài ra, Grok có khả năng tạo hình ảnh chất lượng cao bằng mô hình tạo hình ảnh tự hồi quy, có tên mã là Aurora. Mô hình này có hỗ trợ gốc cho đầu vào đa phương thức, cho phép lấy cảm hứng từ hoặc chỉnh sửa trực tiếp hình ảnh do người dùng cung cấp. Xin lưu ý rằng Aurora khả dụng trên nền tảng X, nhưng không nhất thiết có thể khả dụng trên các nền tảng khác.

Các mô hình Grok trên API chính thức không được kết nối với internet, nghĩa là chúng không biết về các sự kiện thế giới sau ngày 17 tháng 11 năm 2024.

Đào tạo của Grok

Quá trình phát triển Grok 3 được thúc đẩy bởi siêu máy tính Colossus của xAI, chạy trên 200.000 GPU Nvidia H100 và H200. Mô hình mới đã nhận được 200 triệu giờ đào tạo GPU - gấp 10 lần so với Grok-2. Nhờ bước nhảy vọt lớn về sức mạnh tính toán này, Grok 3 có thể xử lý các tập dữ liệu khổng lồ với hiệu quả chưa từng có, đồng thời đạt được độ chính xác thậm chí còn cao hơn.

Các nhà phát triển đã điều chỉnh phương pháp đào tạo kết hợp các tập dữ liệu tổng hợp, cơ chế tự hiệu chỉnh và học tăng cường để nâng cao hiệu suất của Grok 3:

Các tập dữ liệu tổng hợp. Đây là dữ liệu được tạo ra một cách nhân tạo để mô phỏng dữ liệu trong thế giới thực mà không sử dụng thông tin nhạy cảm hoặc độc quyền. Chúng được sử dụng để đào tạo các mô hình ngôn ngữ bằng cách mô phỏng nhiều tình huống khác nhau, đảm bảo một tập dữ liệu đa dạng và được kiểm soát giúp tăng hiệu quả học tập và giải quyết các mối lo ngại về quyền riêng tư dữ liệu.
Cơ chế tự hiệu chỉnh. Grok-3 có khả năng tích hợp để kiểm tra thực tế và tinh chỉnh các câu trả lời của riêng mình theo thời gian. Hệ thống so sánh phản hồi của mình với các nguồn đáng tin cậy, phát hiện ra lỗi sai và điều chỉnh cách tiếp cận cho lần sau. Quá trình tự cải thiện liên tục này có nghĩa là bạn càng sử dụng nhiều thì hệ thống càng ít mắc lỗi, dần dần đạt đến độ chính xác như con người trong phản hồi. Hệ thống không hoàn hảo, nhưng được thiết kế để học hỏi từ mọi tương tác.
Học tăng cường. Một loại máy học trong đó mô hình AI học bằng cách nhận phần thưởng hoặc hình phạt cho hành động của mình, giống như cách con người học kỹ năng thông qua kinh nghiệm. Hệ thống được đào tạo để tối đa hóa kết quả tích cực thông qua thử nghiệm và sai sót, cải thiện khả năng ra quyết định của hệ thống.

Các kỹ thuật này giúp giảm phản hồi không chính xác, được gọi là ảo giác, bằng cách sử dụng nhiều bước xác thực và thích ứng hiệu quả hơn thông qua quá trình tự đánh giá và học tập liên tục.

Để phản hồi của Grok tự nhiên và phù hợp hơn, các nhà phát triển đã giới thiệu vòng phản hồi của con người (một phương pháp đào tạo trong đó con người đánh giá độ chính xác, mức độ phù hợp và tính hữu ích của nội dung được tạo ra một cách nhân tạo) và đào tạo theo ngữ cảnh (phương pháp này dạy bot xem xét các tương tác trước đó, ý định của người dùng và thông tin xung quanh để tạo ra câu trả lời chính xác và phù hợp hơn).

Những đặc điểm độc đáo của Grok

Trong khi hầu hết các mô hình AI đều tuân theo tông điệu trang trọng (và thường có cảm giác như người máy), Grok 3 nổi bật với phong cách táo bạo và mỉa mai. Nó không ngại sử dụng sự hài hước, mỉa mai và cách diễn đạt không theo quy ước. Grok ưu tiên các phản hồi thực tế, không thiên vị, thường thách thức các câu chuyện phổ biến. Trong khi các mạng nơ-ron khác tránh thảo luận về các chủ đề phức tạp, Grok lại có cách tiếp cận khác. Nó không ngại thảo luận về triết học, chính trị hoặc các tình huống khó xử về mặt đạo đức. Grok có thể xem xét nhiều quan điểm và thậm chí thừa nhận khi không chắc chắn - một sự trung thực hiếm thấy ở các chatbot. Điều này khiến Grok giống như một đối tác đàm thoại hơn là một máy trả lời chung chung.

Grok 3 hữu ích cho nông dân, doanh nhân, tài xế và người sáng tạo nội dung

Grok được xây dựng với sứ mệnh cung cấp những câu trả lời hữu ích và trung thực nhất. Bot này tỏa sáng khi xử lý những câu hỏi phức tạp hoặc mở. Trong khi nhiều chatbot giỏi về các sự kiện nhanh hoặc phản hồi theo kịch bản, Grok được thiết kế để giải quyết các truy vấn phức tạp, đặc biệt là trong các lĩnh vực như khoa học và tư duy phản biện. Nó có thể chia nhỏ các chủ đề phức tạp—như cơ học lượng tử hoặc các tình huống khó xử về đạo đức—thành các giải thích dễ hiểu mà không làm chúng trở nên đơn giản hơn. Điều này khiến nó trở thành lựa chọn phù hợp cho những người dùng muốn có nhiều câu trả lời hơn là câu trả lời hời hợt, cho dù họ là sinh viên, nhà nghiên cứu hay những người tò mò.

Ngoài ra, người dùng lưu ý rằng bot này kiểm duyệt các phản hồi của mình ít hơn nhiều so với ChatGPT hoặc Claude. Tuy nhiên, Grok có các giao thức an toàn để ngăn chặn các hướng dẫn có hại hoặc bất hợp pháp, chẳng hạn như chế tạo bom. Nếu bạn hỏi, bot sẽ né tránh—có thể giải thích khoa học về thuốc nổ theo cách chung chung, không mang tính hướng dẫn hoặc nói rằng, "Chúng ta đừng cho nổ tung mọi thứ; tại sao chúng ta không khám phá thứ gì đó ít... dễ cháy hơn?" Điều này cân bằng giữa sự cởi mở với trách nhiệm, không giống như một số chatbot có thể chấm dứt hoàn toàn cuộc trò chuyện hoặc đưa ra các phản hồi quá mơ hồ.

Tương lai của Grok

Elon Musk đã đề cập trong một buổi phát trực tiếp rằng Grok 3 sẽ sớm bao gồm chế độ giọng nói, nơi người dùng có thể trò chuyện với chatbot Grok thông qua các lệnh nói và nhận được phản hồi bằng giọng nói do AI tạo ra. Với sự ra mắt của chế độ giọng nói trong Grok 3, người dùng sẽ trải nghiệm cách tương tác và tự nhiên hơn để tương tác với AI, xóa nhòa ranh giới giữa giao tiếp giữa con người và máy móc.

Các tính năng cao cấp, chẳng hạn như DeepSearch, chế độ Think và chế độ Big Brain sẽ có sẵn cho nhiều đối tượng hơn. DeepSearch là công cụ tìm kiếm của Grok. Công cụ này được thiết kế để truy cập tin tức mới nhất theo thời gian thực, tổng hợp thông tin chính, lý giải về các sự kiện và ý kiến trái chiều, đồng thời chắt lọc sự rõ ràng từ sự phức tạp. Chế độ Think cung cấp phương pháp tiếp cận theo chuỗi suy nghĩ cho lời nhắc của người dùng. Đầu ra là chi tiết từng bước về lý luận của mô hình. Công cụ này phù hợp với các câu hỏi phức tạp đòi hỏi logic cẩn thận, chẳng hạn như các bài toán, câu hỏi triết học hoặc giải thích kỹ thuật. Chế độ Big Brain là chế độ mở rộng hơn, sáng tạo hơn hoặc chuyên sâu về tính toán, tận dụng bối cảnh rộng hơn, khả năng nhận dạng mẫu nâng cao hoặc cơ sở kiến thức lớn hơn. Nó lý tưởng để giải quyết các câu hỏi đa diện hoặc mở, tạo ra các ý tưởng sáng tạo hoặc kết nối các điểm trên nhiều lĩnh vực khác nhau. Chế độ này có thể mô phỏng mức độ trừu tượng hoặc trực giác cao hơn.

Về phần cứng, siêu máy tính Colossus của xAI là hệ thống đào tạo AI lớn nhất và mạnh nhất thế giới. Được xây dựng chỉ trong 122 ngày—nhanh hơn bất kỳ ai dự đoán—ban đầu nó chạy trên 100.000 GPU Nvidia H100.

Thời gian thi công – 122 ngày

Trong 92 ngày ấn tượng, xAI đã tăng gấp đôi công suất lên 200.000 GPU bằng cách tích hợp chip Blackwell H200 mới và mạnh mẽ hơn của Nvidia. Sự gia tăng sức mạnh khổng lồ này chỉ là khởi đầu. xAI có kế hoạch mở rộng Colossus lên 1 triệu chip, mở đường cho các mô hình Grok trong tương lai sẽ mạnh mẽ và mang tính đột phá hơn nữa. Các phiên bản Grok trong tương lai có thể xử lý luồng dữ liệu video, âm thanh và thời gian thực.

Khi các công nghệ này phát triển, chúng có tiềm năng chuyển đổi các ngành công nghiệp, nâng cao khả năng học tập và mở rộng kiến thức chung của chúng ta theo những cách mà chúng ta mới chỉ bắt đầu hiểu. Hành trình của Grok từ một chatbot dựa trên văn bản thành một thực thể tương tác đa phương thức, thời gian thực là minh chứng cho tốc độ đổi mới nhanh chóng của AI, hứa hẹn những thời điểm thú vị sắp tới cho người dùng, nhà phát triển và cộng đồng công nghệ nói chung.

Grok 4 dự kiến sẽ phát hành vào cuối năm 2025.