ChatGPT thực sự hoạt động như thế nào?
ChatGPT là một chatbot dựa trên mô hình ngôn ngữ lớn (GPT-3.5 hoặc GPT-4). Về cơ bản, ChatGPT là một mạng thần kinh được huấn luyện trước đã được huấn luyện dựa trên một lượng dữ liệu văn bản có sẵn công khai ấn tượng từ internet.
Lượng dữ liệu khổng lồ này cho phép mô hình tìm hiểu các mẫu, ngữ pháp, ngữ cảnh và thậm chí một số kiến thức thông thường, cho phép mô hình tạo ra các phản hồi có ý nghĩa và mạch lạc cho các truy vấn của người dùng. ChatGPT có khả năng độc đáo là tham gia vào các cuộc trò chuyện tương tác và năng động với người dùng, khiến nó trở thành một công cụ đầy hứa hẹn cho nhiều ứng dụng.
Mô hình ngôn ngữ lớn là gì
Mô hình ngôn ngữ lớn là thuật toán AI sử dụng các kỹ thuật học sâu được gọi là xử lý ngôn ngữ tự nhiên để đọc, hiểu, tạo và dự đoán văn bản.
Khi bạn nhập lời nhắc, mô hình sẽ không tìm kiếm câu trả lời trên Internet mà sẽ cung cấp cho bạn câu trả lời ngay trên đầu (mặc dù nó không có bất kỳ phần đầu nào). Nó tạo ra phản hồi từng từ một, xác định mọi từ tiếp theo dựa trên xác suất bắt nguồn từ dữ liệu văn bản mà nó đã được huấn luyện và văn bản mà nó đã tạo cho đến nay.
11 tỷ tham số: trả lời câu hỏi, số học, hiểu ngôn ngữ
Làm sao điều đó có thể được? Chà, ChatGPT không cần tìm kiếm thông tin trên Internet vì nó đã biết mọi thứ (à, gần như vậy). Tất cả kiến thức có sẵn trên Internet đều được tích hợp vào ChatGPT thông qua 175 tỷ tham số của nó.
62 tỷ tham số: dịch thuật, lý luận thông thường, hoàn thành mã
Khi số lượng tham số mô hình tăng lên, các khả năng mới sẽ xuất hiện trong mô hình mà không ai có chủ ý thiết kế.
540 tỷ tham số: chuỗi suy luận logic, nhận dạng mẫu, đọc hiểu
ChatGPT được đào tạo như thế nào
ChatGPT đã được đào tạo trên hàng trăm nghìn cuốn sách, bài báo, hội thoại, bao gồm:
- WebText2 (thư viện lớn chứa hơn 45 terabyte dữ liệu văn bản)
- Cornell Movie Dialogs Corpus (tập dữ liệu chứa hơn 200.000 cuộc hội thoại giữa 10.000 nhân vật trong phim trong kịch bản phim)
- Tập hợp đối thoại Ubuntu (tập hợp 1.000.000 cuộc đối thoại nhiều lượt giữa người dùng Ubuntu và nhóm hỗ trợ cộng đồng)
- hàng tỷ dòng mã từ GitHub
Đầu tiên, GPT được phép xử lý tất cả dữ liệu mà nó có quyền truy cập mà không cần bất kỳ sự hướng dẫn nào của con người, cho phép GPT nắm bắt một cách độc lập các quy định và kết nối quy định lĩnh vực văn bản (đó được gọi là “học tập không giám sát”).
Sau đó, để tinh chỉnh mô hình ngôn ngữ, một kỹ thuật gọi là học tăng cường với phản hồi của con người (RLHF) đã được áp dụng:
- Các nhà huấn luyện AI là con người đã tiến hành các cuộc trò chuyện trong đó họ đóng vai cả hai bên—người dùng và trợ lý AI. Họ có quyền truy cập vào các đề xuất được viết theo mẫu để giúp soạn câu trả lời. Mô hình đã được đào tạo bằng cách tinh chỉnh có giám sát để dự đoán tin nhắn tiếp theo của trợ lý dựa trên lịch sử hội thoại.
- Để tạo mô hình khen thưởng cho việc học tăng cường, dữ liệu so sánh đã được thu thập. Các nhà đào tạo AI đã xếp hạng nhiều phản hồi của mô hình theo chất lượng, xem xét những yếu tố như liệu phản hồi đó có hợp lý hay không và liệu nó có hữu ích hay không. Các câu trả lời đã chọn sẽ trở thành tập dữ liệu hội thoại với các thông báo mới được viết theo mô hình.
- Mô hình phần thưởng được tạo bằng kỹ thuật gọi là mô hình phần thưởng, trong đó mô hình được đào tạo để dự đoán chất lượng của phản hồi dựa trên dữ liệu so sánh được thu thập ở bước trước.
Cuối cùng, ChatGPT đã học được cách ứng phó trong mọi tình huống cụ thể, đưa ra câu trả lời chính xác và phù hợp cũng như tránh các chủ đề có thể gây hại.
Kiến trúc máy biến áp
Quá trình đào tạo của ChatGPT liên quan đến việc dự đoán từ tiếp theo trong câu dựa trên các từ trước đó. Để đạt được điều này, kiến trúc Transformer được sử dụng (nhân tiện, T trong ChatGPT là viết tắt của Transformer), kiến trúc này được tạo thành từ các lớp cơ chế tự chú ý. Tính năng tự chú ý cho phép mô hình cân nhắc các từ khác nhau trong câu dựa trên tầm quan trọng và mức độ liên quan của chúng để dự đoán chính xác từ tiếp theo.
Mạng thần kinh tái phát (RNN) cũ hơn đọc văn bản từ trái sang phải. Mặc dù điều này có hiệu quả khi các từ liên quan ở cạnh nhau, nhưng nó sẽ trở nên khó khăn khi chúng ở hai đầu đối diện của câu.
Do đó, khi RNN đang làm việc với văn bản một trang, đến giữa đoạn thứ ba, nó sẽ “quên” những gì ở đầu.
Ngược lại, máy biến áp có khả năng xử lý đồng thời từng từ trong câu và so sánh từng từ này với tất cả các từ khác. Điều này cho phép họ tập trung "sự chú ý" vào những từ phù hợp nhất, bất kể vị trí của chúng trong chuỗi đầu vào.
Mã thông báo
Điều quan trọng cần lưu ý là máy biến áp không hoạt động trên từng từ riêng lẻ (chúng không thể đọc như con người). Thay vào đó, văn bản đầu vào được chia thành các mã thông báo riêng lẻ, bao gồm các từ, dấu chấm câu và các mã thông báo đặc biệt. Mã thông báo trong ChatGPT là các đoạn văn bản được biểu thị dưới dạng vectơ (các số có hướng và vị trí).
Khoảng cách gần của các vectơ mã thông báo trong không gian xác định mức độ liên kết của chúng: chúng càng gần nhau thì chúng càng liên quan nhiều hơn. Hơn nữa, sự chú ý được mã hóa dưới dạng vectơ, cho phép mạng lưới thần kinh dựa trên máy biến áp lưu giữ thông tin quan trọng từ các phần trước của đoạn văn.
Khi người dùng tương tác với ChatGPT, mô hình sẽ nhận lịch sử hội thoại làm thông tin đầu vào, bao gồm cả lời nhắc của người dùng và phản hồi do mô hình tạo. Đầu vào được mã hóa và sau đó được đưa vào mạng lưới thần kinh. Mỗi mã thông báo được liên kết với một phần nhúng thể hiện ý nghĩa của nó trong ngữ cảnh của cuộc trò chuyện.
GPT-3 đã được đào tạo trên khoảng 500 tỷ mã thông báo, cho phép các mô hình ngôn ngữ của nó dễ dàng gán ý nghĩa hơn và dự đoán văn bản tiếp theo hợp lý bằng cách ánh xạ chúng trong không gian vectơ. Nhiều từ ánh xạ tới các mã thông báo đơn lẻ, mặc dù các từ dài hơn hoặc phức tạp hơn thường được chia thành nhiều mã thông báo. Trung bình, mã thông báo dài khoảng bốn ký tự.
Trong giai đoạn suy luận, khi mô hình tạo ra phản hồi, một quy trình được gọi là tự hồi quy sẽ được sử dụng. Điều này có nghĩa là mô hình dự đoán từng từ một trong khi điều chỉnh lịch sử hội thoại và các từ được tạo trước đó. Để đảm bảo phản hồi được tạo ra là mạch lạc và phù hợp, các kỹ thuật như lấy mẫu top-p và chia tỷ lệ nhiệt độ được sử dụng.
Nói tóm lại, tham số top-p cung cấp cho mô hình một nhóm tùy chọn (mã thông báo) để lựa chọn, trong khi nhiệt độ xác định xác suất chọn một mã thông báo nhất định. Khi nhiệt độ được đặt thành 0, mô hình sẽ chỉ chọn các mã thông báo “phổ biến” nhất (các từ thường được tìm thấy cùng nhau trong dữ liệu văn bản ChatGPT đã được đào tạo):
Điều đó không phải lúc nào cũng tuyệt vời. Nhiệt độ cao hơn làm cho kết quả đa dạng hơn:
Thông tin thêm về các thông số ChatGPT: