OpenAI chưa tiết lộ nhiều về cách ChatGPT-4 được đào tạo. Song, thông thường các mô hình ngôn ngữ lớn (LLM) được đào tạo bằng văn bản được lấy từ Internet, trong đó tiếng Anh là ngôn ngữ chung. Khoảng 93% dữ liệu đào tạo của ChatGPT-3 là bằng tiếng Anh.

Trong Common Crawl, chỉ một trong những tập dữ liệu mà mô hình trí tuệ nhân tạo được đào tạo, tiếng Anh chiếm 47% kho dữ liệu, cùng với các ngôn ngữ châu Âu khác chiếm nhiều hơn 38%. Ngược lại, tiếng Trung và tiếng Nhật cộng lại chỉ chiếm 9%. 

screenshot 2024 01 31 at 151709.png
Phần lớn dữ liệu sử dụng để đào tạo LLM là tiếng Anh hay các ngôn ngữ châu Âu khác

Đánh giá của Nathaniel Robinson, nhà nghiên cứu tại Đại học Johns Hopkins và các đồng nghiệp của ông nhận thấy, đó không chỉ là vấn đề giới hạn của riêng ChatGPT. Tất cả các LLM đều hoạt động tốt hơn với các ngôn ngữ “có nguồn lực cao”, nơi có dữ liệu đào tạo dồi dào, so với các ngôn ngữ “có nguồn lực thấp” mà chúng khan hiếm.

Đây là bài toán với những người hi vọng có thể đưa AI sang những nước nghèo nhằm cải thiện các lĩnh vực từ giáo dục cho đến y tế. Do đó, các nhà nghiên cứu trên khắp thế giới đang nỗ lực làm cho ai trở nên đa ngôn ngữ hơn.

Tháng 9 năm ngoái, chính phủ Ấn Độ phát hành chatbot giúp nông dân cập nhật thông tin hữu ích từ nhà nước.

Shankar Maruwada của EkStep Foundation, tổ chức phi lợi nhuận đã giúp xây dựng chatbot, cho biết bot hoạt động bằng cách kết hợp hai loại mô hình ngôn ngữ với nhau và người dùng có thể gửi truy vấn bằng tiếng mẹ đẻ của họ. Các truy vấn tiếng mẹ đẻ này được chuyển cho phần mềm dịch máy tại một cơ sở nghiên cứu của Ấn Độ, dịch sang tiếng Anh trước khi chuyển tiếp cho LLM xử lý phản hồi. Cuối cùng, câu trả lời sẽ được dịch trở lại tiếng mẹ đẻ của người dùng.

Quy trình này có thể hoạt động, nhưng việc dịch các truy vấn sang ngôn ngữ “ưa thích” của LLM là một cách giải quyết vụng về. Ngôn ngữ là phương tiện phản ánh văn hoá và thế giới quan. Một bài báo của Rebecca Johnson, nhà nghiên cứu tại Đại học Sydney, xuất bản năm 2022, phát hiện ra rằng ChatGPT-3 đã đưa ra câu trả lời về các chủ đề như kiểm soát súng và chính sách tị nạn tương đương với các giá trị Mỹ thể hiện trong Khảo sát Giá trị Thế giới.

Do đó, nhiều nhà nghiên cứu đang cố gắng làm cho các LLM thông thạo các ngôn ngữ ít được sử dụng hơn. Về mặt kỹ thuật, một cách tiếp cận là sửa đổi mã thông báo cho ngôn ngữ. Một công ty khởi nghiệp Ấn Độ có tên Sarvam AI đã viết một mã thông báo được tối ưu hóa cho tiếng Hindi, hay mô hình OpenHathi - LLM tối ưu hoá ngôn ngữ Devanagari (Ấn Độ) có thể giúp cắt giảm đáng kể chi phí trả lời các câu hỏi.

Một cách khác là cải thiện các tập dữ liệu mà LLM được đào tạo. Vào tháng 11, một nhóm các nhà nghiên cứu tại Đại học Mohamed bin Zayed, ở Abu Dhabi, phát hành phiên bản mới nhất của mô hình nói tiếng Ả Rập có tên “Jais”. Nó có số lượng tham số bằng 1/6 so với ChatGPT-3, nhưng mang lại hiệu quả tương đương với tiếng Ả Rập.

Timothy Baldwin, hiệu trưởng của Đại học Mohamed bin Zayed, lưu ý rằng, mặc dù nhóm của ông đã số hóa rất nhiều văn bản tiếng Ả Rập, nhưng trong mô hình vẫn bao gồm một số văn bản tiếng Anh. Một số khái niệm đều giống nhau ở tất cả các ngôn ngữ và có thể học được bằng bất kỳ ngôn ngữ nào. 

Cách tiếp cận thứ ba là điều chỉnh các mô hình sau khi chúng được huấn luyện. Cả Jais và OpenHathi đều có một số cặp câu hỏi và câu trả lời do con người tạo ra. Điều tương tự cũng xảy ra với các chatbot phương Tây, để ngăn chặn thông tin sai lệch.

Ernie Bot, LLM của Baidu, một công ty công nghệ lớn của Trung Quốc, đã được điều chỉnh để hạn chế phát ngôn những nội dung có thể động chạm đến chính phủ. Các mô hình cũng có thể học hỏi từ phản hồi của con người, trong đó người dùng đánh giá các câu trả lời của LLM. Nhưng điều đó khó thực hiện được đối với nhiều ngôn ngữ ở các khu vực kém phát triển do yêu cầu tuyển dụng những người có đủ trình độ để phê bình cách phản hồi của máy.

(Theo Economist)