Các mô hình ngôn ngữ lớn (LLMs) là công cụ mạnh mẽ, có khả năng thực hiện nhiều nhiệm vụ khác nhau: từ hỗ trợ sinh viên soạn thảo email đến giúp bác sĩ lâm sàng chẩn đoán ung thư. Tuy nhiên, tính đa năng của các mô hình này cũng khiến cho việc đánh giá chúng khó khăn hơn, vì không thể tạo ra một bộ dữ liệu chuẩn cho tất cả loại câu hỏi mà một mô hình có thể gặp phải.
Để giải quyết vấn đề này, các chuyên gia từ MIT đã nghiên cứu một phương pháp đánh giá mới. Họ cho rằng: việc đánh giá một LLM cần phải dựa trên cách con người hình thành niềm tin về khả năng của mô hình đó.
Nghiên cứu của MIT tập trung vào việc phát triển một khung đánh giá dựa trên sự phù hợp của niềm tin của con người về khả năng của LLM trong thực hiện các nhiệm vụ cụ thể. Họ mô tả cách con người cập nhật niềm tin của mình về khả năng của LLM sau khi tương tác với nó. Các nhà nghiên cứu phát hiện rằng: khi LLM không đáp ứng kỳ vọng của con người, người dùng có thể trở nên quá tự tin hoặc thiếu tự tin về việc sử dụng chúng, dẫn đến hiệu suất kém trong các tình huống quan trọng.
Tổng quát hóa con người
Nghiên cứu do GS. Ashesh Rambachan - giáo sư trợ giảng kinh tế tại Phòng thí nghiệm Hệ thống Thông tin và Quyết định của MIT (LIDS) và các cộng sự thực hiện đã chỉ ra rằng: sự tổng quát hóa của con người - tức là khả năng dự đoán hiệu suất của một LLM dựa trên các phản hồi trước đó - rất quan trọng để đánh giá đúng khả năng của mô hình. Họ đã tạo ra một bộ dữ liệu gồm gần 19.000 ví dụ để đo lường cách con người tổng quát hóa về hiệu suất của các LLM trên 79 nhiệm vụ khác nhau.
Kết quả cho thấy, con người thường tổng quát hóa tốt hơn với các mô hình. Nhưng họ gặp khó khăn khi đánh giá hiệu suất của LLM. Các thí sinh khảo sát có xu hướng dự đoán hiệu suất của LLM kém chính xác hơn so với việc đánh giá hiệu suất của con người. GS. Rambachan cho rằng: “Sự tổng quát hóa của con người có thể bị phá vỡ khi áp dụng cho LLMs, vì các mô hình này không thể hiện các mẫu chuyên môn rõ ràng như con người”.
Đo lường sự không phù hợp
Con người cũng có xu hướng điều chỉnh niềm tin của họ về LLM khi mô hình trả lời sai hơn khi nó trả lời đúng. Nhiều người cũng cho rằng, hiệu suất của LLM trên các câu hỏi đơn giản không ảnh hưởng nhiều đến hiệu suất của nó trên các câu hỏi phức tạp hơn. Trong những tình huống sự phản hồi không chính xác được coi trọng, các mô hình đơn giản có thể vượt qua các mô hình tinh vi như GPT-4.
Một lý do cho sự kém hiệu quả trong việc tổng quát hóa các LLM là do những mô hình này còn mới mẻ, và con người có ít kinh nghiệm tương tác nó hơn so với việc tương tác người - người. GS. Rambachan cho rằng, việc tương tác nhiều hơn với LLM có thể giúp cải thiện khả năng tổng quát hóa của con người về chúng. Nghiên cứu hướng đến có thể cải thiện về niềm tin của con người khi tương tác với LLM và cách tổng quát hóa có thể được tích hợp vào việc phát triển các LLM.
Bài nghiên cứu nhấn mạnh rằng, để huấn luyện và điều chỉnh các LLM hiệu quả, cần phải xem xét cách con người tổng quát hóa về các mô hình này. Bộ dữ liệu các nhà nghiên cứu tạo ra có thể trở thành tiêu chuẩn để so sánh hiệu suất của các LLM liên quan đến hàm tổng quát hóa của con người, từ đó giúp cải thiện mô hình trong các tình huống thực tế.
Alex Imas - giáo sư khoa học hành vi và kinh tế tại Trường Kinh doanh Booth của Đại học Chicago cho rằng, nghiên cứu của MIT có 2 đóng góp quan trọng. Thứ nhất, nó nêu bật vấn đề khi triển khai LLM cho các mục đích chung, nếu người dùng không hiểu rõ khi nào LLM sẽ chính xác hay thất bại, họ có thể gặp khó khăn trong việc tiếp tục sử dụng chúng. Thứ hai, nghiên cứu cung cấp cái nhìn sâu sắc về cách các mô hình xử lý các vấn đề và cho thấy liệu LLM có "hiểu" các vấn đề mà chúng giải quyết hay không.
(Theo: MIT News)