Ảnh bài 31.png
MIT phát triển khung kiểm thử giúp phát hiện AI ra quyết định thiếu công bằng. Ảnh: Midjourney

Trí tuệ nhân tạo ngày càng được ứng dụng để tối ưu hóa các quyết định trong những bối cảnh quan trọng. Chẳng hạn, một hệ thống tự hành có thể đề xuất phương án phân phối điện tối ưu chi phí đồng thời duy trì sự ổn định điện áp.

Tuy nhiên, một phương án “tối ưu về kỹ thuật” liệu có thực sự công bằng? Điều gì sẽ xảy ra nếu chiến lược chi phí thấp lại khiến các khu vực thu nhập thấp dễ bị mất điện hơn so với các khu vực giàu có?

Để giúp các bên liên quan phát hiện sớm các rủi ro đạo đức trước khi triển khai, nhóm nghiên cứu MIT đã xây dựng một phương pháp đánh giá tự động, cân bằng giữa các chỉ số định lượng (như chi phí, độ tin cậy) và các giá trị định tính (như công bằng).

Hệ thống này tách biệt đánh giá khách quan và giá trị con người do người dùng xác định, đồng thời sử dụng mô hình ngôn ngữ lớn (LLM) như một “đại diện” cho con người để ghi nhận và tích hợp các ưu tiên của các bên liên quan.

Khung đánh giá thích ứng sẽ lựa chọn những kịch bản quan trọng nhất để phân tích sâu hơn, giúp đơn giản hóa một quy trình vốn tốn kém và mất nhiều thời gian nếu làm thủ công. Các kịch bản này có thể chỉ ra khi nào hệ thống AI phù hợp với giá trị con người, cũng như khi nào nó không đáp ứng được các tiêu chí đạo đức.

Theo Chuchu Fan (MIT), việc chỉ đặt ra các quy tắc hay “hàng rào an toàn” cho AI là chưa đủ, vì chúng chỉ ngăn được những rủi ro mà con người có thể hình dung trước. Do đó, cần một cách tiếp cận có hệ thống để phát hiện các “rủi ro chưa biết” trước khi chúng gây hậu quả.

Đánh giá đạo đức trong hệ thống phức tạp

Trong các hệ thống lớn như lưới điện, việc đánh giá mức độ phù hợp về đạo đức của các đề xuất từ AI là rất khó, đặc biệt khi phải cân nhắc nhiều mục tiêu cùng lúc.

Các phương pháp hiện nay thường dựa vào dữ liệu có sẵn, nhưng dữ liệu được gán nhãn theo tiêu chí đạo đức lại rất hiếm. Đồng thời, giá trị đạo đức và hệ thống AI đều liên tục thay đổi, khiến các phương pháp đánh giá tĩnh nhanh chóng lỗi thời.

Nhóm nghiên cứu đã phát triển một khung thiết kế thử nghiệm có tên SEED-SET, gồm hai phần:

- Mô hình khách quan: đánh giá hiệu suất theo các chỉ số đo lường được (như chi phí)
- Mô hình chủ quan: phản ánh đánh giá của con người (như cảm nhận về công bằng)
Cách tiếp cận này cho phép xác định những kịch bản vừa đáp ứng tiêu chí kỹ thuật, vừa phù hợp với giá trị con người hoặc ngược lại.

Đặc biệt, SEED-SET không cần dữ liệu đánh giá có sẵn và có thể thích ứng với nhiều mục tiêu khác nhau. Ví dụ, trong một hệ thống điện, các nhóm người dùng khác nhau (như cộng đồng nông thôn và trung tâm dữ liệu) có thể có các ưu tiên đạo đức khác nhau dù cùng mong muốn điện giá rẻ và ổn định.

Mô hình hóa yếu tố chủ quan

Để đánh giá các yếu tố mang tính chủ quan, hệ thống sử dụng LLM như một đại diện cho người đánh giá. Các ưu tiên của từng nhóm được mã hóa thành các câu lệnh ngôn ngữ tự nhiên.

LLM sẽ so sánh các kịch bản và lựa chọn phương án phù hợp hơn dựa trên tiêu chí đạo đức. Cách làm này giúp tránh tình trạng con người bị mệt mỏi và thiếu nhất quán khi phải đánh giá hàng trăm hoặc hàng nghìn kịch bản.

Sau đó, SEED-SET sử dụng các kịch bản đã chọn để mô phỏng hệ thống (ví dụ: chiến lược phân phối điện) và tiếp tục tìm kiếm các kịch bản mới có giá trị đánh giá cao hơn.

Kết quả cuối cùng là một tập hợp các kịch bản tiêu biểu, cho phép người dùng phân tích hiệu suất của hệ thống AI và điều chỉnh chiến lược khi cần.

Ví dụ, hệ thống có thể phát hiện những trường hợp phân phối điện ưu tiên khu vực thu nhập cao trong giờ cao điểm, khiến các khu vực khó khăn dễ bị mất điện hơn.

Hiệu quả và hướng phát triển

Khi thử nghiệm trên các hệ thống thực tế như lưới điện thông minh hay điều phối giao thông đô thị, SEED-SET tạo ra số lượng kịch bản tối ưu nhiều gấp đôi so với các phương pháp truyền thống, đồng thời phát hiện nhiều tình huống mà các phương pháp khác bỏ sót.

Đáng chú ý, khi thay đổi ưu tiên của người dùng, các kịch bản mà hệ thống tạo ra cũng thay đổi đáng kể, cho thấy khả năng thích ứng cao với giá trị con người.

Trong tương lai, nhóm nghiên cứu dự kiến tiến hành các nghiên cứu với người dùng thực để đánh giá mức độ hữu ích của hệ thống trong quá trình ra quyết định. Đồng thời, họ cũng hướng tới việc mở rộng phương pháp cho các bài toán phức tạp hơn, như đánh giá quyết định của chính các mô hình ngôn ngữ lớn.

Nghiên cứu này được tài trợ một phần bởi Cơ quan Dự án Nghiên cứu Quốc phòng Tiên tiến Hoa Kỳ (DARPA).

(Theo MIT News)