Google là công ty hàng đầu trong lĩnh vực máy học (machine learning) và trí tuệ nhân tạo. Tuy nhiên, máy tính của hãng vẫn còn phải học hỏi nhiều mới có thể hoàn thiện được. Sự cố Google vừa gặp phải là bằng chứng cho thấy điều này. Photos, ứng dụng lưu trữ ảnh mới của Google, đã tag nhầm hai người da đen là “Gorillas” (khỉ đột). Lập trình viên Jacky Alciné phát hiện ra lỗi này và đăng bức ảnh lên trang Twitter cá nhân kèm chú thích: “Bạn tôi không phải là khỉ đột”.

Google đã phải đưa ra lời xin lỗi và cho biết đang thay đổi thuật toán để xử lý vấn đề. Hãng tìm kiếm Internet thừa nhận còn nhiều việc phải làm với công nghệ dán nhãn ảnh tự động và đang nỗ lực để ngăn chặn các sai lầm tương tự xảy ra trong tương lai.

Google Photos có tính năng tìm kiếm, trong đó người dùng chỉ cần gõ từ khóa, ứng dụng sẽ đưa ra các danh mục phát triển từ máy học. Công ty đã gỡ bỏ danh mục “gorilla” nên khi tìm từ khóa này, bạn không còn thấy các gợi ý xuất hiện nữa. Yonatan Zunger, Kiến trúc sư trưởng mảng xã hội tại Google, cam kết công ty sẽ cải thiện khả năng nhận diện màu da và cẩn thận hơn với các nhãn về con người trong ảnh.

Sự cố của Google cho thấy các hạn chế của trí tuệ nhân tạo và máy học, đặc biệt khi tung ra phiên bản cho người dùng cá nhân. Google dường như đã tung ra phần mềm còn sót lỗi và sau đó cập nhật nếu có lỗ hổng nào đó bị phát hiện.

Đầu năm nay, Google phát hành ứng dụng YouTube Kids cho trẻ em, nhằm loại bỏ các nội dung người lớn thông qua sử dụng kết hợp các bộ lọc tự động, phản hồi của người dùng và đánh giá thủ công. Song, hệ thống vẫn để “lọt lưới” một vài nội dung người lớn, gây ra tranh cãi. Khi ấy, phát ngôn viên Google cho rằng “gần như không thể có độ chính xác 100%”.

Với Photos, Google thừa hiểu nó không hoàn hảo. Dù vậy, nhãn “gorillas” đã đẩy mọi chuyện lên mức độ nghiêm trọng hơn. Theo Babak Hodjat, nhà khoa học tại Sentient Technologies, một startup về trí tuệ nhân tạo, “chúng ta cần thay đổi căn bản hệ thống máy học để phù hợp với nhiều bối cảnh hơn, từ đó chúng có thể hiểu được sự nhạy cảm văn hóa quan trọng với con người”.

Nếu hệ thống máy học không hiểu sự khác biệt giữa một con tinh tinh và một con khỉ đột, điều đó không đáng bàn, nhưng nếu nó gán nhãn nhầm cho một con người với một con khỉ đột, nó là sự xúc phạm. Hodjat nhận định có lẽ hệ thống Google chưa xem đủ ảnh khỉ đột để biết điểm khác biệt ở đâu và cũng không hiểu được tầm quan trọng của sai lầm này. “Loài người vô cùng nhạy cảm và làm lớn một số khác biệt nhất định trong văn hóa. Các cỗ máy không thể làm điều đó. Chúng không thể hiểu bối cảnh này”.

Cho hệ thống máy học của Google xem nhiều ảnh khỉ đột hơn có thể là một giải pháp, nhưng các hệ thống như vậy cũng cần được luyện tập nhiều hơn để cẩn trọng hơn trong từng tình huống. Ngày nay, phần lớn hệ thống đều gán nhãn dựa theo dự đoán tốt nhất ngay cả khi chưa chắc chắn 100%.

Còn theo Google, khi ngày càng nhiều ảnh tải lên Google Photos và ngày càng nhiều người sửa các tag sai, thuật toán của hãng sẽ tốt hơn trong việc sắp xếp danh mục ảnh. Google cũng áp dụng cách tiếp cận tương tự với tính năng tìm kiếm bằng giọng nói, cho phép người dùng đặt câu hỏi bằng miệng thay vì gõ ra từ khóa. Ban đầu, dịch vụ chứa nhiều lỗi nhưng khi có thêm nhiều người sử dụng dịch vụ, cỗ máy Google đã hiểu câu tốt hơn.