
Một công ty khởi nghiệp robot đầy triển vọng có tên Physical Intelligence, mới chỉ hai năm tuổi và đặt trụ sở tại San Francisco, vừa công bố nghiên cứu gây chú ý trong giới công nghệ. Theo đó, mô hình trí tuệ nhân tạo mới nhất của họ có thể điều khiển robot thực hiện những nhiệm vụ mà trước đó chưa từng được huấn luyện trực tiếp, một bước tiến khiến ngay cả chính các nhà nghiên cứu cũng phải bất ngờ.

Mô hình này, mang tên π0.7, được xem là bước đi ban đầu nhưng quan trọng hướng tới mục tiêu lâu dài: xây dựng một “bộ não robot đa năng”. Đây là hệ thống có thể tiếp nhận nhiệm vụ hoàn toàn mới, được hướng dẫn bằng ngôn ngữ tự nhiên và vẫn hoàn thành công việc. Nếu các kết quả này được xác nhận rộng rãi, chúng có thể báo hiệu một điểm bùng phát của AI robot, tương tự như bước ngoặt mà các mô hình ngôn ngữ lớn từng tạo ra.
Từ “học vẹt” sang khả năng suy luận linh hoạt
Trọng tâm của nghiên cứu nằm ở khái niệm “khả năng tổng quát hóa tổ hợp”, tức năng lực kết hợp các kỹ năng đã học trong nhiều bối cảnh khác nhau để giải quyết vấn đề hoàn toàn mới. Trước đây, robot thường được huấn luyện theo kiểu “học thuộc”: thu thập dữ liệu cho từng nhiệm vụ cụ thể, huấn luyện mô hình chuyên biệt, rồi lặp lại quy trình cho từng nhiệm vụ mới.
Theo Sergey Levine, đồng sáng lập công ty và giáo sư tại Đại học UC Berkeley, mô hình π0.7 đã phá vỡ giới hạn này. Khi vượt qua ngưỡng chỉ làm được những gì có dữ liệu, hệ thống bắt đầu “tái tổ hợp” kiến thức theo cách mới. Điều này giúp khả năng của mô hình tăng trưởng nhanh hơn nhiều so với lượng dữ liệu đầu vào, một đặc điểm từng xuất hiện trong các lĩnh vực như xử lý ngôn ngữ và thị giác máy tính.

Một trong những minh chứng ấn tượng nhất của nghiên cứu liên quan đến một thiết bị quen thuộc: nồi chiên không dầu. Mô hình gần như chưa từng “thấy” thiết bị này trong quá trình huấn luyện. Dữ liệu liên quan chỉ gồm hai tình huống rời rạc: một robot khác đóng nắp nồi và một robot khác đặt chai nhựa vào bên trong theo hướng dẫn.
Dẫu vậy, π0.7 vẫn có thể kết hợp những mảnh thông tin nhỏ đó, cùng dữ liệu tiền huấn luyện từ Internet, để hình thành hiểu biết chức năng về thiết bị. Theo Lucy Shi, nhà nghiên cứu tại công ty và nghiên cứu sinh tiến sĩ khoa học máy tính tại Đại học Stanford, việc xác định chính xác nguồn gốc kiến thức của mô hình là điều cực kỳ khó khăn.
Ban đầu, khi không có hướng dẫn, robot chỉ thực hiện ở mức chấp nhận được. Nhưng khi được “huấn luyện tại chỗ” bằng lời nói, giống như cách một nhân viên mới được chỉ dẫn từng bước, robot đã hoàn thành nhiệm vụ nấu khoai lang thành công.
Huấn luyện bằng lời nói: Chìa khóa cho tương lai?
Khả năng tiếp nhận hướng dẫn bằng ngôn ngữ tự nhiên mở ra tiềm năng lớn: robot có thể được triển khai trong môi trường mới và cải thiện hiệu suất ngay lập tức mà không cần thu thập thêm dữ liệu hay huấn luyện lại mô hình.
Tuy nhiên, nhóm nghiên cứu cũng thẳng thắn thừa nhận hạn chế. Trong một số trường hợp, vấn đề không nằm ở robot mà ở cách con người “ra lệnh”. Lucy Shi cho biết, trong một thử nghiệm ban đầu, tỷ lệ thành công chỉ đạt 5%. Nhưng sau khoảng 30 phút điều chỉnh cách diễn đạt yêu cầu (prompt), con số này tăng vọt lên 95%.
Dẫu vậy, mô hình hiện vẫn chưa thể tự động thực hiện các nhiệm vụ phức tạp chỉ từ một lệnh tổng quát. Theo Levine, bạn không thể chỉ nói “hãy làm bánh mì nướng” và kỳ vọng robot tự hoàn thành. Nhưng nếu hướng dẫn từng bước cụ thể, hệ thống sẽ hoạt động khá hiệu quả.

Một thách thức lớn trong lĩnh vực robot là thiếu các tiêu chuẩn đánh giá thống nhất. Vì vậy, nhóm nghiên cứu đã so sánh π0.7 với các mô hình chuyên biệt trước đây của chính họ. Kết quả cho thấy mô hình đa năng này có thể đạt hiệu suất tương đương trong nhiều nhiệm vụ phức tạp như pha cà phê, gấp quần áo hay lắp ráp hộp.
Điều đáng chú ý nhất không nằm ở từng màn trình diễn riêng lẻ, mà ở việc chính các nhà nghiên cứu, những người hiểu rõ dữ liệu huấn luyện, cũng bị bất ngờ bởi khả năng của mô hình. Ashwin Balakrishna cho biết, lần đầu tiên trong sự nghiệp, anh cảm thấy không thể dự đoán trước robot sẽ làm được gì.
Levine so sánh trải nghiệm này với thời điểm GPT-2 lần đầu tạo ra một câu chuyện kỳ lạ về kỳ lân ở dãy Andes. Sự kết hợp tưởng chừng vô lý ấy lại là dấu hiệu cho thấy mô hình đã học được cách liên kết kiến thức theo cách sáng tạo. Và giờ đây, hiện tượng tương tự đang xuất hiện trong lĩnh vực robot.
Tất nhiên, vẫn tồn tại hoài nghi. Các mô hình ngôn ngữ có lợi thế lớn khi được huấn luyện trên toàn bộ Internet, trong khi robot không có nguồn dữ liệu phong phú tương tự. Tuy nhiên, Levine cho rằng chỉ trích phổ biến nhất lại nằm ở chỗ khác: các nhiệm vụ robot thực hiện chưa đủ “ngoạn mục”. Robot không nhào lộn hay trình diễn kỹ năng phức tạp.
Ông phản biện rằng chính sự “đơn giản” này mới là giá trị thực: một hệ thống có khả năng tổng quát hóa sẽ hữu ích hơn nhiều so với những màn trình diễn được dàn dựng công phu.
Tương lai nào cho “bộ não robot”?
Bản thân nghiên cứu cũng sử dụng ngôn ngữ thận trọng, mô tả π0.7 chỉ mới thể hiện “dấu hiệu ban đầu” của khả năng tổng quát hóa. Đây vẫn là kết quả trong phòng thí nghiệm, chưa phải sản phẩm thương mại.
Khi được hỏi về thời điểm công nghệ này có thể triển khai ngoài thực tế, Levine cho biết rất khó dự đoán. Dù vậy, ông thừa nhận tốc độ tiến bộ hiện tại nhanh hơn kỳ vọng của chính mình vài năm trước.
Về mặt tài chính, Physical Intelligence đã huy động hơn 1 tỷ USD và được định giá khoảng 5,6 tỷ USD. Một phần lớn sự quan tâm của giới đầu tư đến từ Lachy Groom, đồng sáng lập công ty và là nhà đầu tư thiên thần (Angel Investor) nổi tiếng từng rót vốn vào nhiều startup thành công. Hiện công ty được cho là đang đàm phán vòng gọi vốn mới, có thể nâng định giá lên tới 11 tỷ USD.
Nếu những gì π0.7 thể hiện là dấu hiệu của một xu hướng lớn hơn, thì robot trong tương lai có thể không chỉ “làm theo lệnh”, mà còn thực sự hiểu và thích nghi với thế giới xung quanh.
(Theo TechCrunch, Interesting Engineering)