Tuần trước, nhóm DeepMind của Google đã tiết lộ một cách tiếp cận mới để huấn luyện các mạng lưới học sâu thông qua việc kết hợp giữa các thuật toán cao cấp và các trò chơi điện tử kiểu cũ.
DeepMind, nhóm nghiên cứu chịu trách nhiệm phát triển AlphaGo, tin rằng máy tính có thể học được giống như cách làm của con người. Bằng cách sử dụng bộ công cụ huấn luyện của riêng họ, DMLab-30, vốn được xây dựng dựa trên game Quake III của hãng ID Software và một môi trường học tập dựa trên 57 games arcade của Atari, nhóm nghiên cứu phát triển một hệ thống huấn luyện hoàn toàn mới được gọi là Importance Weighted Actor-Learner Architectures (IMPALA).
Với IMPALA, một hệ thống AI không chỉ có khả năng chơi game và xử lý các tình huống hình ảnh giống như cách con người làm. Nhưng điều quan trọng hơn cả là nó có thể chơi một loạt các trò chơi điện tử rất nhanh và gửi các thông tin huấn luyện từ một loạt “các actor” (các tác nhân) tới một loạt “các learner” (những người học).
Thông thường, các mạng lưới học sâu sẽ nhìn ra mọi thứ giống như một game thủ đang chơi một trò chơi điện tử. Các nhà phát triển sẽ nói với máy tính các lệnh điều khiển đầu vào là gì, và nó sẽ chơi điện tử giống như một người chơi game với tay cầm gamepad thực.
Tuy nhiên, với IMPALA, hệ thống này không chỉ chơi game hiệu quả hơn gấp 10 lần so với các phương pháp khác, mà nó còn chơi nhiều game cùng một lúc. Việc này giống như có 30 game thủ hay nhiều hơn nữa cùng học cách chơi game Quake với một bộ não “bằng máy”, và nó sẽ thu thập được kinh nghiệm chơi game đó từ 30 game thủ cùng một lúc.
Dưới đây là đoạn video một người chơi thử nghiệm môi trường DMLab-30:
Còn dưới đây là một máy tính sử dụng IMPALA:
Tầm quan trọng của IMPALA
Một trong những thách thức mới nhất mà các nhà phát triển AI phải đối mặt là lượng thời gian và sức mạnh xử lý họ cần để huấn luyện một mạng lưới thần kinh nhân tạo. Không giống như việc lập trình truyền thống – nơi một người thông minh sẽ viết ra một loạt các dòng code để cuối cùng biến nó thành một chương trình – các máy tính tự động cần các quy tắc để chúng có thể thử nghiệm và tìm ra cách để giải quyết các vấn đề trong thế giới thực.
Vì chúng ta không thể chỉ xây dựng nên các robot và để mặc chúng tự suy nghĩ ra mọi thứ, các bộ mô phỏng được sử dụng để giúp sức cho việc phát triển. Vì nguyên nhân này, việc học sâu tăng cường là kỹ thuật rất quan trọng cho các tác vụ yêu cầu khả năng xử lý tự động tùy theo ngữ cảnh.
Ví dụ, một chiếc ô tô tự lái sẽ có thể tự xác định liệu nó nên tăng tốc hay giảm tốc. Nhưng nó sẽ không quyết định việc có lái qua mặt trước một cửa hàng tiện lợi hay không. Nó học được cách ra những loại quyết định nào và làm thế nào thực hiện chúng trong một môi trường mô phỏng.
Một vấn đề khác IMPALA giải quyết là về khả năng mở rộng. Việc tinh chỉnh các thuật toán và điều chỉnh một vài yếu tố khác có thể giúp giảm bớt thời gian đào tạo đi một vài phút, nhưng cuối cùng, điều làm nên một AI được huấn luyện thành công không phải dựa trên số giờ đăng nhập.
Để một cỗ máy tự động với mạng lưới thần kinh bên trong có thể xác định được tình huống nào có thể gây nguy hiểm đến cho con người hay gây hư hỏng cho hàng hóa trong kho, chúng phải có khả năng xử lý đủ cao đến hàng tỷ "khung hình" từ môi trường huấn luyện.
Trong khi đó, theo các nhà nghiên cứu, nếu “cung cấp đủ CPU cho mỗi actor” – IMPALA có thể đạt tỷ lệ xử lý tới 250.000 khung hình/giây hay 21 tỷ khung hình/ngày. Điều này làm AI của DeepMind có tốc độ nhanh nhất mà ta từng biết đối với các loại tác vụ này.
Và theo bản cáo bạch của IMPALA, AI này đang thực hiện tốt hơn cả các hệ thống AI trước và cả với con người. Chúng ta đều đã thấy AI của DeepMind chơi trò chơi tốt hơn con người như thế nào, giờ là lúc nó trình diễn điều đó.
Theo GenK