Google Gemini châm ngòi cuộc đua công nghệ AI nền tảng

Gemini, là mô hình đầu tiên được công bố kể từ hội nghị thượng đỉnh về an toàn AI toàn cầu diễn ra vào tháng trước, tại đó các công ty công nghệ đã đồng ý hợp tác với các chính phủ để thử nghiệm các hệ thống tiên tiến trước và sau khi phát hành.

Gã khổng lồ tìm kiếm phát hành Gemini dưới ba phiên bản: Gemini Nano - bản thu gọn, thiết kế chạy tự động và ngoại tuyến trên Android, Gemini Pro tích hợp trên các dịch vụ Google và Gemini Ultra - công cụ mạnh nhất, hướng đối tượng trung tâm dữ liệu và ứng dụng doanh nghiệp.

Theo nhà phát triển, Ultra vượt trội các mô hình AI “tiên tiến nhất”, gồm cả mô hình mạnh nhất của ChatGPT là GPT-4, ở 30 trên 32 bài kiểm tra điểm chuẩn về khả năng suy luận và hiểu hình ảnh.

Bản Pro vượt trội hơn GPT-3.5, công nghệ đang sử dụng trên các phiên bản ChatGPT miễn phí, ở 6 trên 8 thử nghiệm.

Kể từ ngày 6/12, Gemini cũng sẽ xuất hiện trong các sản phẩm dịch vụ của hãng công nghệ Mỹ, trong đó có cả công cụ tìm kiếm, ở hơn 170 quốc gia (ngoại trừ Vương quốc Anh và EU), dưới hình thức nâng cấp chatbot Google Bard.

Google cho biết mô hình của họ là “đa phương thức”, có nghĩa là nó có thể hiểu văn bản, âm thanh, hình ảnh, video và mã máy tính cùng một lúc.

Demis Hassabis, Giám đốc điều hành DeepMind, đơn vị Google có trụ sở tại London, chịu trách nhiệm trực tiếp phát triển Gemini, cho biết: “Đây là dự án phức tạp nhất mà chúng tôi từng thực hiện, tôi có thể nói là dự án lớn nhất. Đó là một nỗ lực to lớn”.

Số liệu cho thấy, Ultra là mô hình AI đầu tiên vượt trội các chuyên gia con người, với số điểm 90%, trong bài kiểm tra đa nhiệm có tên MMLU, bao gồm 57 môn học bao gồm toán, vật lý, luật, y học và đạo đức.

Phiên bản Gemini mạnh mẽ nhất sẽ được tích hợp vào AlphaCode2, công cụ lập trình mới mà Google tuyên bố có thể vượt trội hơn 85% các lập trình viên máy tính ở cấp độ cạnh tranh.

Trong các đoạn video quảng cáo về khả năng của Gemini, mô hình Ultra cho thấy khả năng hiểu câu trả lời bài tập vật lý viết tay của học sinh và đưa ra các mẹo chi tiết về cách làm bài, chẳng hạn như hiển thị phương trình.

Một đoạn video khác mô tả phiên bản Pro phân tích và xác định hình vẽ một con vịt, cũng như trả lời chính xác bộ phim mà một diễn viên nghiệp dư đang diễn lại trên smartphone (trích đoạn “bullet-time” nổi tiếng trong phim Ma Trận).

Collins cho biết chế độ mạnh mẽ nhất của Gemini cho thấy “khả năng suy luận nâng cao” và có thể thể hiện “những khả năng mới” - gồm các nhiệm vụ mà AI từ trước đến giờ chưa từng thực hiện.

Song, trước mắt, Ultra đang trải qua quá trình thử nghiệm “đội đỏ” bên ngoài – nơi các chuyên gia kiểm tra tính bảo mật và an toàn của sản phẩm – và Google sẽ chia sẻ kết quả với chính phủ Mỹ, theo lệnh hành pháp Tổng thống Joe Biden ban hành vào tháng 10. Dự kiến, công cụ này sẽ chưa phát hành công khai cho đến đầu năm 2024.

Dù đặt nhiều nỗ lực vào AI Gemini, song Google cũng thừa nhận tình trạng “ảo giác” - chỉ việc hệ thống tự bịa đặt câu trả lời, vốn xảy ra trên hầu hết các mô hình, vẫn là một bài toán khó.

Eli Collins, người đứng đầu sản phẩm tại Google DeepMind, cho biết: “Tôi có thể nói rằng đây vẫn là một vấn đề nghiên cứu chưa được giải quyết”.

Google cho biết họ đang thảo luận với Viện An toàn AI mới thành lập của Vương quốc Anh về việc thử nghiệm phiên bản mạnh nhất của Gemini, phiên bản sẽ được phát hành vào năm tới.

Sissie Hsiao, tổng giám đốc Bard tại Google, cho biết phiên bản Bard tích hợp Gemini Pro sẽ chưa được phát hành ở Anh và Khu vực Kinh tế Châu Âu gồm EU và Thụy Sĩ, khi “công ty đang làm việc với các cơ quan quản lý địa phương”. Google không nêu rõ các vấn đề pháp lý đằng sau sự chậm trễ ở Anh và EU.

Thông tin sai lệch được sản xuất hàng loạt cho đến việc các hệ thống “siêu thông minh - AGI” có khả trốn tránh sự kiểm soát của con người đang là những lo ngại căn bản với công nghệ AI hiện nay.

Tuy nhiên, Gemini thể hiện một bước quan trọng đối với AGI, Hassabis nói: “Tôi nghĩ những mô hình nền tảng đa phương thức này sẽ là thành phần chính của AGI, bất kể hệ thống cuối cùng đó ra sao. Nhưng vẫn còn những thứ còn thiếu mà chúng tôi vẫn đang nghiên cứu và đổi mới”.

Hassabis cho biết dữ liệu dùng để đào tạo Gemini được lấy từ nhiều nguồn khác nhau, bao gồm cả trang web mở. Các ngành công nghiệp xuất bản và sáng tạo đã phản đối việc các công ty AI sử dụng nội dung có bản quyền trực tuyến để xây dựng mô hình.

Mặc dù tất cả các phiên bản Gemini đều là đa phương thức theo những lời nhắc mà chúng có thể hiểu được, nhưng các phiên bản Pro và Nano được phát hành công khai trong tháng này hiện chỉ có thể phản hồi ở định dạng văn bản hoặc mã.