Bản nâng cấp của Google Gemini sử dụng mô hình hình ảnh “nano banana” do Google DeepMind phát triển. Tính năng hiện đã có mặt trên toàn cầu cho cả người dùng miễn phí lẫn trả phí. Điểm mạnh lớn nhất là khả năng giữ sự nhất quán khuôn mặt và đối tượng trong ảnh, điều mà các công cụ AI khác thường gặp khó khăn.

Nicole Brichtova, trưởng nhóm sản phẩm tại DeepMind, chia sẻ: “Chúng tôi thực sự đẩy mạnh chất lượng hình ảnh cũng như khả năng làm theo hướng dẫn của mô hình. Bản cập nhật này giúp các chỉnh sửa liền mạch hơn và kết quả đủ tốt để dùng cho bất kỳ mục đích nào”.

Giữ “bạn” trong từng tấm ảnh

Một trong những điểm khiến ảnh AI có cảm giác giả tạo là các chi tiết nhỏ bị méo mó. Google cho biết Gemini giải quyết được vấn đề này, cho phép thay đổi toàn bộ bối cảnh nhưng vẫn giữ nguyên gương mặt và thần thái. Người dùng có thể thử kiểu tóc mới, đổi màu tường hay đưa thú cưng vào cảnh mà không lo biến dạng hình ảnh.

Ghép ảnh với bối cảnh mới từ hai hình ảnh có sẵn bằng Google Gemini. Nguồn: Google

Gemini cũng cho phép tải nhiều ảnh để ghép thành một, chẳng hạn kết hợp chân dung với mèo cưng để tạo bức ảnh hai bạn cùng vi vu trên đường.

Gemini hỗ trợ chỉnh sửa nhiều bước (multi-turn editing), giúp người dùng thêm từng chi tiết cho một không gian: từ giấy dán tường, bàn ghế, đến màu sơn. Điểm cộng là chỉ phần cần chỉnh sửa thay đổi, còn lại giữ nguyên.

Ngoài ra, Gemini có thể trộn phong cách giữa các ảnh. Ví dụ, biến đôi ủng đi mưa thành đôi giày in hình cánh hoa, hoặc tạo chiếc váy mang họa tiết cánh bướm.

Cuộc đua tạo ảnh AI giữa các “ông lớn” công nghệ

Nâng cấp của Google diễn ra khi cuộc chiến tạo ảnh bằng AI ngày càng khốc liệt. OpenAI trước đó ra mắt GPT-4o với khả năng tạo ảnh trực tiếp, từng gây sốt mạng xã hội với loạt meme phong cách Studio Ghibli. CEO Sam Altman tiết lộ lượng người dùng tăng mạnh đến mức GPU của công ty gần như “nóng chảy”.

Để theo kịp, Meta tuyên bố hợp tác với Midjourney, trong khi startup Đức Black Forest Labs với mô hình FLUX đang chiếm ưu thế trên nhiều bảng xếp hạng.

Khả năng chỉnh ảnh nhiều bước của Google Gemini. Nguồn: Google

Google kỳ vọng Gemini có thể thu hẹp khoảng cách với ChatGPT. Theo CEO Sundar Pichai, Gemini hiện đạt 450 triệu người dùng hàng tháng, thấp hơn nhiều so với ChatGPT vốn có hơn 700 triệu người dùng mỗi tuần.

Brichtova cho biết Gemini được thiết kế cho các tình huống thực tế, từ hình dung phòng khách, khu vườn đến tạo ảnh giải trí. Mô hình có “kiến thức thế giới” tốt hơn, có thể kết hợp nhiều ảnh và bảng màu thành một render hoàn chỉnh.

Tuy nhiên, Google cũng đặt ra giới hạn nghiêm ngặt. Mọi ảnh sinh ra đều có watermark rõ ràng và dấu nhận dạng ẩn trong metadata. Công ty cấm tuyệt đối việc tạo ảnh nhạy cảm phi tự nguyện để tránh lạm dụng deepfake.

Trước đó, Google từng phải xin lỗi vì Gemini tạo ra hình ảnh lịch sử không chính xác. Lần này, hãng tin rằng mình đã đạt được sự cân bằng giữa sáng tạo và an toàn. “Chúng tôi muốn người dùng sáng tạo nhưng không phải cái gì cũng được phép”, Brichtova nhấn mạnh.

Với Gemini 2.5 Flash Image, Google đặt cược vào việc nâng tầm trải nghiệm chỉnh ảnh AI, hy vọng giữ chân người dùng cũ và thu hút thêm người mới trong cuộc đua công nghệ khốc liệt với OpenAI, Meta và các đối thủ khác.

(Theo TechCrunch, Tom's Guide)