Trí tuệ nhân tạo đang thay đổi cách doanh nghiệp lưu trữ và truy cập dữ liệu. Nguyên nhân là vì các hệ thống lưu trữ dữ liệu truyền thống được thiết kế để xử lý các lệnh đơn giản từ một vài người dùng cùng lúc, trong khi ngày nay, các hệ thống AI với hàng triệu tác nhân cần truy cập và xử lý khối lượng dữ liệu khổng lồ liên tục và song song.

Các hệ thống lưu trữ truyền thống giờ có nhiều lớp phức tạp, khiến AI bị chậm lại vì dữ liệu phải đi qua nhiều tầng trước khi đến được GPU - bộ xử lý đồ họa, được coi là “tế bào não” của AI.

Cloudian - do Michael Tso (từ MIT) và Hiroshi Ohta đồng sáng lập - đang giúp lưu trữ dữ liệu bắt kịp cuộc cách mạng AI. Công ty đã phát triển một hệ thống lưu trữ có khả năng mở rộng cho doanh nghiệp, giúp dữ liệu luân chuyển mượt mà giữa kho lưu trữ và các mô hình AI.

Hệ thống này giảm độ phức tạp bằng cách áp dụng tính toán song song vào lưu trữ, hợp nhất chức năng AI và dữ liệu trên một nền tảng xử lý song song duy nhất, có khả năng lưu trữ, truy xuất và xử lý các bộ dữ liệu quy mô lớn, với kết nối trực tiếp tốc độ cao giữa kho lưu trữ và cả GPU lẫn CPU.

Nền tảng lưu trữ - tính toán tích hợp của Cloudian giúp đơn giản hóa việc xây dựng các công cụ AI ở quy mô thương mại, đồng thời cung cấp cho doanh nghiệp một hạ tầng lưu trữ đủ sức bắt kịp sự bùng nổ AI.

“Một điều mọi người hay bỏ qua về AI là tất cả đều xoay quanh dữ liệu,” Tso nói. “Bạn không thể tăng hiệu suất AI 10% chỉ bằng 10% dữ liệu nhiều hơn, thậm chí gấp 10 lần dữ liệu cũng không đủ - bạn cần gấp 1.000 lần dữ liệu. Việc lưu trữ dữ liệu sao cho dễ quản lý, đồng thời nhúng được tính toán ngay trong đó để có thể xử lý khi dữ liệu vừa nhập vào mà không phải di chuyển nó - đó là hướng mà ngành đang tiến đến”.

Lưu trữ đối tượng và AI

Hiện tại, nền tảng của Cloudian sử dụng kiến trúc lưu trữ đối tượng (object storage), nơi mọi loại dữ liệu - tài liệu, video, dữ liệu cảm biến - đều được lưu dưới dạng đối tượng duy nhất kèm metadata. Lưu trữ đối tượng có thể quản lý khối dữ liệu khổng lồ theo cấu trúc phẳng, lý tưởng cho dữ liệu phi cấu trúc và hệ thống AI, nhưng trước đây không thể gửi trực tiếp dữ liệu tới mô hình AI mà không chép vào bộ nhớ máy tính trước - gây độ trễ và tốn năng lượng.

Tháng 7 vừa qua, Cloudian công bố đã mở rộng hệ thống lưu trữ đối tượng với cơ sở dữ liệu vector, lưu dữ liệu dưới dạng sẵn sàng cho AI sử dụng ngay lập tức. Khi dữ liệu được nạp vào, Cloudian tính toán thời gian thực dạng vector của dữ liệu để hỗ trợ các công cụ AI như công cụ gợi ý, tìm kiếm và trợ lý AI.

Cloudian cũng công bố hợp tác với NVIDIA để hệ thống lưu trữ hoạt động trực tiếp với GPU của hãng. Cloudian cho biết hệ thống mới này cho phép AI xử lý nhanh hơn và giảm chi phí tính toán.

“NVIDIA liên hệ với chúng tôi khoảng 1,5 năm trước vì GPU chỉ hữu ích khi có dữ liệu liên tục ‘nuôi’ chúng”, Tso nói. “Giờ mọi người nhận ra dễ đưa AI đến dữ liệu hơn là di chuyển khối dữ liệu khổng lồ. Hệ thống lưu trữ của chúng tôi tích hợp nhiều chức năng AI, nên có thể tiền xử lý và hậu xử lý dữ liệu gần nơi chúng tôi thu thập và lưu trữ”.

Lưu trữ ưu tiên AI

Cloudian đang giúp khoảng 1.000 doanh nghiệp trên toàn thế giới khai thác tối đa giá trị dữ liệu, bao gồm các nhà sản xuất lớn, tổ chức tài chính, cơ sở y tế và cơ quan chính phủ.

Ví dụ, nền tảng lưu trữ của Cloudian đang hỗ trợ một hãng sản xuất ô tô lớn dùng AI để xác định thời điểm cần bảo trì từng robot sản xuất. Cloudian cũng hợp tác với Thư viện Y khoa Quốc gia Mỹ để lưu trữ bài báo nghiên cứu và bằng sáng chế, và với Cơ sở dữ liệu Ung thư Quốc gia để lưu trình tự DNA của khối u - những bộ dữ liệu phong phú mà AI có thể xử lý nhằm hỗ trợ nghiên cứu điều trị mới hoặc phát hiện mới.

“GPU là yếu tố thúc đẩy tuyệt vời,” Tso nói. “Định luật Moore tăng gấp đôi sức mạnh tính toán mỗi hai năm, nhưng GPU có thể song song hóa tác vụ trên chip, kết nối nhiều GPU với nhau và vượt xa định luật Moore. Quy mô này đang đẩy AI lên tầm trí tuệ mới, nhưng cách duy nhất để GPU làm việc hết công suất là cung cấp dữ liệu với tốc độ ngang khả năng tính toán của chúng - và cách duy nhất để làm điều đó là loại bỏ tất cả các lớp trung gian giữa GPU và dữ liệu của bạn”.

