Ảnh bài 34.png
Công cụ AI “không cần lập trình” đang mở đường để các nhà sinh học tiếp cận thiết kế protein và tăng tốc nghiên cứu thuốc. Ảnh: Midjourney

Vấn đề nằm ở chỗ: phần lớn các nhà nghiên cứu sinh học không phải chuyên gia về học máy. Công ty OpenProtein.AI đang tìm cách giải quyết khoảng cách này thông qua một nền tảng “không cần lập trình” (no-code), cho phép các nhà khoa học tiếp cận các mô hình nền tảng mạnh mẽ cùng bộ công cụ thiết kế protein, dự đoán cấu trúc và chức năng protein, cũng như huấn luyện mô hình AI.

Công ty được thành lập bởi Tristan Bepler (Tiến sĩ MIT 2020) và cựu phó giáo sư MIT Tim Lu (Tiến sĩ MIT 2007). Hiện nay, OpenProtein.AI đã cung cấp công cụ cho các nhà nghiên cứu tại nhiều công ty dược phẩm và công nghệ sinh học, bao gồm cả các mô hình nền tảng do công ty tự phát triển cho kỹ thuật protein. Đồng thời, nền tảng này cũng được cung cấp miễn phí cho giới học thuật.

Theo Bepler, đây là thời điểm đặc biệt thú vị bởi các mô hình AI không chỉ giúp kỹ thuật protein hiệu quả hơn - rút ngắn chu kỳ phát triển thuốc và ứng dụng công nghiệp - mà còn mở ra khả năng thiết kế các protein hoàn toàn mới với những đặc tính cụ thể. Xa hơn nữa, nhóm nghiên cứu muốn xây dựng một “ngôn ngữ” để mô tả toàn bộ các hệ thống sinh học.

Khi AI gặp sinh học

Bepler gia nhập MIT năm 2014 trong chương trình Tiến sĩ Sinh học Tính toán và Hệ thống, dưới sự hướng dẫn của giáo sư Bonnie Berger. Tại đây, anh nhận ra rằng con người vẫn hiểu rất ít về các phân tử tạo nên nền tảng của sự sống.

Theo Bepler, giới khoa học khi đó chưa mô tả đầy đủ các phân tử sinh học và protein để xây dựng những mô hình dự đoán đáng tin cậy về hoạt động của bộ gene hay mạng lưới tương tác protein. Điều này thôi thúc anh nghiên cứu protein ở cấp độ chi tiết hơn.

Anh bắt đầu tìm cách dự đoán chuỗi axit amin tạo nên protein bằng cách phân tích dữ liệu tiến hóa - thời điểm đó còn trước cả khi Google công bố AlphaFold, mô hình nổi tiếng dự đoán cấu trúc protein.

Công trình này đã dẫn tới một trong những mô hình AI tạo sinh đầu tiên dành cho việc hiểu và thiết kế protein, được nhóm gọi là “mô hình ngôn ngữ protein”.

Bepler đặc biệt hứng thú với mối liên hệ giữa trình tự, cấu trúc và chức năng của protein - một mối liên hệ mà khoa học vẫn chưa hiểu đầy đủ. Anh đặt câu hỏi liệu có thể sử dụng các mô hình nền tảng để “bỏ qua” bước cấu trúc và đi thẳng từ trình tự protein đến dự đoán chức năng hay không.

Theo Lu, đây cũng là giai đoạn ý tưởng kết hợp AI với sinh học bắt đầu bùng nổ. Nhóm nghiên cứu nhận thấy có một khoảng cách lớn giữa các công cụ AI tiên tiến và các nhà sinh học - những người rất muốn sử dụng chúng nhưng lại không biết lập trình. OpenProtein ra đời từ mong muốn mở rộng khả năng tiếp cận các công cụ này.

Nền tảng AI “không cần code” cho sinh học

OpenProtein được xây dựng như một nền tảng học máy thân thiện với người dùng, cho phép các nhà sinh học tải dữ liệu lên và thực hiện kỹ thuật protein thông qua giao diện web trực quan.

Nền tảng tích hợp nhiều mô hình mã nguồn mở, nổi bật là PoET - mô hình ngôn ngữ protein chủ lực của công ty.

PoET (Protein Evolutionary Transformer) được huấn luyện trên các nhóm protein nhằm tạo ra các protein có liên quan về mặt tiến hóa. Nhóm nghiên cứu cho thấy mô hình có thể khái quát hóa các ràng buộc tiến hóa của protein và tiếp nhận dữ liệu mới mà không cần huấn luyện lại hoàn toàn.

Nhờ đó, các nhà nghiên cứu có thể dùng dữ liệu riêng để huấn luyện mô hình, tối ưu hóa chuỗi protein, sau đó sử dụng các công cụ khác của nền tảng để phân tích và đánh giá chúng.

Theo Bepler, nền tảng này giống như một “hộp công cụ mở”, không bị giới hạn vào một loại protein hay chức năng cụ thể. Điểm mạnh của các mô hình AI là khả năng học và hiểu không gian protein ở quy mô rất rộng.

Mở đường cho thế hệ liệu pháp mới

Đầu năm 2025, tập đoàn dược phẩm lớn Boehringer Ingelheim bắt đầu sử dụng nền tảng của OpenProtein. Gần đây, hai bên đã mở rộng hợp tác để tích hợp các mô hình AI của OpenProtein vào quá trình thiết kế protein điều trị ung thư, bệnh tự miễn và các bệnh viêm.

Năm ngoái, OpenProtein cũng ra mắt PoET-2, phiên bản mới của mô hình ngôn ngữ protein có hiệu suất vượt trội so với nhiều mô hình lớn hơn, trong khi chỉ cần một phần nhỏ tài nguyên tính toán và dữ liệu thực nghiệm.

Theo Bepler, mục tiêu lớn nhất là tìm ra “ngôn ngữ” phù hợp để mô tả các ràng buộc của protein. Chẳng hạn, làm thế nào để mô tả một phản ứng enzyme theo cách mà AI có thể tự tạo ra các chuỗi protein thực hiện chính phản ứng đó?

Trong tương lai, các nhà sáng lập muốn phát triển các mô hình có khả năng xử lý tính chất động và liên kết phức tạp của protein - nơi một protein có thể đồng thời tham gia nhiều cơ chế sinh học hoặc thay đổi chức năng sau khi liên kết.

(Nguồn: VLAB Innovation)