
Theo Financial Times, Trung Quốc đang tiến hành cuộc đại tu công nghệ lớn nhất trong nhiều năm nhằm hiện đại hóa cơ sở hạ tầng camera vốn đã hoạt động hơn một thập kỷ. Theo phân tích từ các hồ sơ đấu thầu, mạng lưới này đang được tích hợp sâu các công nghệ trí tuệ nhân tạo (AI) nhằm tự động hóa quy trình phân tích, giúp nâng cấp mô hình vận hành từ phản ứng thụ động sang phân tích dữ liệu chủ động.
![A person passes by surveillance cameras on the street in Beijing, China, 22 May 2019. [[Roman Piliey/EPA/EFE]]](https://static-images.vnncdn.net/vps_images_publish/000001/000003/2026/5/27/efe-2968.png?width=0&s=-bqXzxlggt8AR93Ihlg0xw)
Hệ thống cũ hiện đang bộc lộ những hạn chế về phần cứng lỗi thời, nền tảng phần mềm phân mảnh và năng lực AI yếu kém. Một chuyên gia trong ngành chia sẻ thế hệ camera cũ đã bị bào mòn đáng kể bởi thời tiết khắc nghiệt, đặc biệt là những mùa hè nóng ẩm tại Trung Quốc.
Giờ đây, thế hệ camera và phần mềm mới được trang bị khả năng "hiểu" bối cảnh, nhận diện chuỗi hành vi và trích xuất video dựa trên các câu lệnh (prompt), qua đó giảm thiểu tối đa sự can thiệp thủ công của con người.
Trong hai năm qua, các tập đoàn công nghệ lớn như Hikvision và Huawei đã tung ra loạt sản phẩm tích hợp công nghệ thị giác máy tính và mô hình ngôn ngữ lớn (LLM). Nhờ sử dụng các dòng chip bán dẫn tiên tiến, các thiết bị này có khả năng xử lý dữ liệu trực tiếp tại biên. Điều này cho phép hệ thống phân tích luồng video theo thời gian thực để đưa ra cảnh báo tự động về các dấu hiệu bất thường như lái xe sai làn, đám đông tụ tập hay xâm nhập trái phép.
Đột phá lớn nhất nằm ở khả năng tương tác. Các thiết bị mới nhất của Hikvision cho phép người vận hành tìm kiếm đoạn phim bằng văn bản, ví dụ "một phụ nữ đội mũ đỏ". Hệ thống sẽ tự động truy xuất các video liên quan nhờ sức mạnh của mô hình đa phương thức. Đại diện Hikvision xác nhận hệ thống cũ không hỗ trợ tính năng tìm kiếm bằng văn bản và chỉ có thể đối chiếu nếu có hình ảnh gốc, nhưng công nghệ LLM đã thay đổi hoàn toàn rào cản này.
Sự nâng cấp quy mô lớn cũng tạo ra đòn bẩy cho chuỗi cung ứng bán dẫn nội địa. Theo các nguồn tin trong ngành, Shanghai Fullhan Microelectronics hiện là nhà cung cấp vi mạch chuyên dụng chính cho Hikvision.
Các bộ vi xử lý AI đảm nhiệm việc chuyển đổi dữ liệu hình ảnh thô thành thông tin kỹ thuật số ngay trên thiết bị. Việc phân bổ khối lượng tính toán trực tiếp tại điểm ghi hình (thay vì truyền tải liên tục về các trung tâm dữ liệu đám mây) giúp hệ thống vận hành với độ trễ cực thấp.
Theo các hồ sơ đấu thầu được công khai, chi phí cho đợt nâng cấp công nghệ này khiêm tốn hơn rất nhiều so với làn sóng đầu tư hạ tầng camera giám sát cách đây một thập kỷ. Giới phân tích ước tính, Trung Quốc từng chi khoảng 300 tỷ NDT cho thế hệ phần cứng và cơ sở hạ tầng mạng vào giữa những năm 2010. Trong 12 bộ hồ sơ dự thầu gần đây, ngân sách phê duyệt chỉ dao động từ dưới 1 triệu đến 10 triệu NDT cho mỗi quận/huyện.
Chẳng hạn, một gói thầu từ thị trấn Yaodu, tỉnh Tứ Xuyên phân bổ 900.000 NDT để triển khai 175 camera độ phân giải cao được trang bị "hệ thống phân tích video thông minh", cho phép phát hiện và cảnh báo các hành vi bất thường. Một gói thầu khác tại Datong lại yêu cầu loạt công nghệ từ Hikvision, tập trung vào các dòng camera AI có khả năng nhận diện giới tính, tư thế và đặc điểm trang phục của con người.
Vì vậy, để tối ưu hóa ngân sách, nhiều địa phương không đập bỏ hoàn toàn hệ thống cũ. Thay vào đó, họ ứng dụng giải pháp "AI PC" làm máy chủ trung gian. Bằng cách thay thế các máy chủ thu thập dữ liệu thông thường bằng thiết bị tích hợp phần cứng AI chuyên biệt, hệ thống có thể tận dụng mạng lưới camera hiện hữu trong khi vẫn xử lý được các tác vụ phân tích phức tạp tại biên, giúp tiết kiệm đáng kể chi phí điện toán đám mây.
(Theo FT)
