Một phần hạ tầng Internet toàn cầu vừa gặp sự cố nghiêm trọng, khiến hàng loạt trang web bị ảnh hưởng nặng nề do các máy chủ phục vụ chúng đột ngột biến mất. Thủ phạm rốt cuộc được xác định là ... một lỗi chính tả.
Sự cố hy hữu xảy ra hồi đầu tuần này với dịch vụ lưu trữ điện toán đám mây S3 của Amazon tại vùng US-EAST-1. Đây là một trung tâm dữ liệu quan trọng của "ông lớn" thương mại điện tử Mỹ, đặt ở phía bắc tiểu bang Virginia.
Các máy chủ thuộc S3 đã đột ngột biến mất hôm 28/2, khiến vô số trang web đông người truy cập trên toàn thế giới như Quora, Business Insider, The Verge, Home Chef, Lonely Planet, News Corp, ... và các dịch vụ ăn khách như Giphy, Instagram, Vine, Medium, Airbnb, Pinterest, ... đều bị dừng hoạt động hoặc truy cập rất chậm. Phải mất hơn 4 tiếng sau đó, những máy chủ này mới tái hoạt động trực tuyến, giúp cơ bản hồi phục các dịch vụ S3.
Trong một thông báo mới gửi khách hàng ngày 2/3, Amazon đã hé lộ thủ phạm bất ngờ gây sự cố: một lỗi chính tả.
Rắc rối bắt đầu khi các kỹ sư của S3 tiến hành khắc phục lỗi trong hệ thống quảng cáo, vốn đòi hỏi cả việc cho tạm dừng hoạt động của một số lượng nhỏ máy chủ. "Đáng tiếc, một trong các câu lệnh đã bị gõ sai, khiến số lượng máy chủ bị loại bỏ nhiều hơn mong muốn. Trong khi đó, các máy chủ vô tình bị loại bỏ ngoài kế hoạch đang được dùng để phục vụ 2 hệ thống nhỏ quan trọng của S3. Một trong hai hệ thống này quản lý các siêu dữ liệu và thông tin vị trí của mọi đối tượng dùng S3 trong khu vực. Thiếu nó, các dịch vụ phụ thuộc không thể thực hiện được các nhiệm vụ truy tìm và lưu trữ dữ liệu cơ bản nữa", Amazon giải thích.
Sau khi vô tình cho một số máy chủ hoạt động ngoại tuyến, nhiều hệ thống phụ thuộc vào dịch vụ S3 đã phải "tái khởi động toàn bộ". Theo Amazon, do S3 chỉ được thiết kế có khả năng đối phó trong trường hợp mất một lượng máy chủ nhỏ, nên quá trình tái khởi động hàng loạt đã khiến hệ thống bị quá tải, dẫn đến trục trặc.
Amazon đã gửi lời xin lỗi tới các khách hàng vì sự cố ngoài ý muốn. Hãng cam kết sẽ nâng cấp công suất và khả năng phục hồi của S3, cũng như tuyên chiến với lỗi chính tả trong quá trình nhập liệu của các kỹ sư.
Tuấn Anh (Theo The Verge, CNET)