Đọc tin "dễ như ăn bánh"!

 Hệ thống xử lý tiếng Việt tự động ePi là một công cụ tự động xử lý ngôn ngữ tự nhiên cho phép phân loại, trích rút, phâm cụm, lọc thông tin dựa trên đầu vào là những văn bản tiếng Việt.

Hệ thống có thể ứng dụng trong việc tổng hợp tự động thông tin từ các trang tin điện tử theo chuyên mục, sự kiện, sở thích và là giải pháp cho các máy tìm kiếm chuyên ngành, quảng cáo ngữ nghĩa trực tuyến (quảng cáo theo ngữ cảnh, quảng cáo theo thói quen người dùng) v.v...

Đây là sản phẩm vào chung khảo và chung thẩm đầu tư "Trí tuệ Việt Nam 2007" của nhóm ePi gồm Nguyễn Anh Tuấn, Nguyễn Thanh Tùng, Đào Hải Nam, Chu Thanh Quảng, Nguyễn Minh Quang.

Sản phẩm đã được ứng dụng một phần tại website http://baomoi.vn, một ví dụ của việc ứng dụng phân tích tiếng Việt. Baomoi.vn (ảnh) tự động tổng hợp và phân loại thông tin từ các trang tin điện tử để phục vụ các mối quan tâm khác nhau của người đọc với mục tiêu đọc tin "dễ như ăn bánh".

Người đọc có thể tự tạo riêng cho mình một trang tin theo sở thích bằng cách nhập các từ khoá từ hay lựa chọn từ khoá do hệ thống gợi ý (tự sinh ra) một cách dễ dàng để tạo chuyên mục ví dụ như: Thể thao chuyên về bóng đá Anh hoặc Ý, Champions League; ôtô - xe máy chuyên về dòng xe hạng sang: Toyota hay BMW; công nghệ: điện thoại di động, thủ thuật máy tính; thời trang túi, váy...

Có thể hình dung khâu xử lý tiếng Việt của hệ thống ePi như sau: Các nguồn tin (văn bản) được chuyển đến, hệ thống sẽ thực hiện tách nội dung văn bản thành các đơn vị từ, cụm từ có nghĩa. Sau đó tự động phân tích xác định lĩnh vực của văn bản, tìm ra các tập văn bản có nội dung liên quan.

Tự động đưa ra một nhóm từ khoá đặc trưng với những văn bản đó (từ khoá này có ý nghĩa rất lớn cho việc quảng cáo dựa trên nội dung). Đồng thời so sánh loại bỏ các văn bản giống nhau hoặc đã bị sao chép và chỉnh sửa nội dung, trùng lặp.

Tự động phát hiện sự kiện mới, nhóm thành dòng sự kiện, theo dõi và bổ sung các dòng sự kiện đã có trong quá trình xử lý (hữu ích với các báo điện tử cho phép người đọc theo dõi dòng sự kiện theo diễn biến thời gian).

Ngoài ra, hệ thống còn tự động sinh các từ khoá gợi ý thông minh, sàng lọc trên nguồn thông tin đưa ra thói quen đọc tin của người sử dụng.

Từ đó hệ thống quảng cáo tự động quét nội dung để tìm kiếm các từ khoá phù hợp và nhúng những quảng cáo vào từ khoá có mặt trong nội dung của bài.

Quảng cáo chỉ hiện ra khi ta bấm chuột vào đó hoặc di chuột vào từ đó, hoặc các quảng cáo sẽ tự sinh ra phù hợp theo xu hướng thói quen khi đọc tin tức (chẳng hạn, một website về thể thao có thể tự động được cung cấp các quảng cáo về các dụng cụ thể thao hoặc những sự kiện thể thao đáng nhớ).

Theo nhóm tác giả, xử lý ngôn ngữ tự nhiên luôn là một bài toán khó, đặc biệt là tiếng Việt - một ngôn ngữ rất phức tạp. Tài liệu nghiên cứu đặc thù về xử lý tiếng Việt rất ít, còn sơ sài, thiếu thực tiễn. Vì vậy, nhóm năm người đã phải dày công nghiên cứu và làm việc nghiêm túc trong vòng 24 tháng (từ tháng 10.2005 - tháng 10.2007) để hoàn thành sản phẩm này.

Nhóm tác giả còn cho biết thêm, hiện website http://baomoi.vn mỗi ngày đón nhận khoảng 15.000 người truy cập với trên 150.000 lượt xem mỗi ngày.

Theo Lao Động