Các công ty Mỹ đang chạy đua vào thị trường thiết bị nhận diện bằng giọng nói. Ảnh minh họa

Làn sóng thiết bị nhận diện bằng giọng nói

ICTnews - Ông Mike Phillips nhớ lại những năm 1980, khi ông còn là sinh viên tốt nghiệp trường Carnegie Mellon đã cố gắng phát triển hệ thống nhận diện bằng giọng nói thì “nó đã gần như là không thể”.

Công nghệ nhận diện bằng giọng nói đã ra đời từ lâu. Song sáng kiến thường cần thời gian để trở nên phổ biến. Thời gian biến ý tưởng thành điều hữu hình, thời gian giúp nó tiếp cận thị trường và thời gian dành cho mọi người quyết định chấp nhận điều đó.

Hiện nay, các thiết bị tích hợp công nghệ nhận diện bằng giọng nói đã bắt đầu đánh vào thị trường phổ biến nhờ vào các doanh nhân như ông Phillips. Ông Phillips là giám đốc kỹ thuật kiêm nhà đồng sáng lập ra công ty Vlingo, công ty thành lập được 18 tháng tại Cambridge (Mỹ) đang bán các dịch vụ cho các hãng truyền thông di động và các công ty phần mềm muốn mang lại cho khách hàng khả năng truy cập và tìm kiếm bằng giọng nói.

Dịch vụ của Vlingo cho phép mọi người nói một cách tự nhiên hơn là bắt họ sử dụng một số lượng giới hạn những cụm từ đã được cài đặt. Ông Dave Granna, Tổng giám đốc của công ty, đã chứng minh ứng dụng Vlingo Find bằng cách yêu cầu điện thoại của mình bật một bài hát của Mississippi John Hurt (hãy thử đánh bằng ngón tay của bạn mà xem), yêu cầu tìm địa điểm của một cửa hàng bánh ngọt địa phương và tìm kiếm một trang Web về sản phẩm tiêu dùng. Nó rất nhanh và hiệu quả.

Ông Phillips đã vùi đầu hơn 15 năm ở các công ty nghiên cứu phát triển công nghệ nhận diện bằng giọng nói. Năm 1994, ông là một trong những người đầu tiên sáng lập ra Speechworks thành lập hệ thống phản hồi tương tác bằng giọng nói đầu tiên, các dịch vụ tự động phổ biến hiện nay trả lời khi chúng ta gọi đến một công ty. Năm 2000, Speechworks đã về tay của ScanSoft, công ty đã mua Nuance Communications năm năm sau đó và đổi tên thành Nuance. Ông Phillip năm đó cũng chuyển sang làm việc cho MIT với vị trí một nhà nghiên cứu.

Năm 2006, ông và một đồng nghiệp đến từ ScanSoft, John Nguyen, thành lập công ty Vlingo vì hai ông nghĩ rằng công nghệ nhận diện bằng giọng nói, mạng di động và điện thoại đều đã đủ mạnh để cho phép hệ điều khiển bằng giọng nói trên điện thoại di động.

Hiện nay, ông Phillips đang chạy đua giành thị phần. Một công ty khác Yap có trụ sở tại Charlotte (Mỹ) đang chạy thử dịch vụ của mình tương tự dịch vụ của Vlingo nhưng đã có tin nhắn văn bản. Hai nhà sáng lập Igor và Victor Jablokov đã quyết định khởi nghiệp Yap vì họ thấy em gái tuổi teen của mình nhắn tin văn bản trong khi ngồi trên xe. Các công ty di động nói rằng hai phần ba khách hàng tuổi vị thành niên (teen) gửi hoặc đọc tin nhắn văn bản trong khi lái xe.

Các công ty lớn cũng bị thu hút vào thị trường này. Công ty Nuance bắt đầu hệ điều khiển bằng giọng nói Nuance tháng 8 năm ngoái, cùng với thời điểm Vlingo ra đời. Hệ thống của Nuance được sử dụng tại công ty Sprint và Rogers Communications và có thể được tải về 66 mẫu điện thoại cầm tay và với nhiều thiết bị khác nữa.

Microsoft là một đối thủ tiềm năng đáng gờm nhờ một phần vào cuộc mua bán TellMe Networks tháng ba năm ngoái. Công ty TellMe đưa ra một ứng dụng tìm kiếm điều khiển giọng nói cho điện thoại di động phổ biến cho các khách hàng của AT&T - chỉ những ai đã từng là khách hàng của mạng di động Cingular trước khi sáp nhập với AT&T - và công ty Sprint. Hệ thống của TellMe được cài đặt trong điện thoại Mysto mới của Helio, một nhà cung cấp điện thoại di động do EarthLink và SK Telecom thành lập và là dịch vụ thông tin trực tiếp miễn phí 1800call1411.

Theo công ty nghiên cứu Opus Research, công nghệ nhận diện bằng giọng nói đã trở thành thị trường trị giá 1,6 tỷ USD năm 2007, dự đoán một tốc độ tăng trưởng hàng năm khoảng 14,5% trong vòng ba năm tới. Thị trường điện thoại di động tiềm năng nhất, cung cấp hàng tỷ chiếc điện thoại.

Công nghệ nhận diện bằng giọng nói, đã được sử dụng trong hệ thống GPS cao cấp và các loại xe sang trọng của Cadillac và Lexus, hiện nay đang trở nên phổ biến trên các hệ thống và loại xe ít tiền hơn như có thể thấy trên các quảng cáo vui nhộn của Ford Sync: Một phụ nữ trẻ đến toà văn phòng và nói “mở cửa” mong đợi nó sẽ đáp lại cách xe cô làm. Nhưng nó không làm còn cô và tách cà phê của mình đập thẳng vào nó.

Sync được do Microsoft và hãng xe Ford phát triển và dựa trên công nghệ Nuance. Giám đốc công nghệ giọng nói của IBM Research - ông David Nahamoo cho biết công ty có một công nghệ nhận diện bằng giọng nói kiểm tra khách hàng tự động giúp các lái xe tìm bài hát nhanh trong khi lái xe, không cần ấn nút nữa.

Sau đó công ty của Mỹ, SimulScribe, là một trong vài doanh nghiệp sử dụng công nghệ nhận diện bằng giọng nói để chuyển mail tiếng thành e-mail.

Công nghệ giọng nói sẽ dừng lại ở bất kỳ nơi nào giọng nói có thể được sử dụng. Máy móc sẽ tiếp tục cải thiện khả năng nhận diện cách con người nói tự nhiên, thậm chí ngay cả nếu họ có giọng mạnh và công nghệ sẽ tìm ra vô số cách sử dụng mới.

Bích Ngọc

Theo CNet