Công trình nghiên cứu của Zalo AI với đề tài: “Improving Streaming Speech Recognition With Time-Shifted Contextual Attention And Dynamic Right Context Masking” (Tạm dịch: Cải thiện nhận dạng tiếng nói thời gian thực bằng cơ chế chú ý dịch chuyển theo thời gian và mặt nạ ngữ cảnh tương lai động), được thực hiện bởi kỹ sư sinh năm 2000 Lê Duy Khánh đến từ Zalo AI dưới sự hướng dẫn của TS. Châu Thành Đức - Trưởng bộ phận Nghiên cứu và phát triển tại Zalo AI, Giảng viên trường ĐH Khoa học tự nhiên, ĐH Quốc gia TP.HCM.
Nghiên cứu này có đóng góp quan trọng giúp nâng cấp các mô hình nhận dạng tiếng nói và tăng độ chính xác của tính năng soạn tin nhắn bằng giọng nói (dictation) và tính năng chuyển tin nhắn thoại thành văn bản (voice-to-text) trên ứng dụng Zalo.
Nghiên cứu xuất phát từ nhu cầu thực tiễn
Hiện nay, hầu hết các thuật toán nhận dạng tiếng nói thời gian thực (streaming ASR) gặp khó khăn với việc thiếu ngữ cảnh (context), dẫn đến chất lượng nhận dạng không được tối ưu. Mặc dù việc bổ sung ngữ cảnh có thể cải thiện độ chính xác, nhưng thường đi kèm với việc tăng độ trễ (latency) trong quá trình chuyển giọng nói thành văn bản. Nghiên cứu của Zalo AI hướng đến việc cung cấp nhiều ngữ cảnh hơn cho mô hình nhận dạng tiếng nói, tượng tự như việc “nhìn trước” tương lai, từ đó nâng cao đáng kể độ chính xác mà không làm gia tăng độ trễ, khác biệt so với các nghiên cứu trước đây.
Đại diện Zalo AI cho hay nghiên cứu này đã được Zalo tích hợp vào ứng dụng nhắn tin của mình từ cuối năm 2023, mang lại sự cải thiện đáng kể về độ chính xác cho tính năng “soạn tin nhắn bằng giọng nói” (voice dictation) đang trong giai đoạn thử nghiệm. Tính năng này cho phép người dùng soạn tin nhắn bằng giọng nói, thay vì phải gõ tay, giúp tiết kiệm thời gian và tiện lợi hơn trong nhiều tình huống sử dụng.
Sau khi áp dụng các cải tiến từ nghiên cứu, độ chính xác của tính năng này đã đạt tới 95% trong môi trường thực tế, với tỷ lệ cần chỉnh sửa lại văn bản sau khi soạn bằng giọng nói cũng giảm từ 6,4% xuống chỉ còn 4,8%. Theo thống kê của Zalo, mặc dù tính năng vẫn đang trong giai đoạn thử nghiệm, nhưng đã tạo ra gần 4,5 triệu tin nhắn mỗi ngày và thu hút khoảng 3,2 triệu người dùng hàng tháng (dữ liệu cập nhật đến tháng 6/2024).
Ngoài việc cải thiện tính năng hiện có, đề tài nghiên cứu này còn có tiềm năng ứng dụng rộng rãi để nâng cấp nhiều sản phẩm và dịch vụ khác, bao gồm chatbot giọng nói, trợ lý giọng nói, hoặc tính năng tự động tạo bản ghi (transcript) cho các cuộc gọi video...
Việc các đề tài nghiên cứu của kỹ sư Việt Nam được quốc tế công nhận là một tín hiệu tích cực, phản ánh sự phát triển đáng ghi nhận, thu hẹp khoảng cách của cộng đồng AI Việt Nam và thế giới. TS. Châu Thành Đức, Trưởng bộ phận Nghiên cứu và Phát triển tại Zalo AI và đồng tác giả của công trình nghiên cứu lần này, chia sẻ: “Việc tổng hợp các nghiên cứu có giá trị thực tiễn cao của Zalo AI thành bài báo khoa học và giới thiệu tại các hội nghị quốc tế uy tín là rất có ý nghĩa. Những bài báo khoa học không chỉ chứng minh năng lực của kỹ sư Việt Nam, mà còn thể hiện mong muốn chia sẻ kinh nghiệm và đóng góp vào sự phát triển của cộng đồng AI toàn cầu.”
Đây không phải là lần đầu tiên các kỹ sư Zalo AI có bài báo khoa học được công nhận cấp quốc tế. Vào năm 2021, hai đề tài nghiên cứu khác của nhóm kỹ sư Zalo AI liên quan đến công nghệ xử lý tiếng nói cũng đã được công nhận tại Hội nghị Châu Á - Thái Bình Dương về Trí tuệ Nhân tạo Quốc tế (PRICAI 2021). Đáng chú ý, các tác giả của hai đề tài này đều là những nhà nghiên cứu trẻ, với độ tuổi chưa đến 30.
Thành công từ định hướng “trao quyền” cho nhân sự trẻ
Điểm đặc biệt của công trình nghiên cứu lần này là được thực hiện bởi một kỹ sư trẻ tuổi sinh năm 2000, chưa tròn 25 tuổi. Kỹ sư của Zalo AI đã dành tổng cộng 9 tháng để nghiên cứu, viết bài báo khoa học và ứng dụng vào thực tiễn.
Để hoàn thành đề tài, chàng kỹ sư trẻ đã phải đối mặt với nhiều thách thức, vì huấn luyện mô hình nhận dạng tiếng nói đòi hỏi cấu hình phần cứng mạnh, đồng thời dữ liệu thoại là dữ liệu khó do người dùng nói nhanh, không rõ chữ, và thường trong môi trường thực tế nhiều tiếng ồn. Thông thường tỷ lệ thành công của các thí nghiệm chỉ khoảng 10% - nghĩa là trong 10 thí nghiệm chỉ có 1 thí nghiệm đạt được mục tiêu đề ra.
Được đánh giá cao cả về tính học thuật lẫn thực tiễn, bài nghiên cứu của Zalo AI đã vượt qua vòng xét duyệt khắt khe và sẽ được trình bày tại Hội nghị Interspeech dưới hình thức thuyết trình (oral session). Mỗi năm, Interspeech tiếp nhận hàng nghìn bài báo từ nhiều khía cạnh của lĩnh vực Xử lý tiếng nói. Để được giới thiệu dưới hình thức thuyết trình (oral session) thay vì treo poster (poster session), báo cáo của kỹ sư sinh năm 2000 đã phải vượt qua vòng xét duyệt với hơn 2.000 bài báo tham dự và đạt điểm số gần như tuyệt đối, 11/12 điểm.
Lần đầu tiên có bài báo khoa học được công nhận bởi hội nghị quốc tế, Lê Duy Khánh chia sẻ: “Tôi rất tự hào khi bài báo khoa học đầu tay được công nhận bởi hội nghị khoa học uy tín và có cơ hội giới thiệu thành quả nghiên cứu của Việt Nam đến các big-tech, chuyên gia và cộng đồng quốc tế.”
Kể từ khi bắt đầu hành trình tiên phong trong nghiên cứu AI vào năm 2017, Zalo luôn tin tưởng vào thế hệ trẻ. Hiện tại, có đến 31% nhân sự Zalo thuộc thế hệ GenZ. Đội ngũ nhân sự trẻ đầy nhiệt huyết và không ngại thử thách này là lực lượng nòng cốt, đảm nhận các vai trò quan trọng làm nên sự thành công của các công nghệ và tính năng AI, với trên 10 triệu người dùng trong hệ sinh thái sản phẩm của Zalo, đại diện Zalo chia sẻ.
Interspeech là một hội thảo quốc tế lâu đời, toàn diện và uy tín hàng đầu về lĩnh vực Xử lý tiếng nói (Speech Processing), do Hiệp hội Giao tiếp tiếng nói Quốc tế (International Speech Communication Association) tổ chức. Đây cũng là một trong số ít các hội thảo quốc tế được xếp hạng A bởi Hiệp hội Máy tính và nghiên cứu giáo dục của Australia (CORE). Năm nay, Interspeech tổ chức lần thứ 25 và sẽ diễn ra từ ngày 1- 5/9 tại đảo Kos (Hy Lạp). Với chủ đề “Speech and beyond” (Tạm dịch: Tiếng nói và hơn thế nữa), hội nghị năm nay sẽ tập trung vào các phương thức tiếp cận đa dạng nhằm giải quyết các vấn đề liên quan đến khoa học và công nghệ về tiếng nói và ngôn ngữ của con người, từ lý thuyết đến ứng dụng thực tiễn.