Người Việt phát triển mô hình ngôn ngữ lớn tiếng Việt
Cuộc sống số - Ngày đăng : 09:12, 20/01/2024
Sự phát triển của AI tạo sinh và các mô hình ngôn ngữ lớn sẽ đóng vai trò quan trọng trong việc thúc đẩy chuyển đổi số, gia tăng năng suất lao động trong nhiều ngành, lĩnh vực. Các mô hình ngôn ngữ lớn tiếng Việt có thể giúp việc dịch máy, nhận dạng giọng nói, trả lời câu hỏi và tóm tắt văn bản bằng tiếng Việt trở nên chính xác và hiệu quả hơn.
Do vậy, bất chấp những thách thức, khó khăn, nhiều mô hình ngôn ngữ lớn tiếng Việt đang được các doanh nghiệp trong nước phát triển nhằm đón đầu làn sóng công nghệ mới và cũng để phục vụ người dùng Việt Nam.
Tại Ngày Trí tuệ nhân tạo 2023, VinAI đã công bố dự án nghiên cứu mã nguồn mở về mô hình ngôn ngữ lớn tiếng Việt với tên gọi PhởGPT. Dự án hướng đến mục tiêu phát triển các mô hình tương tự như ChatGPT cho tiếng Việt và văn hóa người Việt.
PhởGPT có khả năng hiểu và viết văn phong tiếng Việt. Mô hình cũng được huấn luyện từ đầu với tập dữ liệu tiếng Việt, không phụ thuộc các mô hình khác của thế giới. Không chỉ phục vụ người dùng Việt Nam, đội ngũ nghiên cứu còn muốn cải tiến mô hình và mở rộng sang các ngôn ngữ khác.
Đến cuối tháng 12/2023, Công ty VinBigdata (Tập đoàn Vingroup) đã chính thức đưa vào hoạt động ứng dụng ViGPT. Đây là phiên bản ChatGPT dựa trên mô hình ngôn ngữ lớn tiếng Việt do VinBigdata phát triển.
ViGPT sở hữu hơn 600GB dữ liệu tiếng Việt tinh chỉnh lấy từ nhiều lĩnh vực. Điểm khác biệt và là lợi thế nổi trội của ViGPT so với các ứng dụng khác đã ra mắt là thông tin tập trung vào các lĩnh vực đặc thù của Việt Nam như pháp luật, lịch sử, văn hóa, danh nhân, danh lam thắng cảnh, đặc trưng vùng miền.
Chia sẻ về sự ra đời của ViGPT, GS. Vũ Hà Văn, Giám đốc Khoa học VinBigdata cho biết, việc ra mắt một “ChatGPT phiên bản Việt" đánh dấu khả năng làm chủ công nghệ của Việt Nam.
“Hơn thế nữa, qua việc làm chủ công nghệ, chúng ta có thể tự chủ khai thác, bảo vệ an ninh dữ liệu quốc gia, cùng hệ tri thức, tư tưởng mang bản sắc Việt Nam. Hướng đi này sẽ cho phép chúng ta không chỉ xoá bỏ sự phụ thuộc vào những sản phẩm quốc tế, mà còn có thể dần dần nâng cao tính chính xác của thông tin chứa giá trị lịch sử, văn hoá Việt và giảm thiểu dòng chảy dữ liệu ra nước ngoài”, GS Vũ Hà Văn nói.
Tại diễn đàn trí tuệ nhân tạo thường niên được Zalo AI Summit tổ chức, Zalo cũng đã giới thiệu mô hình ngôn ngữ lớn tiếng Việt do Zalo AI phát triển.
Mô hình ngôn ngữ lớn của Zalo AI dựa theo kiến trúc Transformer, được huấn luyện bằng các kỹ thuật như Flash Attention và Llama với dữ liệu hướng dẫn chất lượng cao. Mô hình của Zalo AI hướng đến mục tiêu xử lý đa tác vụ, như: Dịch văn bản, sáng tạo và viết nội dung, trích xuất thông tin trong văn bản và trả lời câu hỏi... Trước đó, LLM Make in Viet Nam này cũng từng được thử nghiệm để tạo ra hàng triệu bài thơ nhân dịp 8/3 và 20/10.
Hiện Zalo đang phát triển mô hình ngôn ngữ lớn của mình trên nhiều kích cỡ mô hình khác nhau, từ 1 tỷ đến 30 tỷ tham số. Phiên bản chatbot Kiki trình diễn tại Zalo AI Summit được huấn luyện trên mô hình 7 tỷ tham số.
Theo đội ngũ phát triển, trong tương lai, Zalo sẽ tiếp tục cải tiến mô hình ngôn ngữ lớn của mình trước khi ra mắt người dùng và cung cấp nền tảng cho các ứng dụng hữu ích như chatbot, chăm sóc khách hàng, trình sáng tạo nội dung...
Theo Bộ tiêu chuẩn đánh giá năng lực tiếng Việt cho các mô hình ngôn ngữ lớn (VMLU, hợp tác giữa Zalo AI và Viện khoa học Công nghệ Tiên tiến Nhật Bản JAIST), mô hình của Zalo xếp thứ hai chỉ sau GPT-4 trong hầu hết mục đánh giá. Đây là kết quả đáng khích lệ với một mô hình có thời gian huấn luyện không lâu.
Sự xuất hiện của các mô hình ngôn ngữ lớn tiếng Việt cho thấy, người Việt Nam hoàn toàn có thể phát triển các mô hình AI phức tạp. Đồng thời, người Việt cũng đủ năng lực, khả năng để theo kịp, tiến cùng thế giới về công nghệ.
Bài 5: Chuyển đổi số ngành tòa án Việt nhờ trợ lý ảo