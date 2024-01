Thách thức khi xây dựng mô hình ngôn ngữ lớn tiếng Việt

Chia sẻ với VietNamNet, ông Nguyễn Tuấn Khang - Giám đốc khối phần mềm IBM Việt Nam cho biết, trên thế giới hiện chỉ có khoảng vài chục mô hình ngôn ngữ lớn (large language model).

Những mô hình ngôn ngữ lớn do nước ngoài phát triển hiện không có dữ liệu của người Việt, do vậy, không hỗ trợ tiếng Việt. Thông thường, các “large model” chỉ trả lời câu hỏi bằng tiếng Anh rồi sau đó tự động dịch ra tiếng Việt. Điều này khiến chất lượng câu trả lời đôi lúc không được mượt do phải xử lý qua một ngôn ngữ trung gian.

Lý giải về số lượng ít ỏi của các mô hình ngôn ngữ lớn, Giám đốc khối phần mềm IBM Việt Nam cho hay, để phát triển một mô hình ngôn ngữ lớn có thể phải tiêu tốn hàng trăm triệu USD, với khoảng vài trăm nghìn USD mỗi ngày.

“Do là cuộc chơi rất tốn kém, các mô hình ngôn ngữ lớn thường được xây dựng bởi những hãng lớn như IBM, Facebook, Google. Thông thường, những hãng lớn sẽ cạnh tranh và dẫn dắt cuộc chơi”, ông Khang chia sẻ.