Dữ liệu mở tiếng Việt - giải pháp thúc đẩy hệ sinh thái trí tuệ nhân tạo tại Việt Nam

Minh Đức

Hội thảo “Xây dựng bộ dữ liệu mở cho tiếng Việt phục vụ nghiên cứu và ứng dụng trí tuệ nhân tạo” do Tập đoàn Meta, Trung tâm Đổi mới sáng tạo Quốc gia (NIC) và Tổ chức AI for Vietnam cùng phối hợp tổ chức chiều ngày 2/10.

Toàn cảnh Hội thảo “Xây dựng bộ dữ liệu mở cho tiếng Việt phục vụ nghiên cứu và ứng dụng trí tuệ nhân tạo”.
Toàn cảnh Hội thảo “Xây dựng bộ dữ liệu mở cho tiếng Việt phục vụ nghiên cứu và ứng dụng trí tuệ nhân tạo”.

Tại Hội thảo, Tập đoàn Meta, Trung tâm Đổi mới sáng tạo Quốc gia (NIC) và Tổ chức AI for Vietnam cùng công bố các kết quả nổi bật từ dự án xây dựng bộ dữ liệu mở cho tiếng Việt - ViGen. Sáng kiến này nhằm thúc đẩy nghiên cứu và phát triển trí tuệ nhân tạo thông qua việc cung cấp bộ dữ liệu mở tiếng Việt với chất lượng cao cho cộng đồng trí tuệ nhân tạo tại Việt Nam.

Việc ra mắt phiên bản thử nghiệm đầu tiên của nền tảng ViGen trực tiếp hỗ trợ Chiến lược quốc gia về nghiên cứu, phát triển và ứng dụng trí tuệ nhân tạo đến năm 2030, cũng như góp phần quan trọng trong việc phát triển các mô hình ngôn ngữ lớn tiếng Việt - được xác định là sản phẩm công nghệ chiến lược theo Quyết định số 1131/QĐ-TTg của Thủ tướng Chính phủ. Dự án sẽ góp phần định vị AI là động lực then chốt cho tăng trưởng kinh tế và chuyển đổi số.

Theo đánh giá của các bên, thông qua việc phát triển các bộ dữ liệu mở tiếng Việt, quy mô lớn và chất lượng cao phục vụ huấn luyện và đánh giá AI, Dự án ViGen bảo đảm sự phát triển AI tại Việt Nam phù hợp với giá trị văn hóa, chuẩn mực đạo đức. Đây cũng là giải pháp xây dựng một hệ sinh thái AI mở một cách có trách nhiệm và gắn với bối cảnh địa phương.

Cụ thể hơn, trong giai đoạn đầu tiên (đến tháng 10/2025), dự án ViGen đạt các kết quả đột phá. Bao gồm việc ra mắt phiên bản Vi-Primer 1.0, bộ dữ liệu mở tiền huấn luyện (pre-training) tiếng Việt lớn nhất từ trước đến nay; giới thiệu bộ 5 Khung đánh giá được thiết kế chuyên sâu để đo lường và đánh giá toàn diện năng lực của các mô hình AI tiếng Việt, với 4.020 mẫu đánh giá được xây dựng công phu, các bộ tiêu chuẩn này kiểm tra AI trên nhiều phương diện (từ kiến thức chuyên sâu, khả năng lập trình, tư duy logic, cho đến sự an toàn, mức độ am hiểu văn hóa và các sắc thái ngôn ngữ đặc trưng của người Việt).

Dự án cũng chính thức ra mắt nền tảng ViGen phiên bản thử nghiệm. Đây là một không gian hợp tác mở, nơi người dùng (được xác thực qua ứng dụng định danh điện tử - VNeID) có thể trực tiếp đóng góp dữ liệu, sử dụng tài nguyên để huấn luyện mô hình, cũng như kiểm tra và đánh giá chất lượng AI. Nền tảng tích hợp cơ chế thi đua và khen thưởng để theo dõi và vinh danh những người đóng góp hàng đầu, qua đó thúc đẩy việc xây dựng kho dữ liệu Việt vì người Việt, cho người Việt một cách trực quan.

Ông Philip Chua - Giám đốc Chính sách Công và Sản phẩm, Khu vực Châu Á - Thái Bình Dương, Tập đoàn Meta, nhấn mạnh: “Việc ra mắt phiên bản thử nghiệm của nền tảng ViGen là một cột mốc quan trọng của dự án và tiếp nối cam kết đồng hành cùng hệ sinh thái AI của Việt Nam của Meta. Nền tảng này thể hiện niềm tin của chúng tôi rằng AI mã nguồn mở có thể mở rộng khả năng tiếp cận công nghệ tiên tiến, giúp các nhà phát triển, nhà nghiên cứu và doanh nghiệp Việt Nam xây dựng các giải pháp AI thực sự am hiểu bối cảnh địa phương và phục vụ cộng đồng.

Bằng cách cung cấp dữ liệu và công cụ tiếng Việt mã nguồn mở chất lượng cao, chúng tôi không chỉ chuyển giao công nghệ mà còn tạo động lực để Việt Nam trở thành một cường quốc AI trên toàn cầu, với những giải pháp phản ánh văn hóa và giá trị Việt Nam.”

Ông Võ Xuân Hoài - Phó Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia, cho rằng: “Nền tảng ViGen thể hiện rõ vai trò của các quan hệ đối tác công - tư trong việc đẩy nhanh việc triển khai các mục tiêu của Nghị quyết số 57-NQ/TW của Bộ Chính trị về đột phá phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia.

Cách tiếp cận mở của dự án ViGen bảo đảm AI mang lại lợi ích cho tất cả người dân Việt Nam, từ các công ty khởi nghiệp, doanh nghiệp vừa và nhỏ, tập đoàn công nghệ đến các trường đại học, viện nghiên cứu và cơ quan Nhà nước, đồng thời vẫn giữ vững giá trị văn hóa và chuẩn mực đạo đức. Chúng ta đang xây dựng không chỉ công nghệ, mà còn một nền tảng cho tăng trưởng kinh tế bền vững và toàn diện dựa trên AI.”

Ông Trần Việt Hùng - Nhà sáng lập & CEO, Tổ chức AI for Vietnam, chia sẻ: “Thông qua việc mở rộng khả năng tiếp cận bộ dữ liệu tiếng Việt chất lượng cao cho toàn cộng đồng, chúng tôi đang giải quyết thực trạng tiếng Việt lâu nay ít được hiện diện trong các hệ thống AI hiện nay. Nền tảng này sẽ tạo điều kiện cho các nhà nghiên cứu, nhà phát triển và các đơn vị đổi mới sáng tạo trên khắp Việt Nam hợp tác, đóng góp và xây dựng các giải pháp AI ‘Made in Vietnam’ nhưng có khả năng phục vụ thị trường toàn cầu.”

Song song với Dự án ViGen, Meta cũng khởi động nhiều chương trình hỗ trợ ứng dụng AI tại Việt Nam, bao gồm: Chương trình tăng tốc khởi nghiệp, quỹ Llama Grants, các hội thảo dành riêng cho doanh nghiệp vừa và nhỏ, cùng chương trình phổ cập kiến thức AI trong cộng đồng. Meta cũng hỗ trợ hạ tầng tính toán và đào tạo nhân lực - yếu tố then chốt để mở rộng quy mô ứng dụng AI trên toàn quốc.

Hướng tới giai đoạn 2026-2027, Dự án ViGen triển khai theo một lộ trình ba năm toàn diện. Trong năm 2026, dự án sẽ phát triển các bộ dữ liệu tinh chỉnh, xây dựng các công cụ hỗ trợ lập trình viên trong việc phát triển ứng dụng AI, mở rộng lên mười bộ khung đánh giá và tổ chức các cuộc thi hackathon cấp quốc gia. Đến năm 2027, dự án sẽ cập nhật các bộ dữ liệu và phát triển các công cụ nâng cao nhằm phục vụ ứng dụng AI trong doanh nghiệp.

Trong tương lai, dự án ViGen sẽ tiếp tục triển khai các hoạt động liên quan đến AI, bao gồm giới thiệu bộ công cụ toàn diện dành cho doanh nghiệp, cùng các chương trình, khóa đào tạo và hội thảo chuyên đề nhằm thúc đẩy tích hợp AI vào hoạt động của các tổ chức và doanh nghiệp Việt Nam.