Tài nguyên xử lý ngôn ngữ tự nhiên (XL NNTN), bao gồm
hai loại chính ở dạng tài nguyên dữ liệu và các công cụ xử lý, đóng vai trò
quan trọng và quyết định lớn đến chất lượng của các hoạt động xử lý ngôn ngữ tự
nhiên. Chất lượng của các hệ thống tìm kiếm, hệ thống dịch tự động, hệ thống
phân tích văn bản… phụ thuộc rất lớn vào chất lượng tài nguyên dữ liệu phục vụ
chúng.
Một nguồn tài nguyên dữ liệu phục vụ xử lý ngôn
ngữ tự nhiên được gọi là chất lượng nếu nó có nội dung dữ liệu tốt, đủ lớn về
kích thước, đa dạng về lĩnh vực và cặp ngôn ngữ. Do đó, ngoài yếu tố chất lượng
của nội dung dữ liệu thì các khía cạnh về độ lớn, đa dạng về lĩnh vực và ngôn
ngữ cũng có vai trò rất quan trọng đối với tài nguyên dữ liệu phục vụ xử lý
ngôn ngữ tự nhiên. Tuy nhiên, vấn đề hiện nay là các nguồn tài nguyên phục
vụ xử lý ngôn ngữ tự nhiên tồn tại một cách rời rạc, dưới các dạng
khác nhau, dẫn đến việc sử dụng và khai thác chúng trở nên rất khó
khăn và không hiệu quả. Do đó, đề tài nhằm nghiên cứu các thuật toán và giải
pháp tối ưu cho phép thu thập, trích rút và hợp nhất các nguồn tài nguyên dữ liệu
đang tồn tại để xây dựng được nguồn tài nguyên lớn phục vụ xử lý ngôn ngữ tự
nhiên. Trên cơ sở đó cài đặt và xây dựng hệ thống cho phép tạo, quản lý nguồn
tài nguyên dữ liệu lớn và đồng nhất phục vụ xử lý ngôn ngữ tự nhiên. |