Thông tin chung

  English

  Đề tài NC khoa học
  Bài báo, báo cáo khoa học
  Hướng dẫn Sau đại học
  Sách và giáo trình
  Các học phần và môn giảng dạy
  Giải thưởng khoa học, Phát minh, sáng chế
  Khen thưởng
  Thông tin khác

  Tài liệu tham khảo

  Hiệu chỉnh

 
Số người truy cập: 109,415,477

 Building a Syllable Database to Solve the Problem of Khmer Word Segmentation
Tác giả hoặc Nhóm tác giả: Trần Văn Nam, Nguyễn Thị Huệ and Phan Huy Khánh
Nơi đăng: International Journal on Natural Language Computing (IJNLC); Số: Vol. 6, No.1, February 2017;Từ->đến trang: 1-12;Năm: 2017
Lĩnh vực: Công nghệ thông tin; Loại: Bài báo khoa học; Thể loại: Quốc tế
TÓM TẮT
Tách từ là bài toán cơ sở trong xử lý ngôn ngữ tự nhiên. Với những ngôn ngữ có chính tả phức tạp như tiếng Khmer ở Nam Bộ, Việt Nam, bài toán này thực sự khó giải quyết, đặt ra những thách thức không nhỏ. Tuy đã có một số ít chuyên gia ở trong và ngoài nước nghiên cứu, giải quyết bài toán này, nhưng đến nay vẫn chưa có kết quả nào đáp ứng được nhu cầu, chưa xử lý triệt để hiện tượng nhập nhằng, trong tiến trình xử lý tiếng Khmer. Bài báo đề xuất giải pháp tách từ dựa trên so khớp âm tiết, từ đó xây dựng kho ngữ liệu âm tiết Khmer, hiện chưa có trên thực tế. Đầu vào là một kho từ vựng được cập nhật từ các từ điển Khmer trực tuyến cùng với các kho ngữ liệu phục vụ đóng vai trò huấn luyện và bổ trợ đặc trưng. Mỗi mục từ đầu vào được phân tách thành các cụm âm tiết sử dụng mô hình gán nhãn vị trí dựa trên đặc trưng của ký tự đầu và cuối của mỗi cụm âm tiết. Hướng tiếp cận hoàn toàn khả thi và có kết quả thử nghiệm đạt độ chính xác cao, loại bỏ được nhập nhằng, góp phần giải quyết bài toán tách từ ứng dụng hiệu quả trong xử lý tiếng Khmer.
ABSTRACT
Word segmentation is a basic problem in natural language processing. With the languages having the complex writing system like the Khmer language in Southern of Vietnam, this problem really very intractable, posing the significant challenges. Although there are some experts in Vietnam as well as international having deeply researched this problem, there are still no reasonable results meeting the demand, in particular, no treated thoroughly the ambiguous phenomenon, in the process of Khmer language processing so far. This paper present a solution based on the syllable division into component clusters using two syllable models proposed, thereby building a Khmer syllable database, is still not actually available. This method using a lexical database updated from the online Khmer dictionaries and some supported dictionaries serving role of training data and complementary linguistic characteristics. Each component cluster is labelled and located by the first and last letter to identify entirety a syllable. This approach is workable and the test results achieve high accuracy, eliminate the ambiguity, contribute to solving the problem of word segmentation and applying efficiency in Khmer language processing.
© Đại học Đà Nẵng
 
 
Địa chỉ: 41 Lê Duẩn Thành phố Đà Nẵng
Điện thoại: (84) 0236 3822 041 ; Email: dhdn@ac.udn.vn