Science curiculum vitae personally - University of Da Nang




	Thông tin chung

	English

	Đề tài NC khoa học
	Bài báo, báo cáo khoa học
	Hướng dẫn Sau đại học
	Sách và giáo trình
	Các học phần và môn giảng dạy
	Giải thưởng khoa học, Phát minh, sáng chế
	Khen thưởng
	Thông tin khác

	Tài liệu tham khảo

	Hiệu chỉnh


Số người truy cập: 109,415,477

Building a Syllable Database to Solve the Problem of Khmer Word Segmentation

Tác giả hoặc Nhóm tác giả: Trần Văn Nam, Nguyễn Thị Huệ and Phan Huy Khánh

Nơi đăng: International Journal on Natural Language Computing (IJNLC); Số: Vol. 6, No.1, February 2017;Từ->đến trang: 1-12;Năm: 2017

Lĩnh vực: Công nghệ thông tin; Loại: Bài báo khoa học; Thể loại: Quốc tế

TÓM TẮT

Tách từ là bài toán cơ sở trong xử lý ngôn ngữ tự nhiên. Với những ngôn ngữ có chính tả phức tạp như tiếng Khmer ở Nam Bộ, Việt Nam, bài toán này thực sự khó giải quyết, đặt ra những thách thức không nhỏ. Tuy đã có một số ít chuyên gia ở trong và ngoài nước nghiên cứu, giải quyết bài toán này, nhưng đến nay vẫn chưa có kết quả nào đáp ứng được nhu cầu, chưa xử lý triệt để hiện tượng nhập nhằng, trong tiến trình xử lý tiếng Khmer. Bài báo đề xuất giải pháp tách từ dựa trên so khớp âm tiết, từ đó xây dựng kho ngữ liệu âm tiết Khmer, hiện chưa có trên thực tế. Đầu vào là một kho từ vựng được cập nhật từ các từ điển Khmer trực tuyến cùng với các kho ngữ liệu phục vụ đóng vai trò huấn luyện và bổ trợ đặc trưng. Mỗi mục từ đầu vào được phân tách thành các cụm âm tiết sử dụng mô hình gán nhãn vị trí dựa trên đặc trưng của ký tự đầu và cuối của mỗi cụm âm tiết. Hướng tiếp cận hoàn toàn khả thi và có kết quả thử nghiệm đạt độ chính xác cao, loại bỏ được nhập nhằng, góp phần giải quyết bài toán tách từ ứng dụng hiệu quả trong xử lý tiếng Khmer.

ABSTRACT

Word segmentation is a basic problem in natural language processing. With the languages having the complex writing system like the Khmer language in Southern of Vietnam, this problem really very intractable, posing the significant challenges. Although there are some experts in Vietnam as well as international having deeply researched this problem, there are still no reasonable results meeting the demand, in particular, no treated thoroughly the ambiguous phenomenon, in the process of Khmer language processing so far. This paper present a solution based on the syllable division into component clusters using two syllable models proposed, thereby building a Khmer syllable database, is still not actually available. This method using a lexical database updated from the online Khmer dictionaries and some supported dictionaries serving role of training data and complementary linguistic characteristics. Each component cluster is labelled and located by the first and last letter to identify entirety a syllable. This approach is workable and the test results achieve high accuracy, eliminate the ambiguity, contribute to solving the problem of word segmentation and applying efficiency in Khmer language processing.

Địa chỉ: 41 Lê Duẩn Thành phố Đà Nẵng

Điện thoại: (84) 0236 3822 041 ; Email: dhdn@ac.udn.vn