Science curiculum vitae personally - University of Da Nang




	Thông tin chung

	English

	Đề tài NC khoa học
	Bài báo, báo cáo khoa học
	Hướng dẫn Sau đại học
	Sách và giáo trình
	Các học phần và môn giảng dạy
	Giải thưởng khoa học, Phát minh, sáng chế
	Khen thưởng
	Thông tin khác

	Tài liệu tham khảo

	Hiệu chỉnh


Số người truy cập: 109,877,517

Biểu diễn ngữ cảnh trong khai triển chữ viết tắt dùng tiếp cận học máy

Tác giả hoặc Nhóm tác giả: Ninh Khánh Duy, Nguyễn Văn Quý

Nơi đăng: Tạp chí khoa học và công nghệ Đại học Đà Nẵng; Số: 05(114).2017;Từ->đến trang: 31-35;Năm: 2017

Lĩnh vực: Công nghệ thông tin; Loại: Bài báo khoa học; Thể loại: Trong nước

TÓM TẮT

Chuẩn hóa văn bản là bài toán rất cần thiết trong các ứng dụng liên quan đến xử lý ngôn ngữ tự nhiên vì văn bản đầu vào thường chứa nhiều từ không chuẩn như chữ viết tắt, chữ số, và từ ngữ nước ngoài. Bài báo này giải quyết vấn đề chuẩn hóa chữ viết tắt trong văn bản tiếng Việt khi có nhiều lựa chọn để khai triển. Để khử nhập nhằng trong khai triển chữ viết tắt, tiếp cận học máy được sử dụng, trong đó thông tin ngữ cảnh của chữ viết tắt được biểu diễn bởi một trong hai mô hình: Bag-of-words hoặc Doc2vec. Các thử nghiệm với bộ phân lớp Naïve Bayes trên một bộ dữ liệu chữ viết tắt do chúng tôi xây dựng cho thấy tỉ lệ khai triển đúng trung bình của hai mô hình Bag-of-words và Doc2vec lần lượt là 86,0% và 79,7%. Kết quả thực nghiệm cũng cho thấy thông tin ngữ cảnh đóng vai trò quan trọng trong việc lựa chọn khai triển đúng cho một chữ viết tắt.

ABSTRACT

Text normalization is an essential problem in applications involving natural language processing since the input text often contains non-standard words such as abbreviations, numbers, and foreign words. This paper deals with the problem of normalizing abbreviations in Vietnamese text when there are several possible expansions of an abbreviation. To disambiguate the abbreviation expansions, the machine learning approach is used, in which contextual information of abbreviations is represented by either of the two models: Bag-of-words or Doc2vec. Experiments with Naïve Bayes classifier on a dataset of abbreviations collected by us show that the average ratios of expanding correctly for Bag-of-words and Doc2vec are 86.0% and 79.7%, respectively. Experimental results also show that contextual information plays an important role in the correct expansion of an abbreviation.

Địa chỉ: 41 Lê Duẩn Thành phố Đà Nẵng

Điện thoại: (84) 0236 3822 041 ; Email: dhdn@ac.udn.vn