Home
Giới thiệu
Tài khoản
Đăng nhập
Quên mật khẩu
Đổi mật khẩu
Đăng ký tạo tài khoản
Liệt kê
Công trình khoa học
Bài báo trong nước
Bài báo quốc tế
Sách và giáo trình
Thống kê
Công trình khoa học
Bài báo khoa học
Sách và giáo trình
Giáo sư
Phó giáo sư
Tiến sĩ
Thạc sĩ
Lĩnh vực nghiên cứu
Tìm kiếm
Cá nhân
Nội dung
Góp ý
Hiệu chỉnh lý lịch
Thông tin chung
English
Đề tài NC khoa học
Bài báo, báo cáo khoa học
Hướng dẫn Sau đại học
Sách và giáo trình
Các học phần và môn giảng dạy
Giải thưởng khoa học, Phát minh, sáng chế
Khen thưởng
Thông tin khác
Tài liệu tham khảo
Hiệu chỉnh
Số người truy cập: 107,082,299
A Comparison of several Deep Learning based Models for Diacritic Restoration Problem in Vietnamese Text
Tác giả hoặc Nhóm tác giả:
Quang Linh Tran, Van Binh Duong, Gia Huy Lam, Trong Hop Do and Dat Vuong
Nơi đăng:
Conference on Information Technology and Its Applications 2021;
S
ố:
2021;
Từ->đến trang
: 0-0;
Năm:
2021
Lĩnh vực:
Khoa học công nghệ;
Loại:
Bài báo khoa học;
Thể loại:
Trong nước
TÓM TẮT
ABSTRACT
Diacritic restoration is a challenging problem in natural language processing (NLP). With diacritic restoration, one can text faster
and easier. Diacritic restoration is also helpful in making use of diacriticmissing texts, which are normally discarded in many NLP applications.
This paper deals with the diacritic restoration problem for Vietnamese
text. Three state-of-the-art deep learning models including Gated Recurrent Unit, Bidirectional Long-short Term Memory and Bidirectional
Gated Recurrent Unit have been examined for the problem and the
last one turned out to be the best among them. Besides deep learning
models, it was found in this paper that word tokenization, which is the
final pre-processing step applied on the data before feeding it to deep
learning models also have influences on the final accuracy. Between two
examined word tokenization methods: morpheme-based tokenization and
phrase-based tokenization, the former yield better results regardless of
the applied deep learning models. The experimental results show that
the combination of morpheme-based tokenization and Bidirectional-GRU
achieve the best performance of diacritic restoration with the Bleu-score
of 88.06%.
© Đại học Đà Nẵng
Địa chỉ: 41 Lê Duẩn Thành phố Đà Nẵng
Điện thoại: (84) 0236 3822 041 ; Email: dhdn@ac.udn.vn