Thông tin chung

  English

  Đề tài NC khoa học
  Bài báo, báo cáo khoa học
  Hướng dẫn Sau đại học
  Sách và giáo trình
  Các học phần và môn giảng dạy
  Giải thưởng khoa học, Phát minh, sáng chế
  Khen thưởng
  Thông tin khác

  Tài liệu tham khảo

  Hiệu chỉnh

 
Số người truy cập: 107,082,299

 
A Comparison of several Deep Learning based Models for Diacritic Restoration Problem in Vietnamese Text
Tác giả hoặc Nhóm tác giả: Quang Linh Tran, Van Binh Duong, Gia Huy Lam, Trong Hop Do and Dat Vuong
Nơi đăng: Conference on Information Technology and Its Applications 2021; Số: 2021;Từ->đến trang: 0-0;Năm: 2021
Lĩnh vực: Khoa học công nghệ; Loại: Bài báo khoa học; Thể loại: Trong nước
TÓM TẮT
ABSTRACT
Diacritic restoration is a challenging problem in natural language processing (NLP). With diacritic restoration, one can text faster
and easier. Diacritic restoration is also helpful in making use of diacriticmissing texts, which are normally discarded in many NLP applications.
This paper deals with the diacritic restoration problem for Vietnamese
text. Three state-of-the-art deep learning models including Gated Recurrent Unit, Bidirectional Long-short Term Memory and Bidirectional
Gated Recurrent Unit have been examined for the problem and the
last one turned out to be the best among them. Besides deep learning
models, it was found in this paper that word tokenization, which is the
final pre-processing step applied on the data before feeding it to deep
learning models also have influences on the final accuracy. Between two
examined word tokenization methods: morpheme-based tokenization and
phrase-based tokenization, the former yield better results regardless of
the applied deep learning models. The experimental results show that
the combination of morpheme-based tokenization and Bidirectional-GRU
achieve the best performance of diacritic restoration with the Bleu-score
of 88.06%.
© Đại học Đà Nẵng
 
 
Địa chỉ: 41 Lê Duẩn Thành phố Đà Nẵng
Điện thoại: (84) 0236 3822 041 ; Email: dhdn@ac.udn.vn