Thông tin chung

  English

  Đề tài NC khoa học
  Bài báo, báo cáo khoa học
  Hướng dẫn Sau đại học
  Sách và giáo trình
  Các học phần và môn giảng dạy
  Giải thưởng khoa học, Phát minh, sáng chế
  Khen thưởng
  Thông tin khác

  Tài liệu tham khảo

  Hiệu chỉnh

 
Số người truy cập: 106,986,346

 Biểu diễn ngữ cảnh trong khai triển chữ viết tắt dùng tiếp cận học máy
Tác giả hoặc Nhóm tác giả: Ninh Khánh Duy, Nguyễn Văn Quý
Nơi đăng: Tạp chí khoa học và công nghệ Đại học Đà Nẵng; Số: 05(114).2017;Từ->đến trang: 31-35;Năm: 2017
Lĩnh vực: Công nghệ thông tin; Loại: Bài báo khoa học; Thể loại: Trong nước
TÓM TẮT
Chuẩn hóa văn bản là bài toán rất cần thiết trong các ứng dụng liên quan đến xử lý ngôn ngữ tự nhiên vì văn bản đầu vào thường chứa nhiều từ không chuẩn như chữ viết tắt, chữ số, và từ ngữ nước ngoài. Bài báo này giải quyết vấn đề chuẩn hóa chữ viết tắt trong văn bản tiếng Việt khi có nhiều lựa chọn để khai triển. Để khử nhập nhằng trong khai triển chữ viết tắt, tiếp cận học máy được sử dụng, trong đó thông tin ngữ cảnh của chữ viết tắt được biểu diễn bởi một trong hai mô hình: Bag-of-words hoặc Doc2vec. Các thử nghiệm với bộ phân lớp Naïve Bayes trên một bộ dữ liệu chữ viết tắt do chúng tôi xây dựng cho thấy tỉ lệ khai triển đúng trung bình của hai mô hình Bag-of-words và Doc2vec lần lượt là 86,0% và 79,7%. Kết quả thực nghiệm cũng cho thấy thông tin ngữ cảnh đóng vai trò quan trọng trong việc lựa chọn khai triển đúng cho một chữ viết tắt.
ABSTRACT
Text normalization is an essential problem in applications involving natural language processing since the input text often contains non-standard words such as abbreviations, numbers, and foreign words. This paper deals with the problem of normalizing abbreviations in Vietnamese text when there are several possible expansions of an abbreviation. To disambiguate the abbreviation expansions, the machine learning approach is used, in which contextual information of abbreviations is represented by either of the two models: Bag-of-words or Doc2vec. Experiments with Naïve Bayes classifier on a dataset of abbreviations collected by us show that the average ratios of expanding correctly for Bag-of-words and Doc2vec are 86.0% and 79.7%, respectively. Experimental results also show that contextual information plays an important role in the correct expansion of an abbreviation.
© Đại học Đà Nẵng
 
 
Địa chỉ: 41 Lê Duẩn Thành phố Đà Nẵng
Điện thoại: (84) 0236 3822 041 ; Email: dhdn@ac.udn.vn