Thông tin chung

  English

  Đề tài NC khoa học
  Bài báo, báo cáo khoa học
  Hướng dẫn Sau đại học
  Sách và giáo trình
  Các học phần và môn giảng dạy
  Giải thưởng khoa học, Phát minh, sáng chế
  Khen thưởng
  Thông tin khác

  Tài liệu tham khảo

  Hiệu chỉnh

 
Số người truy cập: 106,036,813

 Chuẩn hóa văn bản tiếng Việt dựa trên bộ quy tắc
Tác giả hoặc Nhóm tác giả: Ninh Khánh Chi, Ninh Khánh Duy
Nơi đăng: Kỷ yếu Hội thảo Khoa học Quốc gia CITA 2017 - Công nghệ thông tin và Ứng dụng trong các lĩnh vực; Số: 2017;Từ->đến trang: 132-138;Năm: 2017
Lĩnh vực: Công nghệ thông tin; Loại: Báo cáo; Thể loại: Trong nước
TÓM TẮT
Chuẩn hóa văn bản là một bước quan trọng trong các hệ thống xử lý ngôn ngữ tự nhiên và tiếng nói, đặc biệt là trong ứng dụng chuyển văn bản thành tiếng nói. Văn bản tiếng Việt nói chung thường chứa những từ chưa được chuẩn hoá như chữ số, chữ viết tắt và từ ngữ nước ngoài. Để chuẩn hóa văn bản, chúng ta cần phải chuyển tất cả các từ chưa được chuẩn hoá thành dạng chuẩn là ngôn ngữ tự nhiên. Bài báo tập trung trình bày giải pháp thiết kế bộ phân lớp ký hiệu, thành phần đóng vai trò quyết định độ chính xác của việc chuẩn hóa. Khác với các nghiên cứu trước sử dụng tiếp cận hướng dữ liệu, bài báo này đề xuất giải pháp phân lớp ký hiệu sử dụng bộ quy tắc dựa trên kinh nghiệm ngôn ngữ do chúng tôi tự thiết kế. Kết quả thực nghiệm cho thấy giải pháp chúng tôi đề xuất mặc dù đơn giản nhưng vẫn có thể phân lớp các từ chưa được chuẩn hóa trong văn bản tiếng Việt với độ chính xác trên 90% cho 19 trên tổng số 24 lớp ký hiệu.
ABSTRACT
© Đại học Đà Nẵng
 
 
Địa chỉ: 41 Lê Duẩn Thành phố Đà Nẵng
Điện thoại: (84) 0236 3822 041 ; Email: dhdn@ac.udn.vn