Home
Giới thiệu
Tài khoản
Đăng nhập
Quên mật khẩu
Đổi mật khẩu
Đăng ký tạo tài khoản
Liệt kê
Công trình khoa học
Bài báo trong nước
Bài báo quốc tế
Sách và giáo trình
Thống kê
Công trình khoa học
Bài báo khoa học
Sách và giáo trình
Giáo sư
Phó giáo sư
Tiến sĩ
Thạc sĩ
Lĩnh vực nghiên cứu
Tìm kiếm
Cá nhân
Nội dung
Góp ý
Hiệu chỉnh lý lịch
Thông tin chung
English
Đề tài NC khoa học
Bài báo, báo cáo khoa học
Hướng dẫn Sau đại học
Sách và giáo trình
Các học phần và môn giảng dạy
Giải thưởng khoa học, Phát minh, sáng chế
Khen thưởng
Thông tin khác
Tài liệu tham khảo
Hiệu chỉnh
Số người truy cập: 112,298,152
Giải pháp xây dựng kho ngữ liệu đa ngữ Việt-Ê Đê gán nhãn theo ngữ cảnh
unfaithful spouse
developerstalk.com
i dreamed my husband cheated on me
abortion stories gone wrong
read
teenage abortion facts
Tác giả hoặc Nhóm tác giả:
Hoàng Thị Mỹ Lệ, Phan Huy Khánh
Nơi đăng:
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG;
S
ố:
1 [74];
Từ->đến trang
: 38-41;
Năm:
2014
Lĩnh vực:
Công nghệ thông tin;
Loại:
Bài báo khoa học;
Thể loại:
Trong nước
TÓM TẮT
Trong lĩnh vực xử lý ngôn ngữ tự nhiên (XLNNTN), kho ngữ liệu đa ngữ là một tài nguyên rất cần thiết. Chất lượng của kho ngữ liệu đa ngữ đóng vai trò quyết định đến chất lượng đầu ra của hệ dịch. Hệ dịch sẽ không cho kết quả tốt nêu kho ngữ liệu đa ngữ sử dụng trong quá trình huấn luyện có chất lượng không tốt cho dù được áp dụng các phương pháp học máy tiên tiến nhất. Hiện nay chưa có một kho ngữ liệu song ngữ Việt - Ê Đê với phông chữ Unicode nào đã được công bố chính thức và cho phép cộng đồng nghiên cứu có thể chia sẽ sử dụng để nghiên cứu. Từ đó, bài báo đã đề xuất giải pháp xây dựng kho ngữ liệu đa ngữ Việt - Ê Đê với phông chữ Unicode có xử lý nhập nhằng và từ đa ngữ nghĩa, bằng cách gán nhãn theo từng ngữ cảnh thuộc lĩnh vực giáo dục như giáo dục về chăn nuôi, trồng trọt, bảo vệ rừng, chăm sóc sức khoẻ, v.v… cho các đồng bào các dân tộc thiểu số Việt Nam.
ABSTRACT
In the natural language processing (NLP), the multilingual corpus is an necessary resource. The quality of multilingual corpus plays a decisive role to the quality of the output of the translation system. Translation system will not take good output, if the multilingual corpus in the training process is not good quality, although system is applied the most advanced learn machine methods. Currently, there is not a multilingual corpus Vietnam - Ede with Unicode fonts that have been officially announced and allow the research community can share used for research purposes. From that, the paper proposes a solution developing a tool to build a multilingual corpus Vietnam - Ede with Unicode font, in which can process ambiguity and multiple meaning words by each word will be labeled with the context in the education field such as educating about animal husbandry, cultivation forest protection, health care, etc. ... for the ethnic minority (EM) in Vietnam.
© Đại học Đà Nẵng
Địa chỉ: 41 Lê Duẩn Thành phố Đà Nẵng
Điện thoại: (84) 0236 3822 041 ; Email: dhdn@ac.udn.vn