Home
Giới thiệu
Tài khoản
Đăng nhập
Quên mật khẩu
Đổi mật khẩu
Đăng ký tạo tài khoản
Liệt kê
Công trình khoa học
Bài báo trong nước
Bài báo quốc tế
Sách và giáo trình
Thống kê
Công trình khoa học
Bài báo khoa học
Sách và giáo trình
Giáo sư
Phó giáo sư
Tiến sĩ
Thạc sĩ
Lĩnh vực nghiên cứu
Tìm kiếm
Cá nhân
Nội dung
Góp ý
Hiệu chỉnh lý lịch
Thông tin chung
English
Đề tài NC khoa học
Bài báo, báo cáo khoa học
Hướng dẫn Sau đại học
Sách và giáo trình
Các học phần và môn giảng dạy
Giải thưởng khoa học, Phát minh, sáng chế
Khen thưởng
Thông tin khác
Tài liệu tham khảo
Hiệu chỉnh
Số người truy cập: 106,046,032
New approach for collecting high quality parallel corpora from multilingual Websites
Tác giả hoặc Nhóm tác giả:
Huỳnh Công Pháp
Nơi đăng:
Proceedings of the 13th International Conference on Information Integration and Web-based Applications & Services;
S
ố:
ACM ISBN: 978-1-4503-0784-0;
Từ->đến trang
: 341-344;
Năm:
2011
Lĩnh vực:
Công nghệ thông tin;
Loại:
Bài báo khoa học;
Thể loại:
Quốc tế
TÓM TẮT
In this paper, we present a new approach for extracting the high quality (HQ) parallel corpora from multilingual resources. The original of our research compared to the previous works is the approach for gaining HQ data using for the Machine Translation domain. Almost previous approaches allowed to quickly acquire raw corpora, but not allow to gain HQ data. Our approach is a semi-automatic process including in a serial of steps that can automatically detect and download good multilingual Websites and parallel web pages to construct parallel corpora whose quality is well validated, revised, and enhanced collaboratively.
ABSTRACT
© Đại học Đà Nẵng
Địa chỉ: 41 Lê Duẩn Thành phố Đà Nẵng
Điện thoại: (84) 0236 3822 041 ; Email: dhdn@ac.udn.vn