1.
Mục tiêu:
Mục tiêu chung của đề tài
là nghiên cứu quy trình khai thác dữ liệu dùng trong lĩnh vực dịch tự động và từ
đó xây dựng một hệ thống hoàn chỉnh hỗ trợ để :
tạo và khai thác nguồn dữ liệu dịch
chất lượng tốt dùng để xây dựng, cải tiến và đánh giá các hệ thống dich tự động.
tổ chức và quản lý các dự án thu
thập, chỉnh sửa và đánh giá nguồn tài nguyên đa ngữ.
Nội dung
chính:
Nghiên cứu các phương pháp và kỹ
thuật thu thập dữ liệu đa ngữ có chất lượng tốt từ các nguồn tài nguyên đa ngữ
(Website, corpora, ..).
Nghiên cứu các phương pháp hỗ trợ cải
tiến và quản lý dữ liệu dịch.
Xây dựng thành công một hệ thống hỗ
trợ khai thác dữ liệu dịch
Kết quả đạt
được (khoa học, ứng dụng, đào tạo, kinh tế - xã hội):
Kết quả đạt được đã áp dụng
đúng các nội dung trong thuyết minh, cụ thể như sau:
Hướng dẫn 01 học viên cao học bảo
vệ thành công.
Đang hướng dẫn 01 nghiên cứu sinh.
Đã công bố 03 bài báo (02 bài báo
đã báo cáo tại Hội thảo khoa học Quốc gia (Fair), 01 bài báo đã được chấp nhận
tại hội thảo Quốc tế iiWAS 2011-đăng tại tạp chí ACM, tổ chức tại HCM, Việt Nam
Đã thu được gần 40 000 cặp câu đa
ngữ chất lượng tốt.
Đã xây dựng được hệ thống hỗ trợ
khai thác dữ liệu dịch tự động: thu thập, quản lý, hiệu chỉnh, đánh giá, hiển
thị dữ liệu dịch.
· Hướng dẫn 01 học viên cao học bảo vệ thành công.
· Đang hướng dẫn 01 nghiên cứu sinh.
· Đã công bố 01 bài báo tại hội thảo Quốc tế iiWAS 2011-đăng tại tạp chí ACM, tổ chức tại HCM, Việt Nam
· Đã thu được gần 40 000 cặp câu đa ngữ chất lượng tốt.
· Đã xây dựng được hệ thống hỗ trợ khai thác dữ liệu dịch tự động: thu thập, quản lý, hiệu chỉnh, đánh giá, hiển thị dữ liệu dịch.
|