- Tổng quan về tình
hình nghiên cứu xử lý TV và DTTS hiện nay
- Nghiên cứu và
đề xuất giải pháp tập hợp các công trình và tài liệu xử lý tiếng Việt
và tiếng dân tộc thiểu số.
- Xây
dựng được một môi trường quản lý và khai thác tài nguyên xử lý tiếng Việt
và tiếng dân tộc thiểu số. Website quản lý và khai thác
tài nguyên xử lý tiếng Việt và tiếng dân tộc thiểu số. Phần làm việc của hệ thống gồm hai phần: Phần trích xuất dữ liệu (1),
phần giao diện tìm kiếm (2)
Phần (1): là phần trích xuất dữ liệu, phần này chạy crawler để trích xuất
dữ liệu. Quá trình cụ thể như sau:Crawler sẽ đọc các thông tin trên các website về xử lý
ngôn ngữ tiếng Việt: http://viet.jnlp.org/, http://vietlp.org, http://vietlex.com,... ,... với
độ sâu tùy chọn. Crawler quét tất cả liên kết có trong trang web theo địa chỉ
đã cung cấp. Sau đó tiến hành trích xuất tài liệu trên các
liên kết nguồn tài nguyên và các từ khóa dò tìm đã cung cấp, duy nhất người
quản trị website có quyền sử dụng chức năng này. Sau khi sử dụng chức năng dò tìm, kết quả sẽ
hiển thị các liên kết có chứa từ khóa cần dò tìm và các tài liệu là các file
*.zip, *.doc, *.pdf , *.ppt sẽ được hiển thị trong giao diện kết quả trích
xuất, và người quản trị có thể download các tài liệu được tìm thấy và hiển thị
trong kết quả. Phần (2) là phần hiển thị, người dùng có thể
đăng nhập để upload tài liệu lên hệ thống theo từng chủ đề. Mỗi tài liệu được
upload lên hệ thống có giới hạn về dung lượng. Sau khi tài liệu được upload lên hệ thống, tài
liệu được phân loại và tổ chức theo cây thư mục. Đồng thời người dùng có quyền đăng nhập để tìm kiếm
và download các tài liệu của hệ thống. Ngoài ra, người dùng có thể đặt các câu hỏi liên
quan đến các chủ đề trong hệ thống. Các câu hỏi này được đăng tải bởi người
dùng đã đăng ký tài khoản và đăng nhập thành công vào hệ thống. Mỗi câu hỏi bao
gồm Chủ đề, Nội dung được nhập vào.
|