Home
Giới thiệu
Tài khoản
Đăng nhập
Quên mật khẩu
Đổi mật khẩu
Đăng ký tạo tài khoản
Liệt kê
Công trình khoa học
Bài báo trong nước
Bài báo quốc tế
Sách và giáo trình
Thống kê
Công trình khoa học
Bài báo khoa học
Sách và giáo trình
Giáo sư
Phó giáo sư
Tiến sĩ
Thạc sĩ
Lĩnh vực nghiên cứu
Tìm kiếm
Cá nhân
Nội dung
Góp ý
Hiệu chỉnh lý lịch
Thông tin chung
English
Đề tài NC khoa học
Bài báo, báo cáo khoa học
Hướng dẫn Sau đại học
Sách và giáo trình
Các học phần và môn giảng dạy
Giải thưởng khoa học, Phát minh, sáng chế
Khen thưởng
Thông tin khác
Tài liệu tham khảo
Hiệu chỉnh
Số người truy cập: 109,897,455
Một số phương pháp tính độ tương đồng văn bản dựa trên mô hình vectơ
Tác giả hoặc Nhóm tác giả:
ThS. Hồ Phan Hiếu*; TS. Nguyễn Thị Ngọc Anh; PGS.TS. Võ Trung Hùng
Nơi đăng:
Tạp chí Khoa học Công nghệ ĐHĐN;
S
ố:
Số 11(120).2017-Quyển 1;
Từ->đến trang
: 118;
Năm:
2017
Lĩnh vực:
Tự nhiên;
Loại:
Bài báo khoa học;
Thể loại:
Trong nước
TÓM TẮT
Trong bài báo này chúng tôi trình bày các kết quả nghiên cứu liên quan đến việc biểu diễn văn bản theo mô hình vectơ, sau đó ứng dụng các độ đo để tính khoảng cách giữa hai vectơ để biết được độ tương đồng của hai văn bản và độ tương đồng của văn bản truy vấn so với tập văn bản mẫu. Phương pháp của chúng tôi đề xuất là chuyển các văn bản thành các vectơ. Mỗi phần tử của vectơ là trọng số tương ứng với từ chỉ mục xuất hiện trong văn bản. Việc so sánh mức độ giống nhau của hai văn bản được chuyển về tính khoảng cách giữa hai vectơ qua các độ đo Cosine, Jaccard, Matthanan, Levenshtein. Kết quả cho biết được mức độ giống giữa hai văn bản. Chúng tôi đã phát triển công cụ phục vụ so sánh hai văn bản hoặc một văn bản với một tập n văn bản cho trước. Kết quả đạt được phản ánh đúng mức độ giống nhau của văn bản so với giá trị ước lượng của tập văn bản mẫu.
ABSTRACT
In this paper, we first present the research results related to the representation of text in vector model, then apply some measurements to calculate the distance between two vectors to define the similarity of the two test textual documents and the similarity of the testing text documents versus the sample text dataset. Our proposed method is to convert text-based documents into vectors. Each element of the vector is the weight corresponding to the index text. Comparison of the two texts is shifted to the calculation of the distance between two vectors via the Cosine, Jaccard, Matthanan, Levenshtein measures. Consequently, those results denote the similarity between the two texts. We have developed a tool for comparing two texts or a abitrary document with a given document. The achieved results accurately reflect the similarity of the text versus the estimated value of the sample text set.
© Đại học Đà Nẵng
Địa chỉ: 41 Lê Duẩn Thành phố Đà Nẵng
Điện thoại: (84) 0236 3822 041 ; Email: dhdn@ac.udn.vn