Thông tin chung

  English

  Đề tài NC khoa học
  Bài báo, báo cáo khoa học
  Hướng dẫn Sau đại học
  Sách và giáo trình
  Các học phần và môn giảng dạy
  Giải thưởng khoa học, Phát minh, sáng chế
  Khen thưởng
  Thông tin khác

  Tài liệu tham khảo

  Hiệu chỉnh

 
Số người truy cập: 75,104,053

 Một số phương pháp tính độ tương đồng văn bản dựa trên mô hình vectơ
Tác giả hoặc Nhóm tác giả: ThS. Hồ Phan Hiếu*; TS. Nguyễn Thị Ngọc Anh; PGS.TS. Võ Trung Hùng
Nơi đăng: Tạp chí Khoa học Công nghệ ĐHĐN; Số: Số 11(120).2017-Quyển 1;Từ->đến trang: 118;Năm: 2017
Lĩnh vực: Tự nhiên; Loại: Bài báo khoa học; Thể loại: Trong nước
TÓM TẮT
Trong bài báo này chúng tôi trình bày các kết quả nghiên cứu liên quan đến việc biểu diễn văn bản theo mô hình vectơ, sau đó ứng dụng các độ đo để tính khoảng cách giữa hai vectơ để biết được độ tương đồng của hai văn bản và độ tương đồng của văn bản truy vấn so với tập văn bản mẫu. Phương pháp của chúng tôi đề xuất là chuyển các văn bản thành các vectơ. Mỗi phần tử của vectơ là trọng số tương ứng với từ chỉ mục xuất hiện trong văn bản. Việc so sánh mức độ giống nhau của hai văn bản được chuyển về tính khoảng cách giữa hai vectơ qua các độ đo Cosine, Jaccard, Matthanan, Levenshtein. Kết quả cho biết được mức độ giống giữa hai văn bản. Chúng tôi đã phát triển công cụ phục vụ so sánh hai văn bản hoặc một văn bản với một tập n văn bản cho trước. Kết quả đạt được phản ánh đúng mức độ giống nhau của văn bản so với giá trị ước lượng của tập văn bản mẫu.
ABSTRACT
In this paper, we first present the research results related to the representation of text in vector model, then apply some measurements to calculate the distance between two vectors to define the similarity of the two test textual documents and the similarity of the testing text documents versus the sample text dataset. Our proposed method is to convert text-based documents into vectors. Each element of the vector is the weight corresponding to the index text. Comparison of the two texts is shifted to the calculation of the distance between two vectors via the Cosine, Jaccard, Matthanan, Levenshtein measures. Consequently, those results denote the similarity between the two texts. We have developed a tool for comparing two texts or a abitrary document with a given document. The achieved results accurately reflect the similarity of the text versus the estimated value of the sample text set.
© Đại học Đà Nẵng
 
 
Địa chỉ: 41 Lê Duẩn Thành phố Đà Nẵng
Điện thoại: (84) 0236 3822 041 ; Email: dhdn@ac.udn.vn