Science curiculum vitae personally - University of Da Nang




	Thông tin chung

	English

	Đề tài NC khoa học
	Bài báo, báo cáo khoa học
	Hướng dẫn Sau đại học
	Sách và giáo trình
	Các học phần và môn giảng dạy
	Giải thưởng khoa học, Phát minh, sáng chế
	Khen thưởng
	Thông tin khác

	Tài liệu tham khảo

	Hiệu chỉnh


Số người truy cập: 109,415,283

Một cách tiếp cận mới để phát hiện sự giống nhau của văn bản dựa trên phép biến đổi wavelet rời rạc

Tác giả hoặc Nhóm tác giả: Hồ Phan Hiếu, Nguyễn Thị Ngọc Anh, Nguyễn Văn Hiếu, Đặng Thiên Bình, Võ Trung Hùng

Nơi đăng: Kỷ yếu Hội nghị Khoa học Công nghệ Quốc gia lần thứ X (Fair’10), lĩnh vực Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin; Số: Fair’10;Từ->đến trang: 479 đến 487;Năm: 2017

Lĩnh vực: Công nghệ thông tin; Loại: Bài báo khoa học; Thể loại: Trong nước

TÓM TẮT

Trong bài báo này, chúng tôi đề xuất một cách tiếp cận mới nhằm phát hiện sự giống nhau giữa các văn bản dựa trên phương pháp biến đổi Wavelet rời rạc (Discrete Wavelet Transform - DWT). Cụ thể là, các tài liệu gốc sẵn có được chuyển thành một tập các chuỗi số thực được gọi là các DNA (DeoxyriboNucleic Acid) nguồn thông qua DWT. Để kiểm tra sự giống nhau của một văn bản bất kỳ, chúng tôi cũng sử dụng DWT để tạo ra các DNA cho chính văn bản đó và tính toán khoảng cách Euclid nhỏ nhất từ các DNA này đến các DNA nguồn. Cuối cùng, bằng cách so sánh với một mức ngưỡng, các giá trị về khoảng cách sẽ cho biết đoạn văn bản được kiểm tra có giống với một văn bản nguồn nào đó hay không. Kết quả thực nghiệm chứng minh thuật toán do chúng tôi đề xuất đem lại hiệu quả cao trong phát hiện sự giống nhau của văn bản bằng cách thử nghiệm trên một bộ dữ liệu chuẩn tại Hội nghị quốc tế thường niên về phát hiện đạo văn (Plagiarism Analysis, Authorship Identification, and Near-Duplicate detection - PAN).

ABSTRACT

In this paper, we propose a novel text similarity detection algorithm based on Discrete Wavelet Transform (DWT) approach. In particular, the available source materials are converted into a set of the floating-number sequences, namely source DNAs, which are generated by using DWT. To check the similarity for an arbitrary document, we also apply DWT to derive its own DNAs to which the smallest Euclidean distances from the source DNAs are computed. As compared to a threshold level, the values of these distances indicate whether any piece of the checked document is duplicated from another source. The experimental results demonstrate that the proposed algorithm provides an efficient text similarity detection by testing with a real standard dataset of Plagiarism Analysis, Authorship Identification, and Near-Duplicate detection, known as PAN.

Địa chỉ: 41 Lê Duẩn Thành phố Đà Nẵng

Điện thoại: (84) 0236 3822 041 ; Email: dhdn@ac.udn.vn