Hiện nay, các kho ngữ liệu phục vụ cho việc xử lý ngôn ngữ tự
nhiên đều được lưu trữ dưới dạng văn bản. Các kho ngữ liệu được xây dựng nhằm
phục vụ cho việc dịch tự động, học ngoại ngữ, so khớp tìm kiếm thông tin. Tuy
nhiên, một trong những vấn đề hiện nay là việc so khớp tìm kiếm thông tin trong
kho ngữ liệu vẫn còn gặp nhiều khó khăn, các danh từ tìm được dưới dạng chuỗi,
trong khi kết quả mong muốn lại cần chính xác hơn về loại danh từ, ví dụ như
chỉ người, chỉ nơi chốn, chỉ vật… Để đáp ứng được mong muốn tìm kiếm chính xác
đó, danh từ cần được làm giàu thông qua việc gán nhãn, phân loại từ, giải nghĩa
từ đồng nghĩa, trái nghĩa.
Nhận dạng
các danh từ riêng, đặc biệt là danh từ riêng chỉ người và nơi chốn ngày càng
trở nên quan trọng hơn đối với sự phát triển ngày càng cao các ứng dụng của xử
lý ngôn ngữ tự nhiên. Tuy nhiên, việc nhận dạng danh từ riêng là một vấn đề
không hề đơn giản. Thừa nhận rằng, một trong những
cách tốt nhất để xác định danh từ riêng
chỉ người hoặc nơi chốn là sử dụng thông tin ngữ cảnh xuất hiện xung quanh tên người, tên nơi chốn. Do đó, vấn đề chính sẽ là làm thế nào để tìm ra các ngữ cảnh mà tại đó, tên người, tên nơi chốn xuất hiện. Các phương pháp có thể là thủ công, sử dụng hệ luật (rule-based) hay tự động v.v. [8].
Hiện nay, hầu
hết các hệ thống nhận dạng thực thể đều dựa vào một tập nhỏ các loại thực thể thông thường. Mặc dù đã có một vài đề xuất được đưa ra
nhằm mở rộng các cấp của các loại thực thể các danh từ riêng chỉ người, nơi chốn nhưng nó vẫn
cố định một số lượng nhất định các loại thực thể. Vấn đề
áp dụng bài toán trích chọn các loại thực thể cho các miền dữ liệu có tính chất đặc trưng riêng khác với những dữ liệu bình thường,
điều này rất đáng được quan tâm. Trong khi đó, với những
ứng dụng quan trọng trong web ngữ nghĩa, hay
trong hệ thống hỏi đáp tự động,…thì các miền dữ liệu tên người, tên nơi chốn cũng là một trong những miền dữ liệu được nhắc tới nhiều nhất [8].
Bài toán
nhận dạng danh từ riêng là bài toán khá cơ bản và quan trọng trong nhóm các bài
toán trích rút thông tin. Nó có nhiệm vụ tìm kiếm và phân loại các danh từ
riêng về người, nơi chốn, công trình, tổ chức, thời gian...
Ý thức được những lợi ích mà các bài toán rút
trích thực thể nói chung hay thực thể có tên nói riêng, tôi chọn hướng “Nghiên cứu rút trích và phân loại các thực
thể danh từ riêng cho các kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên” tập
trung vào các danh từ riêng chỉ người, nơi chốn để làm luận văn của mình. unfaithful spouse infidelity i dreamed my husband cheated on me |