Hiện tượng viết tắt trong các văn bản tiếng Việt trở nên rất
phổ biến, số lượng chữ viết tắt tiếng Việt hiện nay tăng lên đáng kể và dưới
nhiều hình thức rất đa dạng. Điều này đã dẫn đến một thực trạng là làm cho người
đọc văn bản nhiều lúc hiểu nhầm nội dung hoặc khó có thể đoán ra được nghĩa của
từ viết tắt.
Thật vậy, do sự phát triển của xã hội và sự hội nhập quốc tế
về khoa học kỹ thuật, mỗi ngày trong tiếng Việt xuất hiện thêm nhiều chữ viết tắt
mới. Quy tắt hình thành chữ viết tắt cũng rất đa dạng, nhiều chữ viết tắt trong
tiếng Việt được hình thành từ các từ có nguồn gốc tiếng nước ngoài (ví dụ:
ngành IT - ngành Công nghệ thông tin), nhiều chữ viết tắt được cấu thành từ các
chữ cái đầu (ví dụ: ĐHĐN – Đại học Đà Nẵng), tuy nhiên cũng có nhiều chữ viết tắt
được cấu thành từ hai ký tự của một từ (ví dụ: vina – Việt Nam)….
Trước thực trạng vừa
nêu như trên thì nhu cầu tra cứu chữ viết tắt đối với người sử dụng là rất cấp
thiết và thường xuyên. Tuy nhiên, hiện nay chúng ta chưa có một từ điển hay cơ
sở dữ liệu đầy đủ về chữ viết tắt tiếng Việt nhằm phục vụ nhu cầu tra cứu, học
tập và hỗ trợ trong vấn đề đọc và soạn thảo văn bản của người sử dụng.
Trong báo cáo này chúng tôi tập trung nghiên cứu các
phương pháp nhận dạng và thu thập tự động và xây dựng một cơ sở dữ liệu
tương đối đầy đủ về chữ viết tắt tiếng Việt. Trên cơ sở đó, chúng tôi sẽ tiến đến
xây dựng một hệ thống quản lý và tra cứu chữ viết tắt tiếng Việt trực tuyến nhằm
đáp ứng nhu cầu của đông đảo người sử dụng. Bên cạnh đó, cũng từ cơ sở dữ liệu
này, chúng tôi cũng sẽ tiến hành nghiên cứu xây dựng một công cụ tích hợp trên
môi trường Windows (giống Vietkey) nhằm hỗ trợ tra cứu và soạn thảo chữ viết tắt.
|