Trong nghiên cứu này, đối với cử chỉ tĩnh tôi đề xuất một
phương pháp mới để nhận dạng ngôn ngữ ký hiệu tiếng Việt dựa trên hình ảnh chiều
sâu. Một kỹ thuật khai thác tính năng mới dựa trên xếp hạng các ô dựa trên lưới
ô vuông được chia được đặt tên là ROCM – Rank Order Correlation Matrix để mô tả
sự tương quan giữa các ô trong ảnh chiều sâu. Có hai đóng góp chính của tôi được
sử dụng ở đây. Một là xây dựng quá trình nhận dạng cử chỉ tay bao gồm bốn giai
đoạn: phân đoạn, tiền xử lý, trích xuất đặc trưng và phân loại. Hai là xây dựng
quy tắc để phân loại và nhận dạng bảng chữ cái ngôn ngữ ký hiệu tiếng Việt. Cụ
thể, vị trí tay được phát hiện và thu nhận bằng cách áp dụng một bộ lọc khoảng
cách trên hình ảnh chiều sâu thu được từ thiết bị Kinect. Các kích thước của
hình ảnh bàn tay sau đó được chuẩn hóa về hình ảnh là hình vuông. Sau khi chia
hình ảnh thành ma trận các ô vuông (2*2, 3*3, 4*4 hay 5*5) một vec-tơ đặc trưng
được tạo ra bằng cách ghép vec-tơ giá trị trung bình và vec-tơ độ lệch tương ứng.
Cuối cùng, sử dụng mô hình phân loại SVM đa lớp với chiến lược MAX-WIN để phân
loại và nhận dạng.
Đối với cử chỉ liên tục,
tôi đề xuất một phương pháp thu nhận dữ liệu cho các cử động của ngôn ngữ ký hiệu
tiếng Việt được trên dữ liệu khung xương thu nhận từ Kinect để nhận dạng. Thay
đổi hệ tọa độ phụ thuộc và vị trí người thực hiện so với thiết bị sang vị trí
tương đối so với trọng tâm con người để khắc phục ảnh hưởng của vị trí. Cuối
cùng, sử dụng mô hình kNN kết hợp với DTW phân loại và nhận dạng. Cách tiếp cận
của tôi đã cho kết quả với độ chính xác cao và có thể tích hợp để xử lý trong
thời gian thực.
Tuy nhiên nhược điểm của thuật toán này là với bộ dữ liệu lớn
hơn hệ thống sẽ trở nên quá tải. Hơn nữa, các dấu hiệu về hình dáng bàn tay, biểu
cảm khuôn mặt, khẩu hình miệng bị lược bỏ trong thực tế cũng khá quan trọng để
nhận dạng ngôn ngữ ký hiệu tiếng Việt. Để hệ thống có thể hoạt động tốt hơn cần
phải bổ sung thêm các tính năng về nhận diện hình dáng bàn tay, khẩu hình miệng.
Ngoài ra việc xử lý thời gian thực với nguồn dữ liệu lớn cũng phải được xem
xét.
Hướng nghiên cứu trong thời gian tiếp theo để ghi nhận ngôn
ngữ ký hiệu:
Xây dựng bộ cơ sở dữ liệu hoàn chỉnh cho nhận
dạng ngôn ngữ ký hiệu tiếng Việt.
Nghiên cứu về phân đoạn video để loại bỏ nhiễu
và tăng tỉ lệ thành công khi nhận dạng.
Tập trung vào nghiên cứu, cải tiến thuật toán để
nâng cao kết quả nhận dạng với cử chỉ động với dữ liệu lớn. Hệ thống sẽ kết hợp
nhận dạng khuôn mặt, bàn tay (phải/trái) và các bộ phận khác của cơ thể cùng một
lúc.
|