15. SO SÁNH CÔNG CỤ PHÂN LOẠI HOG-SVM VÀ CNN SỬ DỤNG TRONG MÔ HÌNH NHẬN DẠNG GIỌNG NÓI
Trang 45 |  PDF (Size KB)
Nguyễn Huy Thế, Nguyễn Tuấn Anh
Trường Đại học Thủy lợi, email: [email protected]
 
GIỚI THIỆU CHUNG
 
Với sự tiện lợi và linh hoạt, việc áp dụng bộ công cụ nhận dạng giọng nói đang dần trở thành tính năng không thể thiếu trong thiết bị bị thông minh hiện nay. Các công cụ này thường được phát triển dựa trên việc trích xuất các đặc trưng của giọng nói và xây dựng các mô hình nhận dạng dựa trên các đặc trưng đó. Việc lựa chọn mô hình phân loại là bước quan trọng bởi các đặc điểm của mô hình như độ phức tạp, phương pháp huấn luyện có ảnh hưởng lớn đến kết quả nhận dạng và nền tảng phần cứng triển khai. Hiện nay, có rất nhiều các mô hình nhận dạng đã được phát triển. Nghiên cứu này tập trung vào việc nhận dạng giọng nói bằng hai bộ công cụ: Histogram of Oriented Gradient (HOG) kết hợp với Support Vector Machine (SVM) và mạng nơ-ron tích chập (Convolution Neural Network - CNN). Sau khi thu được bộ dữ liệu đặc trưng của âm thanh Mel Frequency Celtral Coefficient (MFCC), các dữ liệu này sẽ được sử dụng để huấn luyện các mô hình phân loại. Việc tính toán và huấn luyện cho các mô hình này đều được thực hiện bởi ngôn ngữ lập trình mã nguồn mở Python.