GIỚI THIỆU CHUNG
Với sự tiện lợi và linh hoạt, việc áp dụng
bộ công cụ nhận dạng giọng nói đang dần trở
thành tính năng không thể thiếu trong thiết bị
bị thông minh hiện nay. Các công cụ này
thường được phát triển dựa trên việc trích
xuất các đặc trưng của giọng nói và xây dựng
các mô hình nhận dạng dựa trên các đặc
trưng đó. Việc lựa chọn mô hình phân loại là
bước quan trọng bởi các đặc điểm của mô
hình như độ phức tạp, phương pháp huấn
luyện có ảnh hưởng lớn đến kết quả nhận
dạng và nền tảng phần cứng triển khai.
Hiện nay, có rất nhiều các mô hình nhận
dạng đã được phát triển. Nghiên cứu này tập
trung vào việc nhận dạng giọng nói bằng hai
bộ công cụ: Histogram of Oriented Gradient
(HOG) kết hợp với Support Vector Machine
(SVM) và mạng nơ-ron tích chập (Convolution
Neural Network - CNN). Sau khi thu được bộ
dữ liệu đặc trưng của âm thanh Mel
Frequency Celtral Coefficient (MFCC), các
dữ liệu này sẽ được sử dụng để huấn luyện
các mô hình phân loại. Việc tính toán và
huấn luyện cho các mô hình này đều được
thực hiện bởi ngôn ngữ lập trình mã nguồn
mở Python.