CÁC ĐẶC TRƯNG ÂM THANH SỬ DỤNG TRONG MÔ HÌNH NHẬN DẠNG GIỌNG NÓI
Nguyễn Huy Thế, Nguyễn Tuấn Anh
1.
GIỚI THIỆU CHUNG
Nhận dạng giọng nói ngày
càng được áp dụng rộng rãi, đặc biệt là trong các lĩnh vực tương tác người -
máy bởi sự đa dạng và linh hoạt trong ngôn ngữ giao tiếp. Các phương pháp nhận
dạng giọng nói phổ biến dựa trên việc trích xuất thông tin đặc trưng từ giọng
nói và sử dụng để huấn luyện các mô hình nhận dạng. Trích xuất các đặc trưng âm
thanh là bước rất quan trọng, quyết định độ chính xác và hiệu quả của mô hình
nhận dạng, cần được thực hiện đảm bảo yêu cầu hạn chế tối đa hoặc không mất mát
thông tin.
Hiện nay, có rất nhiều kỹ
thuật trích xuất đặc trưng giọng nói đã được phát triển. Nghiên cứu này tập
trung vào một số kỹ thuật được sử dụng phổ biến nhất bao gồm Mel Frequency Cepstral
Coefficients (MFCC), Linear Prediction Coefficients (LPC), Linear Prediction
Cepstral Coefficients (LPCC). Các dữ liệu đặc trưng này được sử dụng để xây dựng
và huấn luyện mô hình học máy nhận dạng sự có mặt của các từ khóa trong giọng
nói thu âm được. Việc tính toán các bộ dữ liệu và huấn luyện mô hình nhận dạng
được thực hiện với ngôn ngữ Python.
Xem thêm ...