XÁC ĐỊNH TẦN SỐ CƠ BẢN CỦA TÍN HIỆU TIẾNG NÓI DÙNG HÀM TỰ TƯƠNG QUAN.pdf

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
TRẦN VĂN TÂM
XÁC ĐỊNH TẦN SỐ CƠ BẢN CỦA
TÍN HIỆU TIẾNG NÓI DÙNG
HÀM TỰ TƯƠNG QUAN
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Đà Nẵng – Năm 2019

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
TRẦN VĂN TÂM
XÁC ĐỊNH TẦN SỐ CƠ BẢN CỦA
TÍN HIỆU TIẾNG NÓI DÙNG
HÀM TỰ TƯƠNG QUAN
Chuyên ngành: Khoa học máy tính
Mã số: 8480101
Khóa: 35
LUẬN VĂN THẠC SĨ
CÁN BỘ HƯỚN DẪN KHOA HỌC:
TS. Ninh Khánh Duy
Đà Nẵng – Năm 2019

i
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.Các số liệu, kết quả nêu
trong luận văn là trung thực. Mọi sự giúp đỡ cho việc thực hiện luận văn này đã được
cảm ơn và các thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc rõ ràng và
đượ phép công bố.
Người thực hiện luận văn
Trần Văn Tâm

ii
LỜI CẢM ƠN
Sau thời gian học tập và rèn luyện, bằng sự biết ơn và kính trọng, tôi xin gửi lời cảm
ơn chân thành đến Ban Giám hiệu, các phòng, khoa thuộc Trường đại học Đà nẵng và
các Phó Giáo sư, Tiến sĩ đã nhiệt tình hướng dẫn, giảng dạy và tạo mọi điều kiện thuận
lợi giúp đỡ tôi trong suốt quá trình học tập, nghiên cứu và hoàn thiện đề tài nghiên cứu
khoa học này.
Đặc biệt, tôi xin bày tỏ lòng biết ơn sâu sắc tới TS Ninh Khánh Duy, người Thầy trực
tiếp và cũng là người đã luôn tận tình hướng dẫn, chỉ bảo, giúp đỡ và động viên tôi trong
suốt quá trình nghiên cứu và hoàn thành đề tài nghiên cứu này.
Xin chân thành cảm ơn gia đình, bạn bè cùng đồng nghiệp đã luôn khích lệ và giúp
đỡ tôi trong quá trình học tập và nghiên cứu khoa học.
Người thực hiện luận văn
Trần Văn Tâm

iii
TÓM TẮT LUẬN VĂN
XÁC ĐỊNH TẦN SỐ CƠ BẢN CỦA TÍN HIỆU TIẾNG NÓI
DÙNG HÀM TỰ TƯƠNG QUAN
Học viên: Trần Văn Tâm Chuyên ngành: Khoa học máy tính
Mã số: Khoá: K35 Trường Đại học Bách khoa – ĐHĐN
Tóm tắt – Xử lý tiếng nói là lĩnh vực nghiên cứu tiếng nói của con người và được chuyển
thành dạng tín hiệu để xử lý trong khoa học máy tính. Trong luận văn, tôi nghiên cứu phương
pháp tính tần số cơ bản (hay F0), một trong những đặc trưng quan trọng của tín hiệu tiếng nói.
Việc xác định tần số cơ bản của tín hiệu tiếng nói được ứng dụng trong các lĩnh vực như tổng
hợp tiếng nói và nhận dạng tiếng nói. Để tìm được tần số cơ bản của tín hiệu tiếng nói, tôi sử
dụng hàm tự tương quan vì tính đơn giản và hiệu quả của thuật toán này. Tuy nhiên, kết quả
đường F0 tính được từ hàm tự tương quan trong hầu hết trường hợp là không được trơn. Do
đó, tôi đã kết hợp tính tần số cơ bản bởi hàm tự tương quan với phương pháp lọc trung vị.
Đồng thời tôi tiến hành khảo sát thực nghiệm để xác định được các tham số tối ưu của các
thuật toán. Đánh giá độ chính xác so với phương pháp đo F0 thủ công cho thấy việc tính tần
số cơ bản của tín hiệu tiếng nói bởi hàm tự tương quan có kết quả đáng tin cậy. Với các kết
quả nghiên cứu thu được, việc tính tần số cơ bản của tín hiệu tiếng nói bởi hàm tự tương quan
sẽ là cơ sở để tiến hành các nghiên cứu khác trong lĩnh vực xử lý tiếng nói.
Từ khoá – dò tìm tần số cơ bản; hàm tự tương quan; lọc (làm trơn) trung vị; tín hiệu tiếng nói;
miền thời gian; tính chu kỳ pitch.
DETERMINING THE FUNDAMENTAL FREQUENCY OF SPEECH
SIGNAL USE AUTOCORRELATION FUNCTION
Abstract - Speech processing is the field of human voice research and being converted into a
signal form for processing in computer science. In the thesis, I focus on basic frequency
calculation method (or F0), one of the most important features the voice signal. The
determination of the basic frequency of the voice signal is Applied in specializations such as
voice synthesis and voice recognition. To find the basic frequency of the voice signal, I use
autocorrelation function because of simplicity and efficiency of this algorithm. However, F0
road results by autocorrelation function In most cases not smooth. Therefore, I combine
autocorrelation function with median smoothing. At the same time, I conducted empirical
survey to determine the optimal parameters of the algorithms. Evaluating accuracy compared
to F0 method manual measurement shows that the calculation of the basic frequency of the
voice signal by the autocorrelation function has reliable results. With the research obtained
results ,the basic frequency of the voice signal by the autocorrelation function shall be the basis
for conducting other studies in the field of Voice processing.
Key words – fundamental frequency detection; autocorrelation function; median
filtering/smoothing; speech signal; time domain; pitch period estimation.

iv
MỤC LỤC
LỜI CAM ĐOAN .......................................................................................................i
LỜI CẢM ƠN........................................................................................................... ii
TÓM TẮT LUẬN VĂN.......................................................................................... iii
DANH MỤC HÌNH VẼ ......................................................................................... vii
DANH MỤC BẢNG BIỂU......................................................................................ix
MỞ ĐẦU ....................................................................................................................1
1. Lý do chọn đề tài ...............................................................................................1
2. Mục đích và ý nghĩa đề tài................................................................................2
a. Mục đích .........................................................................................................2
b. Ý nghĩa khoa học và thực tiễn của đề tài......................................................2
3. Mục tiêu và nhiệm vụ........................................................................................2
a. Mục tiêu..........................................................................................................2
b. Nhiệm vụ.........................................................................................................2
4. Đối tượng và phạm vi nghiên cứu....................................................................3
a. Đối tượng nghiên cứu....................................................................................3
b. Phạm vi nghiên cứu .......................................................................................3
5. Phương pháp nghiên cứu..................................................................................3
a. Phương pháp lý thuyết...................................................................................3
b. Phương pháp thực nghiệm............................................................................3
6. Kết luận..............................................................................................................3
a. Kết quả của đề tài...........................................................................................3
b. Hướng phát triển của đề tài...........................................................................3
7. Bố cục của luận văn...........................................................................................3
CHƯƠNG 1: TỔNG QUAN VỀ XỬ LÝ TÍN HIỆU TIẾNG NÓI ......................5
1.1. Mở đầu ............................................................................................................5
1.2. Khái niệm về tín hiệu tiếng nói .....................................................................5
1.2.1. Biểu diễn trên miền thời gian..................................................................6
1.2.2. Biểu diễn trên miền tần số.......................................................................7
1.3. Các đặc tính cơ bản của tín hiệu tiếng nói...................................................8
1.3.1. Âm sắc.......................................................................................................8

v
1.3.2. Cường độ ..................................................................................................9
1.3.3. Trường độ...............................................................................................10
1.3.4. Âm hữu thanh ........................................................................................11
1.3.5. Âm vô thanh ...........................................................................................11
1.4. Xử lý ngắn hạn (short-time processing).....................................................11
1.5. Tần số cơ bản (F0)........................................................................................13
1.5.1. F0 là gì....................................................................................................13
1.5.2. Tầm quan trọng của F0 trong xử lý tiếng nói ......................................14
1.5.3. Các lý do khiến việc tìm F0 khó khăn...................................................15
1.6. Tổng kết chương...........................................................................................16
CHƯƠNG 2: TÍNH TẦN SỐ CƠ BẢN DÙNG HÀM TỰ TƯƠNG QUAN .....17
2.1. Mở đầu ..........................................................................................................17
2.2. Hàm tự tương quan và ứng dụng để tính F0.............................................17
2.3. Thuật toán tính F0 .......................................................................................20
2.4. Các tham số quan trọng của thuật toán.....................................................23
2.4.1. Độ dài khung tín hiệu ............................................................................23
2.4.2. Ngưỡng xác định hữu thanh/vô thanh .................................................23
2.5. Lọc trung vị...................................................................................................25
2.5.1. Cơ sở lý thuyết ........................................................................................25
2.5.2. Thuật toán lọc trung vị ..........................................................................26
2.5.3. Kích thước bộ lọc ...................................................................................27
2.6. Tổng kết chương...........................................................................................27
CHƯƠNG 3: TRIỂN KHAI VÀ ĐÁNH GIÁ THUẬT TOÁN...........................28
3.1. Mở đầu ..........................................................................................................28
3.2. Môi trường phát triển..................................................................................28
3.3. Dữ liệu thử nghiệm.......................................................................................29
3.4. Demo ứng dụng ............................................................................................29
3.5. Khảo sát giá trị kích thước bộ lọc trung vị................................................32
3.6. Khảo sát ngưỡng xác định hữu thanh/vô thanh........................................35
3.7. So sánh cài đặt hàm tự tương quan tự làm với hàm của Matlab ............42
3.8. So sánh thuật toán tính F0 tự động với cách đo F0 thủ công...................44

vi
3.8.1. Cách đo F0 thủ công..............................................................................44
3.8.2. Kết quả đối với giọng nam.....................................................................46
3.8.3. Kết quả đối với giọng nữ........................................................................50
3.9. Tổng kết chương...........................................................................................53
KẾT LUẬN..............................................................................................................54
1. Những việc đã hoàn thành..............................................................................54
2. Các kết luận .....................................................................................................54
3. Hạn chế và hướng phát triển..........................................................................55
TÀI LIỆU THAM KHẢO ......................................................................................56

vii
DANH MỤC HÌNH VẼ
Số
hiệu
hình
vẽ
Tên hình vẽ Trang
1.1 Dạng sóng theo thời gian 6
1.2
Tín hiệu của cùng một âm do một người nói thu ở hai thời điểm khác
nhau
7
1.3 Phổ hai chiều 8
1.4 Phổ ba chiều 8
1.5 Âm sắc của một người nữ khi phát nguyên âm /a/ 9
1.6 Âm sắc của một người nam khi phát nguyên âm /a/ 9
1.7 Đồ thị biểu diễn sóng tín hiệu của nguyên âm /a/ của một người nói 9
1.8 Đồ thị biểu diễn sóng tín hiệu của phụ âm /h/ của một người nói 10
1.9
Nguyên âm /a/ được thu ở hai thời điểm khác nhau của cùng một
người nói
10
1.10 Âm /a/ của một người nữ 10
1.11 Âm /a/ của một người nam 11
1.12 Chia tín hiệu thành các khung cửa sổ 12
1.13
Tần số cơ bản đo ở nguyên âm /a/ của một người nam là 166.6 Hz
ứng với chu kỳ cơ bản là 0.006 giây
14
1.14
Tần số cơ bản đo ở nguyên âm /a/ của một người nữ là 333.3 Hz ứng
với chu kỳ cơ bản là 0.003 giây
14
1.15 Đường F0 của các thanh điệu tiếng Việt 15
1.16
Đường F0 (trên) và tín hiệu (dưới) của câu nói “Các bạn trẻ nhất định
có nhiều cơ hội” của một giọng nữ
15
2.1 Một đoạn tín hiệu tuần hoàn trên miền thời gian 17
2.2 Hàm tự tương quan của đoạn tín hiệu tuần hoàn trong Hình 2.1 18
2.3 Tín hiệu (trên) và hàm tự tương quan (dưới) của một âm hữu thanh 19
2.4 Tín hiệu (trên) và hàm tự tương quan (dưới) của một âm vô thanh 20
2.5 Thuật toán tìm F0 dùng hàm tự tương quan 21
2.6
Ví dụ về một khung tín hiệu có độ dài 662 mẫu (tương đương 15 ms
với tần số lẫy mẫu 44100 Hz).
22
2.7 Ví dụ minh hoạ tín hiệu và kết quả tính F0 của nó. 23
2.8
Tín hiệu của âm vô thanh bị xác định nhầm thành âm hữu thanh, dẫn
đến xác định được F0 = 191,2 Hz tại 0,16 giây
24

viii
2.9
Tín hiệu của âm hữu thanh bị xác định nhầm thành âm vô thanh và
không xác định được giá trị F0 nào
24
2.10 Sơ đồ khối thuật toán lọc trung vị 24
2.11 Đường F0 trước (hình trên) và sau khi lọc trung vị (hình dưới) 26
3.1 Tín hiệu nguyên âm /a/ của một người nam 27
3.2 Tín hiệu nguyên âm /a/ của một người nữ 29
3.3 Giao diện chính của chương trình 29
3.4 Hiển thị sóng âm của tín hiệu tiếng nói 30
3.5 Kết quả tính F0 bằng hàm tự tương quan tự cài đặt và lọc trung vị 30
3.6 Kết quả tính F0 bằng hàm tự tương quan của Matlab và lọc trung vị 31
3.7 Chức năng xem khung tín hiệu và hàm tự tương quan của khung 31
3.8 Kết quả tính F0 của người nam thứ nhất theo các ngưỡng khác nhau 32
3.9 Kết quả tính F0 của người nam thứ hai theo các ngưỡng khác nhau 37
3.10 Kết quả tính F0 của người nam thứ ba theo các ngưỡng khác nhau 38
3.11 Kết quả tính F0 của người nữ thứ nhất theo các ngưỡng khác nhau 39
3.12 Kết quả tính F0 của người nữ thứ hai theo các ngưỡng khác nhau 40
3.13 Kết quả tính F0 của người nữ thứ ba theo các ngưỡng khác nhau 41
3.14 Chuyển đổi độ chính xác khi đo trong phần mềm Sonic Visualiser 42
3.15 Phóng to đoạn tín hiệu trong phần mềm Sonic Visualiser 45
3.16 Đo chu kỳ cơ bản của tín hiệu bằng phần mềm Sonic Visualiser 45
3.17
Kết quả đo F0 của tín hiệu âm /o/ với độ dài khung 20 ms của người
nam thứ ba
46
3.18 Một khung tín hiệu bị lỗi cao độ ảo và hàm tự tương quan của nó 48
3.19
Một khung tín hiệu không bị lỗi cao độ ảo và hàm tự tương quan của
nó
48

ix
DANH MỤC BẢNG BIỂU
Số
hiệu
bảng
Tên bảng Trang
3.1
Khảo sát kích thước bộ lọc trung vị với một người nam ở khung tín
hiệu 15 ms
32
3.2
Khảo sát kích thước bộ lọc trung vị với một người nữ ở khung tín
hiệu 15 ms
33
3.3
hiệu 20 ms
33
3.4
hiệu 20 ms
34
3.5
hiệu 30 ms
34
3.6
hiệu 30 ms
34
3.7 Kết quả tính F0 (Hz) với độ dài khung 15 ms của một người nam 43
3.10 Kết quả tính F0 (Hz) với độ dài khung 15 ms của một người nữ 43
3.13 Kết quả đo F0 với độ dài khung 15 ms của người nam thứ nhất 46
3.14 Kết quả đo F0 với độ dài khung 15 ms của người nam thứ hai 47
3.15 Kết quả đo F0 với độ dài khung 15 ms của người nam thứ ba 47
3.22 Kết quả đo F0 với độ dài khung 15 ms của người nữ thứ nhất 51
3.23 Kết quả đo F0 với độ dài khung 15 ms của người nữ thứ hai 51
3.24 Kết quả đo F0 với độ dài khung 15 ms của người nữ thứ ba 51

x

1
MỞ ĐẦU
1. Lý do chọn đề tài
Trong lịch sử phát triển của xã hội loài người, tiếng nói là một công cụ không thể
thiếu. Tiếng nói giúp cho sự giao tiếp giữa con người và con người trở nên linh hoạt
hơn, dễ hiểu nhau hơn. Tiếng nói chính là phương tiện để phân biệt con người với các
loài động vật khác. Nhờ có tiếng nói, con người mới có xã hội, mới có sự phát triển đi
lên qua nhiều hình thái xã hội
Trong lịch sử phát triển, chúng ta có nhiều hoạt động nghiên cứu liên quan đến tiếng
nói nhằm để phục vụ lợi ích, nâng cao đời sống. Qua quá trình hoạt động nghiên cứu,
chúng ta có đã có nhiều thành tựu trong lĩnh vực nghiên cứu tiếng nói. Và một trong
những thành tựu quan trọng nhất của nghiên cứu tiếng nói đó là sự ra đời của điện thoại,
khi mà âm thanh không còn bị giới hạn bởi khoảng cách vật lý để chúng ta có thể truyền
đạt thông tin cho nhau. Trải qua nhiều thế kỷ, các thành quả về nghiên cứu tiếng nói
ngày càng trở nên quan trọng hơn với đời sống của chúng, và là một phần không thể
thiếu trong cuộc sống hàng ngày.
Trong thời đại ngày nay, khi mà Công nghệ thông tin đang ngày càng góp phần quan
trọng trong việc phục vụ lợi ích, nâng cao đời sống của chúng ta, việc áp dụng và mô
phỏng tiếng nói cũng dần đóng vai trò quan trọng hơn. Nghiên cứu và mô phỏng tiếng
nói cùng với trí tuệ nhân tạo đã và đang tạo thành xu thế và nghiên cứu chủ yếu trong
giai đoạn này. Đặc biệt, khi công nghệ thông tin đang trở thành cốt lõi trong Cách mạng
công nghiệp 4.0, việc nghiên cứu và mô phỏng tiếng nói dần trở nên quan trọng hơn,
nhằm đưa máy móc gần với con người hơn trong việc giao tiếp giữa con người với con
người, giữa máy móc với con người.
Một trong những tham số quan trọng trong lĩnh vực áp dụng và mô phỏng tiếng nói
đó là tần số cơ bản F0. F0 là tần số cơ bản của tín hiệu tiếng nói (đơn vị Herz).Về âm
học tần số cơ bản chính là F0 tốc độ rung của dây thanh (vocal cord) của bộ máy phát
âm của con người [1]. Về cảm nhận âm thanh, F0 tương quan với cao độ (độ trầm bổng)
của lời nói (F0 càng cao thì giọng nói càng bổng).
F0 rất quan trọng để nắm bắt và xử lý tiếng nói cho các nghiên cứu sâu hơn. Nghiên
cứu và hiểu rõ được tần số cơ bản F0 có thể là cơ sở cho các nghiên cứu ứng dụng khác.
Trong lĩnh vực phân tích tiếng nói, tính F0 được ứng dụng trong việc đo cao độ trung
bình của một người, biểu diễn ngữ điệu của lời nói dựa trên tín hiệu thu được. Trong
tổng hợp tiếng nói, việc tính F0 là cơ sở để máy tính tái tạo tiếng nói có đặc tính ngữ
điệu giống với tiếng nói tự nhiên. Trong nhận dạng tiếng nói, việc tính tần số cơ bản F0
giúp tăng tỷ lệ nhận dạng đúng nếu kết hợp thêm đặc trưng ngữ điệu. Ngoài ra, bài toán
tính F0 có nhiều ứng dụng khác như: máy móc nhận diện giọng nói của con người để

2
thực hiện lệnh, máy móc nhận diện được thái độ trong tiếng nói để xác định tâm trạng
của con người,...
Để xác định được tần số cơ bản F0 của tiếng nói thì được chia thành hai nhóm: các
thuật toán trên miền thời gian (time domain) và các thuật toán trên miền tần số
(frequency domain) [4]. Trong phạm vi của luận văn, tôi nghiên cứu thuật toán trên miền
thời gian, sử dụng hàm tự tương quan (autocorelation) [2][4], đồng thời kết hợp với
thuật toán lọc trung vị để làm trơn kết quả F0 thu được. Qua đó đánh giá thuật toán trên
với cách tính thủ công để tìm F0.
2. Mục đích và ý nghĩa đề tài
a. Mục đích
Mục đích nghiên cứu đề tài:
- Nghiên cứu và cài đặt thuật toán tính tần số cơ bản F0 của tín hiệu tiếng nói trên
miền thời gian dùng hàm tự tương quan.
- Phân tích ưu nhược điểm của thuật toán tự tương quan tính F0 trên miền thời gian.
- Khảo sát tác dụng của lọc trung vị nhằm làm trơn kết quả tính F0 tự động.
- So sánh và đánh giá giữa hai phương pháp tính F0: dùng hàm tự tương quan, và
thủ công.
b. Ý nghĩa khoa học và thực tiễn của đề tài
- Đóng góp phương pháp tính tần số cơ bản F0 trong lĩnh vực xử lý tín hiệu tiếng
nói.
- Đưa ra kết quả khi áp dụng trong thực tế đối với hàm xác định tần số cơ bản F0,
là cơ sở cho các nghiên cứu, đánh giá để tính tần số cơ bản F0 sau này.
3. Mục tiêu và nhiệm vụ
a. Mục tiêu
Mục tiêu chính của đề tài là nghiên cứu phương pháp tính tần số cơ bản F0 dựa trên
hàm tự tương quan, lọc trung vị, và phân tích ưu nhược điểm của các thuật toán.
b. Nhiệm vụ
Để đạt được mục tiêu, nhiệm vụ đặt ra của đề tài là:
- Nghiên cứu lý thuyết liên quan đến tần số cơ bản F0.
- Nghiên cứu lý thuyết hàm tự tương quan.
- Thực hiện phân tích, đánh giá kết quả tính F0, kết hợp với làm trơn kết quả qua
thuật toán lọc trung vị.

3
4. Đối tượng và phạm vi nghiên cứu
a. Đối tượng nghiên cứu
Đối tượng nghiên cứu của đề tài là tín hiệu tiếng nói và các thuật toán xử lý tín hiệu
tiếng nói.
b. Phạm vi nghiên cứu
Phạm vi nghiên cứu của đề tài là các thuật toán tính F0 của tín hiệu tiếng nói trên
miền thời gian.
5. Phương pháp nghiên cứu
a. Phương pháp lý thuyết
- Thu thập và nghiên cứu các tài liệu liên quan đến đề tài.
b. Phương pháp thực nghiệm
Nghiên cứu và khai thác các công cụ, phần mềm hỗ trợ.
- So sánh, thử nghiệm, đánh giá kết quả tính F0 dựa trên phương pháp tính tần số
cơ bản dùng hàm tự tương quan kết hợp với lọc trung vị làm trơn kết quả.
- So sánh, đánh giá kết quả của thuật toán dùng tự tương quan tính tần số cơ bản F0
với cách đo thủ công.
6. Kết luận
a. Kết quả của đề tài
- Nghiên cứu và tính được tần số cơ bản F0 dựa trên thuật toán dùng tự tương quan.
- Đánh giá sai số của thuật toán dùng hàm tự tương quan tính F0 tự động dựa trên
kết quả đo tần số cơ bản F0 thủ công.
b. Hướng phát triển của đề tài
- Nghiên cứu giải pháp để cải thiện độ chính xác của các thuật toán tính tần số cơ
bản F0 trên miền thời gian.
- Đề xuất, cải tiến để thực hiện tính F0 theo thời gian thực.
7. Bố cục của luận văn
Dự kiến luận văn được trình bày bao gồm các phần chính như sau:
MỞ ĐẦU
Nêu bối cảnh nghiên cứu, lý do chọn đề tài và mục tiêu nghiên cứu.
CHƯƠNG I: TỔNG QUAN VỀ XỬ LÝ TÍN HIỆU TIẾNG NÓI

4
Trong chương này trình bày các khái niệm cơ bản của tiếng nói, quá trình hình
thành tiếng nói và các đặc tính cơ bản của tín hiệu tiếng nói.
CHƯƠNG II: THUẬT TOÁN TÌM F0 CỦA TÍN HIỆU TIẾNG NÓI
Trong chương này trình bày lý thuyết về hàm tự tương quan. Ngoài ra, do đề tài
có sử dụng thuật toán lọc trung vị để làm trơn kết quả nên thuật toán này cũng được
nêu trong chương này.
CHƯƠNG III: TRIỂN KHAI VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN
Để áp dụng được các thuật toán trên Matlab, trong chương này trình bày công cụ
Matlab và các hàm liên quan đến xử lý tín hiệu tiếng nói [5][6].
Trong chương này thực hiện áp dụng hai hàm tự tương quan tự triển khai, hàm tự
tương quan của công cụ Matlab để tính F0. Đồng thời, kết hợp với thuật toán lọc trung
vị để làm trơn kết quả.
Trong chương này cũng đưa ra so sánh giữa các phương pháp, so sánh với các kết
quả tính F0 thủ công và đánh giá từ đó rút ra được ưu nhược điểm của hàm tự tương
quan trong việc tính tần số cơ bản F0.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
PHỤ LỤC
TÀI LIỆU THAM KHẢO

5
CHƯƠNG 1: TỔNG QUAN VỀ XỬ LÝ TÍN HIỆU TIẾNG NÓI
1.1. Mở đầu
Trong giao tiếp của con người, tiếng nói như là một phương tiện giao tiếp cơ bản và
nhanh nhất để biểu đạt ý của người muốn truyền đạt. Xã hội chúng ta phát triển cũng là
nhờ có tiếng nói để có thể truyền đạt ý kiến, mong muốn giữa người với người. Để hỗ
trợ cho việc giao tiếp bằng tiếng nói, con người có thể dùng các cử chỉ, điệu bộ của chân
tay làm cho các ý muốn truyền đạt nhanh hơn đến người muốn truyền đạt. Vì là giao
tiếp trực tiếp nên tiếng nói là phương thức truyền đạt nhanh nhất giữa những người muốn
giao tiếp với nhau. Sở dĩ như vậy, ngoài tiếng nói còn có chữ viết để con người có thể
giao tiếp với nhau. Tuy nhiên, chữ viết là phương thức truyền đạt gián tiếp nên sẽ chậm
hơn phương thức truyền đạt là tiếng nói. Với sự phát triển của công nghệ, để có sự giao
tiếp trở nên linh hoạt hơn, tiếng nói như là một công cụ hỗ trợ mạnh mẽ để thúc đẩy việc
biểu diễn tiếng nói trong khoa học máy tính. Tiếng nói được sử dụng như là một dữ liệu
được lưu trữ trong máy tính, qua đó có thể truyền đạt thông qua mạng truyền thông để
phục vụ nhiều mục đích khác nhau để phục vụ lợi ích trong đời sống của con người.
Trong các hệ thống xử lý tiếng nói, cần chú ý đến hai điểm: sự nguyên vẹn của nội dung
thông điệp trong tín hiệu tiếng nói; biểu diễn tín hiệu tiếng nói phải tiện lợi cho việc
truyền tải, lưu trữ hoặc trong một dạng linh động để có thể chuyển đổi thành tín hiệu
tiếng nói mà không giảm nội dung của thông điệp [4].
1.2. Khái niệm về tín hiệu tiếng nói
Con người có năm giác quan để cảm nhận và nhận thức thế giới xung quanh. Trong
quá trình phát triển của xã hội loài người, con người dùng năm giác quan này để nhận
thức, thu thập kiến thức và tác động trở lại tự nhiên qua đó nâng cao đời sống của con
người. Một trong những giác quan quan trọng trong sự phát triển của xã hội con người
đó là thính giác. Nhờ có thính giác mà con người có thể nghe được âm thanh, con người
có thể giao tiếp được với nhau qua âm thanh.
Về bản chất, âm thanh từ lời nói, âm thanh trong thế giới tự nhiên đều là những sóng
âm lan truyền trong môi trường. Khi chúng ta nói dây thanh trong hầu bị chấn động, tạo
nên những sóng âm, sóng truyền trong không khí đến màng nhĩ – một màng mỏng rất
nhạy cảm của tai ta – làm cho màng nhĩ cũng dao động, các dây thần kinh của màng nhĩ
sẽ nhận được cảm giác âm khi tần số dao động của sóng đạt đến một độ lớn nhất định.
Tai con người chỉ cảm thụ được những dao động có tần số từ khoảng 16 Hz đến
khoảng 20000 Hz. Những dao động trong miền tần số này gọi là dao động âm hay âm
thanh, và các sóng tương ứng gọi là sóng âm. Những sóng có tần số nhỏ hơn 16 Hz gọi
là sóng hạ âm, những sóng có tần số lớn hơn 20000 Hz gọi là sóng siêu âm, con người
không cảm nhận được (ví dụ loài dơi có thể nghe được tiếng siêu âm) [1].

6
Tất cả các sóng âm đều được lan truyền trong môi tường, từ môi trường không khí,
môi trường rắn, môi trường lỏng.
Trong xử lý tín hiệu tiếng nói, tín hiệu tiếng nói có hai cách để biểu diễn: biểu diễn
tín hiệu trên miền thời gian và biểu diễn tín hiệu trên miền tần số.
1.2.1. Biểu diễn trên miền thời gian
Hình 1.1 – Dạng sóng theo thời gian
Âm thanh dưới dạng sóng được lưu trữ theo định dạng thông dụng trong máy tính là
file .wav với các tần số lấy mẫu thường gặp là: 8000 Hz, 10000 Hz, 11025 Hz, 16000
Hz, 22050 Hz, 32000 Hz, 44100 Hz,…; độ phân giải hay còn gọi là số bít/mẫu là 8 hoặc
16 bít và số kênh là 1 (Mono) hoặc 2 (Stereo).
Tuỳ theo thiết bị, thời điểm, người phát âm thì dữ liệu âm thanh được số hoá, biểu
diễn lại trong máy tính sẽ khác nhau.

7
Hình 1.2 – Tín hiệu của cùng một âm do một người nói thu ở hai thời điểm khác
nhau
1.2.2. Biểu diễn trên miền tần số
Một trong những đại lượng đặc trưng để biểu diễn tín hiệu tiếng nói trên miền tần số
đó là phổ.
Phổ trong tín hiệu tiếng nói là biểu diễn của sự phụ thuộc của biên độ vào thời gian
và tần số, là hình ảnh biểu diễn của tín hiệu tiếng nói theo trục của tần số.
1.2.2.1. Biến đổi Fourier
Biến đổi Fourier trong xử lý tín hiệu tiếng nói là phép biến đổi tín hiệu tiếng nói theo
miền thời gian sang miền tần số.
Biến đổi Fourier có nhiều dạng:
- Biến đổi Fourier liên tục là một toán tử tuyến tính chuyển một hàm tích phân này
sang một hàm tích phân khác. Trong xử lý tín hiệu, biến đổi Fourier liên tục được áp
dụng trên phổ và theo các thành phần trong phổ.
- Biến đổi Fourier rời rạc là phép biến đổi cho các tín hiệu thời gian rời rạc. Biến đổi
này thương được áp dụng trong việc phân tích phổ, lọc tín hiệu.
1.2.2.2. Phổ hai chiều
Phổ hai chiều là phổ trong đó chứa thông tin tín hiệu tiếng nói và được biểu diễn trên
hai đại lượng là tần số và biên độ phổ.

8
Hình 1.3 – Phổ hai chiều
1.2.2.3. Phổ ba chiều
Phổ ba chiều là phổ trong đó tín hiệu tiếng nói được biểu diễn trên ba đại lượng: thời
gian, tần số, và biên độ phổ.
Hình 1.4 – Phổ ba chiều
Nếu màu của tín hiệu càng đậm thì biên độ phổ (hay năng lượng của tín hiệu) càng
cao.
1.3. Các đặc tính cơ bản của tín hiệu tiếng nói
Tiếng nói được tạo ra từ độ rung của dây thanh âm trong thanh quản thông qua khí
quản và hoạt động của tuyến âm. Như vậy, tiếng nói chính là âm thanh. Tiếng nói có
chu kỳ dao động, có tần số âm thanh.
1.3.1. Âm sắc
Âm sắc là một trong bốn đặc tính cơ bản của âm thanh cũng như tín hiệu tiếng nói.
Âm sắc giúp ta phân biệt được tiếng nói của từng âm và của mỗi người được cảm nhận
khác nhau như thế nào. Âm sắc liên quan mật thiết đến phổ của tín hiệu.

9
Hình dưới đây minh hoạ âm sắc (dưới dạng phổ 3 chiều) ứng với nữ giới và nam giới
khi phát cùng một âm.
Hình 1.5 – Âm sắc của một người nữ khi phát nguyên âm /a/
Hình 1.6 -Âm sắc của một người nam khi phát nguyên âm /a/
1.3.2. Cường độ
Cường độ là độ to hay nhỏ của âm thanh nói ra. Cường độ càng lớn thì âm thanh
truyền càng xa trong môi trường truyền. Cường độ âm là số năng lượng mà sóng âm
truyền đi trong một thời gian nhất định trên đơn vị diện tích cố định và vuông góc với
phương truyền âm. Trong tiếng nói, cường độ của nguyên âm thường lớn cường độ của
phụ âm. Trên đồ thị biểu diễn sóng tín hiệu (waveform), cường độ âm thanh tỉ lệ thuận
với giá trị tuyệt đối của biên độ tín hiệu.
Hình 1.7 – Đồ thị biểu diễn sóng tín hiệu của nguyên âm /a/ của một người nói

10
Hình 1.8 – Đồ thị biểu diễn sóng tín hiệu của phụ âm /h/ của một người nói
1.3.3. Trường độ
Trường độ hay còn được biết là độ dài của âm phát ra phụ thuộc vào sự chấn động
lâu hay nhanh của phần tử môi trường truyền đi.
Trường độ của mỗi người khác nhau và mỗi thời điểm cũng khác nhau.
Hình 1.9 – Nguyên âm /a/ được thu ở hai thời điểm khác nhau của cùng một người
nói
Hình 1.10 – Âm /a/ của một người nữ

11
Hình 1.11 – Âm /a/ của một người nam
1.3.4. Âm hữu thanh
Âm hữu thanh (voiced speech) là âm phát ra có thanh, ví dụ như các nguyên âm /a/,
/e/, /i/, /o/, /u/ hoặc các phụ âm như /m/, /n/, /l/. Thực ra âm hữu thanh được tạo ra là do
việc không khí qua thanh môn (thanh môn tạo ra sự khép mở của dây thanh dưới sự điều
khiển của hai sụn chóp) với một độ căng của dây thanh sao cho chúng tạo nên dao động.
Trong xử lý tín hiệu tiếng nói, âm hữu thanh gồm các khung tín hiệu tuần hoàn nên
có thể tính được tần số cơ bản F0.
1.3.5. Âm vô thanh
Âm vô thanh (voiced speech) là âm khi tạo ra tiếng thì dây thanh không rung hoặc
rung đôi chút tạo ra giọng như giọng thở, ví dụ như /t/, /p/ hay /k/.
Trong xử lý tín hiệu tiếng nói, âm vô thanh không có ích khi tính tần số cơ bản. Vì
âm vô thanh không có khung tín hiệu tuần hoàn. Tần số cơ bản ở âm vô thanh là không
xác định.
1.4. Xử lý ngắn hạn (short-time processing)
Tín hiệu tiếng nói có một tính chất quan trọng là các đặc tính của nó thay đổi tương
đối chậm theo thời gian. Thông thường, các đặc tính của tín hiệu ổn định trong khoảng
thời gian từ 10 ms đến 30 ms. Do đó, người ta thường chia tín hiệu cần xử lý thành các
khung tín hiệu liên tiếp nhau, mỗi khung có độ dài từ 10 ms đến 30 ms. Sau đó, ta tiến
hành xử lý trên mỗi khung tín hiệu này. Các khung tín hiệu này được gọi là các khung
phân tích, các khung này có thể trùng nhau (overlap) một phần để đảm bảo các đặc tính
của tín hiệu biến đổi trơn tru giữa 2 khung liên tiếp. Việc chia khung này sẽ được lặp lại
từ đầu đến cuối trên tín hiệu cần xử lý. Kết quả của việc xử lý trên mỗi khung có thể chỉ
gồm một giá trị số (ví dụ như giá trị năng lượng hoặc giá trị F0), có thể gồm nhiều giá
trị số (ví dụ như các hệ số phổ).

12
Hình 1.12 – Chia tín hiệu thành các khung cửa sổ
Việc chia tín hiệu tiếng nói thành các khung tín hiệu giúp ta xác định và xử lý được
các tín hiệu tiếng nói có đặc tính hầu như không thay đổi, độc lập.
Hầu hết các kỹ thuật xử lý ngắn hạn được biểu diễn dưới dạng:
[ ( )] ( )
n
m
Q T x m w n m

=−
= −
 (1.1)
Tín hiệu tiếng nói được biến đổi bởi hàm T[ ], tuyến tính hoặc phi tuyến tính, và có
thể phụ thuộc vào một vài điều chỉnh thông số hoặc tập các thông số. Kết quả là các cửa
sổ có trình tự và vị trí, thời gian tương ướng với mẫu chỉ số n. Và kết quả là tổng giá trị
các số khác không. Thông thường, các cửa số tuần tự này có thời gian giới hạn. Giá trị
Qn là tuần tự các trọng số trung bình của trình tự T[x(m)]
Năng lượng ngắn hạn của tín hiệu tiếng nói là ví dụ đơn giản minh hoạ cho ý tưởng
ở trên.
2
( )

=−
= 
m
E x m (1.2)
Tuy nhiên, đại lượng trên có ít ý nghĩa với các thông tin về các thuộc tính phụ
thuộc thời gian trong tín hiệu tiếng nói. Nên đại lượng trên được đơn giản lại
2
1
( )
n
n
m n N
E x m
= − +
=  (1.3)
Năng lượng thời gian ngắn hạn tại mẫu n là tổng bình phương của N mẫu từ n – N
+ 1 đến n.
Với
w(n) = 1 với 0 ≤ n ≤ N-1
= 0 trong trường hợp khác
Biên độ của tín hiệu tiếng nói thay đổi đáng kể theo thời gian. Hầu hết trong các
trường hợp, âm vô thanh có biên độ thấp hơn đối với các âm hữu thanh. Năng lượng
ngắn hạn của tín hiệu tiếng nói phản ánh những biên độ dao động. Ta có thể định nghĩa
lại năng lượng ngắn hạn như sau:

13
2
[ ( ) ( )]
n
m
E x m w n m

=−
= −
 (1.4)
Biểu thức trên được viết lại
2
( ) ( )
n
m
E x m h n m

=−
=  −
 (1.5)
với
2
( ) ( )
h n w n
= (1.6)
Tín hiệu x2
(n) được lọc bởi bộ lọc tuyến tính với đáp ứng xung h(n)
Có trường hợp với N tăng lên, các dao động biên độ không thay đổi, năng lượng ngắn
hạn cũng không thay đổi, hoặc ít thay đổi. Vì vậy, đối với cửa sổ với khung thời gian
ngắn quá thì cũng không cung cấp đủ thông tin về thay đổi biên độ của tín hiệu tiếng
nói.
Nếu N quá nhỏ thì năng lượng quá hạn En sẽ dao động nhanh tuỳ thuộc vào chi tiết
chính xác của dạng sóng. Nếu N quá lớn, En sẽ thay đổi rất chậm, vì vậy sẽ không phản
ánh được sự thay đổi của thuộc tính tín hiệu tiếng nói.
Trong thực tế, thời lượng của chu kỳ cao độ thay đổi từ 20 mẫu (tại tốc độ lấy mẫu
10 kHz) với cao độ nữ và với 250 mẫu đối với cao độ nam nên không có giá trị đơn nào
của N đáp ứng được. Vì vậy, N sẽ được chọn theo thứ tự từ 100 đến 200 mẫu cho tốc
độ lấy mẫu 10 kHz (từ 10 đến 20 ms).
1.5. Tần số cơ bản (F0)
1.5.1. F0 là gì
Tần số cơ bản là tốc độ rung của dây thanh trong quá trình phát âm, gọi là F0. Người
nói có thể điều khiển mức độ căng của hai dây thanh để khoảng giữa hai dây thanh đó
đóng lại hoàn toàn, tạo thành khe hẹp hay mở rộng ra. Khoảng không ở giữa này được
gọi là thanh môn. Khi thanh môn hẹp, không khí đi qua nó sẽ tạo ra một âm thanh điều
hòa. Thuật ngữ “cao độ” (pitch) dùng để chỉ tần số cơ bản mà người nghe có thể cảm
nhận được. Bằng cách thay đổi độ căng của dây thanh, người nói có thể điều chỉnh tần
số cơ bản. Thông thường, F0 của giọng nam nằm trong khoảng từ 70 Hz đến 250 Hz,
trong khi đó giọng nữ có F0 từ 150 Hz đến 400 Hz [4].

14
Hình 1.13 – Tần số cơ bản đo ở nguyên âm /a/ của một người nam là 166.6 Hz ứng
Hình 1.14 – Tần số cơ bản đo ở nguyên âm /a/ của một người nữ là 333.3 Hz ứng
1.5.2. Tầm quan trọng của F0 trong xử lý tiếng nói
Trong xử lý tiếng nói, F0 đặc trưng cho ngữ điệu của lời nói (đặc trưng chung cho
mọi ngôn ngữ) và thanh điệu của âm tiết (đặc trưng riêng cho tiếng Việt). Đây là hai
tham số quan trọng của tiếng nói. Việc xác định F0 có các ứng dụng trong nhận dạng
tiếng nói và tổng hợp tiếng nói. Nhận dạng chính xác thanh điệu của mỗi âm tiết giúp
cải thiện hiệu năng của hệ thống nhận dạng tiếng nói [3]. Trong tổng hợp tiếng nói, việc
mô hình hoá chính xác đường F0 của mỗi thanh điệu giúp máy tính sinh ra tiếng nói tự
nhiên hơn [9].

15
Hình 1.15 – Đường F0 của các thanh điệu tiếng Việt
Hình 1.15 cho thấy đường F0 được xác định qua các âm được thu thành file .wav
trong điều kiện phòng. Đoạn tín hiệu trên là phát âm của một người nam phát âm chữ
“ba”, “bá”, “bà”, “bã”, “bạ”, “bả”. Chữ “ba” cho thấy F0 là dãy ít thay đổi giá trị (thanh
bằng), chữ “bá” có giá trị F0 tăng dần, chữ “bà” cho thấy F0 có giá trị giảm dần, chữ
“bã” cho thấy giá trị F0 có sự gián đoạn, chữ “bạ” cho thấy F0 có giá trị đồng đều rồi
giảm đột ngột, chữ “bả” có F0 tương tự như chữ “bã” nhưng dãy giá trị F0 đoạn thứ hai
ít thay đổi giá trị. Như vậy, qua giá trị F0 tính được, có thể suy diễn được thanh điệu của
âm tiết phát ra trong một đoạn tín hiệu tiếng nói.
Hình 1.16 – Đường F0 (trên) và tín hiệu (dưới) của câu nói “Các bạn trẻ nhất định
có nhiều cơ hội” của một giọng nữ
Hình 1.16 minh hoạ một ví dụ về tín hiệu của một đoạn câu nói được thu âm lại và
đường F0 đo được. Qua hình trên, các giá trị F0 cho thấy sự thay đổi của ngữ điệu trong
câu nói, ngữ điệu có đoạn đi lên và có đoạn đi xuống trong quá trình nói.
1.5.3. Các lý do khiến việc tìm F0 khó khăn
Có nhiều nguyên nhân khiến cho việc xác định F0 của tín hiệu tiếng nói khó khăn
[4]. Ở đây tôi tóm lại có 3 nguyên nhân chính sau.
Một là, tín hiệu tiếng nói về bản chất là tín hiệu ngẫu nhiên, không theo quy luật nhất
định, dẫn đến việc tìm quy luật về tính tuần hoàn của tín hiệu tiếng nói không dễ dàng.
Tính ngẫu nhiên thể hiện ở chỗ tín hiệu tiếng nói thu được của cùng một âm thay đổi
theo rất nhiều yếu tố bao gồm: điều kiện thu âm (thiết bị thu, khoảng cách từ thiết bị thu
đến miệng người nói, môi trường thu âm), người nói, thời điểm thu âm, thể trạng (điều

16
kiện tâm lý và sức khoẻ) của người nói tại thời điểm thu âm,… Một số ví dụ về tính
ngẫu nhiên của tín hiệu tiếng nói đã được trình bày trong các phần trước của chương
này.
Hai là, trong môi trường thu âm thực tế, không chỉ có tiếng nói mà còn các nguồn âm
khác được phát ra. Do đó, tín hiệu được thu lại ngoài tiếng nói còn có những âm thanh
khác được thu vào. Những âm thanh này gọi là các tạp âm (hay nhiễu). Nhiễu lẫn vào
tín hiệu tiếng nói sẽ làm cho thuật toán xử lý bị sai lệch. Các ví dụ điển hình là: nhiễu
có biên độ lớn làm méo hình dạng của tín hiệu tiếng nói gốc, hoặc nhiễu có thể vô tình
có dạng sóng tuần hoàn dẫn đến thuật toán tính F0 tưởng nhầm là âm hữu thanh để đi
tính F0 một cách không cần thiết.
Ba là, trong các cơ quan phát âm đóng góp vào việc tạo nên tiếng nói, ngoài dây thanh
(liên quan đến tính tuần hoàn hay F0 của tín hiệu) còn có khoang miệng và khoang mũi
(liên quan đến hình dạng chung hay âm sắc của tín hiệu). Điều này làm cho tín hiệu
tiếng nói chứa hỗn hợp các tín hiệu thành phần tạo nên từ các cơ quan này, dẫn đến thuật
toán tính F0 phải xử lý cả các phần tín hiệu không liên quan đến tính tuần hoàn của tín
hiệu.
1.6. Tổng kết chương
Tiếng nói là sóng âm lan truyền trong môi trường không khí. Tiếng nói được tạo ra
bởi độ rung của dây thanh trong hệ thống phát âm. Con người thu nhận âm thanh thông
qua bộ phận thu nhận âm thanh để xử lý thông tin được truyền đi từ người nói.
Trong xử lý tín hiệu tiếng nói, tiếng nói được biểu diễn trên miền thời gian và trên
miền tần số. Tín hiệu tiếng nói được biểu diễn trên miền thời gian là đồ thị biểu diễn tín
hiệu tiếng nói theo trục thời gian. Tín hiệu tiếng nói được biễu diễn trên miền tần số là
đồ thị biểu diễn tín hiệu tiếng nói theo trục tần số.
Tiếng nói ở mỗi người đều có đặc trưng khác nhau. Các đặc trưng này được tạo nên
từ âm sắc, cường độ, trường độ. Ở mỗi người, các đại lượng này là khác nhau nên tiếng
nói cảm nhận được là khác nhau. Trong lĩnh vực xử lý tín hiệu tiếng nói, F0 là đặc trưng
quan trọng của tín hiệu tiếng nói. Để tìm F0 của tín hiệu tiếng nói, cần dùng đến kỹ thuật
xử lý ngắn hạn chia tín hiệu tiếng nói thành nhiều khung nhỏ để xử lý.
Việc tính F0 tự động là một trong các bài toán cơ bản của lĩnh vực xử lý tiếng nói.
Đã có nhiều thuật toán được đề xuất để tính giá trị F0 của tín hiệu tiếng nói [7][8]. Mỗi
thuật toán có những ưu và nhược điểm khác nhau. Trong luận văn, tôi chọn nghiên cứu
và cài đặt thuật toán tìm F0 dùng hàm tự tương quan vì tính đơn giản về lý thuyết và cài
đặt thực tế. Thuật toán này đã được thử nghiệm trên tín hiệu tiếng nói [9] cũng như tín
hiệu âm nhạc [2] và đã cho thấy hiệu quả của nó.

17
CHƯƠNG 2: TÍNH TẦN SỐ CƠ BẢN DÙNG HÀM TỰ TƯƠNG QUAN
2.1. Mở đầu
Như đã đề cập trong chương trước, tần số cơ bản (hay F0) của tín hiệu tiếng nói là
tham số có ý nghĩa quan trọng trong lĩnh vực xử lý tiếng nói. Tìm được F0 chính xác là
tiền đề để tiến hành các nghiên cứu khác trong lĩnh vực này.
Để tính được F0, trong phạm vi của luận văn, tôi nghiên cứu hàm tự tương quan đối
với tín hiệu tiếng nói. Trong thực tế, khi nghiên cứu về tín hiệu tuần hoàn, hàm tự tương
quan được sử dụng nhiều vì từ hàm này dễ dàng xác định ra được chu kỳ cơ bản T0 của
tín hiệu, từ đó suy ra tần số cơ bản F0 là nghịch đảo của T0.
Ngoài ra, chuỗi giá trị F0 sau khi tính được bằng thuật toán tự tương quan có cải tiến
trên các khung tín hiệu thường vẫn tồn tại một vài giá trị F0 tăng hoặc giảm đột biến so
với các giá trị F0 còn lại. Do đó, cần có thuật toán lọc trung vị để loại bỏ các giá trị đột
biến này nhằm thu được đường F0 đủ trơn như mong muốn. Điều này xuất phát từ thực
tế là tần số rung của dây thanh của một người không thể biến đổi quá nhiều trong quá
trình phát âm do cấu tạo của thanh quản.
2.2. Hàm tự tương quan và ứng dụng để tính F0
Trong xử lý tín hiệu số nói chung và xử lý tín hiệu tiếng nói nói riêng, hàm tự tương
quan dùng để biến đổi tín hiệu tuần hoàn thành một tín hiệu tuần hoàn khác có các điểm
cực đại có thể xác định được dễ dàng, nhờ đó ứng dụng để xác định chu kỳ cơ bản T0
và tần số cơ bản F0 [5]. Hình 2.1 minh hoạ một ví dụ như vậy.
Hình 2.1 – Một đoạn tín hiệu tuần hoàn trên miền thời gian

18
Hình 2.2 – Hàm tự tương quan của đoạn tín hiệu tuần hoàn trong Hình 2.1
Hàm tự tương quan của tín hiệu được xác định bởi công thức [4]:
1
(l) ( ) ( )
(2 1)
lim
=− =−
= +
+

N
xx
N n N
r x n x n l
N
(2.1)
trong đó: rxx(l) là giá trị hàm tự tương quan theo độ trễ l, (2N+1) là độ dài khung tín
hiệu, x(n) là biên độ tín hiệu tại thời điểm n.
Hàm tự tương quan có các tính chất sau:
- Là một hàm chẵn: rxx(l)=rxx(-l);
- Đạt giá trị cực đại tại l=0: |rxx(l)| ≤ rxx(0) với mọi l;
- Đại lượng rxx(0) bằng năng lượng của tín hiệu tiếng nói.
Khi xử lý tín hiệu dùng kỹ thuật xử lý ngắn hạn (phần 1.4), ta chia tín hiệu tiếng nói
thành các khung tín hiệu có độ dài hữu hạn và công thức tự tương quan trở thành [2]:
1
( )
t W
t j j
j t
r x x 

+
+
= +
=  (2.2)
trong đó xj là biên độ tín hiệu tại thời điểm j, ( )
t
r  là giá trị của hàm tự tương quan
theo độ trễ  tại khung tín hiệu t, và W là độ dài của khung tín hiệu.
Nếu T0 là chu kỳ cơ bản của tín hiệu tuần hoàn, khi đó các giá trị độ trễ: 0, ±T0,
±2T0,… sẽ là các điểm mà hàm tự tương quan đạt cực đại cục bộ. Đây là ý tưởng chính
để xác định F0 của tín hiệu tiếng nói bằng hàm tự tương quan.
Tiếng nói có 2 loại âm: hữu thanh và vô thanh (phần 1.3). Tín hiệu của âm hữu thanh
có dạng sóng gần như tuần hoàn nên hàm tự tương quan của nó sẽ xuất hiện các điểm
cực đại cục bộ tại các độ trễ có giá trị bằng bội số nguyên lần của chu kỳ cơ bản. Hình
2.3 minh hoạ một ví dụ về đoạn tín hiệu và hàm tự tương quan của một âm hữu thanh
có chu kỳ cơ bản T0 = 167 (mẫu), chính là giá trị độ trễ ứng với điểm cực đại cục bộ có
biên độ lớn nhất của hàm tự tương quan.

19
Hình 2.3 – Tín hiệu (trên) và hàm tự tương quan (dưới) của một âm hữu thanh
Ngược lại, tín hiệu của âm vô thanh có dạng sóng không tuần hoàn nên hàm tự tương
quan của nó sẽ không có tính chất tương tự như âm hữu thanh. Hình 2.4 minh hoạ một
ví dụ về đoạn tín hiệu và hàm tự tương quan của một âm vô thanh. Chúng ta khó thấy
rõ các điểm cực đại cục bộ của hàm tự tương quan nằm ở đâu, và các điểm cực đại này
cũng không nằm cách đều nhau như trường hợp âm hữu thanh mà nằm rải rác một cách
ngẫu nhiên. Hai ví dụ trên cho thấy, giá trị cao hay thấp của điểm cực đại cục bộ có biên
độ lớn nhất của hàm tự tương quan có thể dùng để phân biệt một khung tín hiệu là hữu
thanh hay vô thanh.

20
Hình 2.4 – Tín hiệu (trên) và hàm tự tương quan (dưới) của một âm vô thanh
2.3. Thuật toán tính F0
Với những phân tích trong phần 2.2, tôi đưa ra thuật toán tính F0 của một khung tín
hiệu dựa trên hàm tự tương quan như Hình 2.5:

21
Bắt đầu
Một khung tín
hiệu tiếng nói
Tính hàm tự tương quan theo độ trễ
Xác định độ trễ T0 tại các cực đại
tìm được
Tính F0 = 1/T0
Khung tín hiệu
không tuần hoàn
(âm vô thanh)
Không xác định
được F0
Kết thúc
Biên độ cực đại
ngưỡng
False
True
Hình 2.5 – Thuật toán tìm F0 dùng hàm tự tương quan

22
Thuật toán trên được diễn giải như sau. Bằng kỹ thuật xử lý ngắn hạn, tín hiệu tiếng
nói đầu vào được chia nhỏ thành các khung tín hiệu ngắn (có độ dài từ 10 ms đến 30
ms) để xử lý. Trong luận văn, tôi thực hiện phân khung bằng hàm cửa sổ Hamming [4].
Hàm cửa sổ Hamming được xác định bởi công thức:
( ) 0.54 0.46 cos(2 ), 0 n N
n
w n
N

= −   (2.3)
Hình 2.6 – Ví dụ về một khung tín hiệu có độ dài 662 mẫu (tương đương 15 ms với
tần số lẫy mẫu 44100 Hz).
Sau khi tín hiệu được cắt thành từng khung, mỗi khung tín hiệu cần được phân loại
thuộc về âm hữu thanh hoặc âm vô thanh. Nếu khung tín hiệu thuộc về âm vô thanh
(nghĩa là khung tín hiệu không tuần hoàn) thì F0 không xác định. Nếu khung tín hiệu
thuộc về âm hữu thanh thì sẽ có giá trị F0 xác định. Việc phân loại hữu thanh/vô thanh
dựa trên hàm tự tương quan của khung tín hiệu như sau: thuật toán cần xác định điểm
cực đại cục bộ có biên độ lớn nhất của hàm tự tương quan (trừ điểm cực đại toàn cục tại
vị trí độ trễ =0). Nếu điểm cực đại cục bộ có biên độ lớn nhất tìm được có biên độ nhỏ
hơn một ngưỡng nào đó (thường là 30% giá trị biên độ của điểm cực đại toàn cục [4])
thì đó là âm vô thanh, ngược lại là âm hữu thanh.
Nếu khung tín hiệu thuộc về âm hữu thanh thì giá trị độ trễ tại điểm cực đại có biên
độ lớn nhất của hàm tự tương quan chính là chu kỳ cơ bản T0 của khung tín hiệu. Từ đó
ta xác định được F0 của khung tín hiệu đang xét theo công thức:
1
0
0
F
T
= (2.4)
Việc chia tín hiệu thành chuỗi các khung để xử lý và tính F0 dẫn đến kết quả đường
F0 thu được có dạng như Hình 2.7 với giá trị F0 xác định tại các khung hữu thanh (voiced
frames) và F0 không xác định tại các khung vô thanh (unvoiced frames).

23
Hình 2.7 – Ví dụ minh hoạ tín hiệu và kết quả tính F0 của nó.
2.4. Các tham số quan trọng của thuật toán
Phần này trình bày 2 tham số quan trọng ảnh hưởng nhiều đến độ chính xác của thuật
toán tự tương quan, đó là độ dài khung tín hiệu và ngưỡng xác định hữu thanh/vô thanh.
Các tham số này sẽ được khảo sát thực nghiệm trong phần 3.6 và 3.8.
2.4.1. Độ dài khung tín hiệu
Thuật toán tính F0 dựa trên hàm tự tương quan có sử dụng kỹ thuật xử lý ngắn hạn
(phân tín hiệu thành nhiều khung nhỏ) nên việc chọn loại cửa sổ và độ dài cửa sổ thích
hợp là quan trọng. Có rất nhiều hàm cửa sổ có thể được sử dụng trong kỹ thuật xử lý tín
hiệu ngắn hạn: Hamming, Hanning, Blackman, tam giác, chữ nhật [5]. Trong luận văn,
tôi chọn cửa sổ Hamming do tính phổ dụng của nó trong xử lý tín hiệu tiếng nói [4]. Về
độ dài cửa sổ, một cửa sổ có độ dài từ 10 ms đến 30 ms (để đảm bảo các tính chất của
tín hiệu tiếng nói tương đối ổn định trong khung tín hiệu) và bao gồm ít nhất 2 chu kỳ
liên tiếp của tín hiệu là điều kiện cần để xác định được chu kỳ cơ bản T0, từ đó suy ra
F0, của tín hiệu. Tuy nhiên, nếu một cửa sổ chứa quá nhiều chu kỳ tín hiệu lại có thể
làm cho thuật toán dễ mắc lỗi cao độ ảo [2], trong đó giá trị F0 tìm được thường gấp đôi
(hoặc gấp ba) hay chỉ bằng 1/2 (hoặc 1/3) giá trị F0 thực sự.
2.4.2. Ngưỡng xác định hữu thanh/vô thanh
Trong thuật toán tìm F0 dùng hàm tự tương quan, có một tham số quan trọng nữa đó
là ngưỡng để xác định một khung tín hiệu là của âm hữu thanh hay của âm vô thanh.
Việc tăng hoặc giảm ngưỡng này ảnh hưởng đến việc xác định âm hữu thanh hoặc âm
vô thanh của đoạn tín hiệu tiếng nói. Nếu ngưỡng này đặt ra là quá thấp, khi tính F0, các
khung tín hiệu vô thanh sẽ bị nhầm thành các khung tín hiệu hữu thanh. Nếu ngưỡng

24
này đặt ra là quá cao, khi tính F0, các khung tín hiệu hữu thanh sẽ bị nhầm thành các
khung tín hiệu vô thanh.
Hình 2.8 - Tín hiệu của âm vô thanh bị xác định nhầm thành âm hữu thanh, dẫn đến
xác định được F0 = 191,2 Hz tại 0,16 giây
Hình 2.9 - Tín hiệu của âm hữu thanh bị xác định nhầm thành âm vô thanh
và không xác định được giá trị F0 nào

25
2.5. Lọc trung vị
2.5.1. Cơ sở lý thuyết
Trong hầu hết các ứng dụng xử lý tín hiệu, làm trơn tuyến tính hầu như được sử dụng
để loại bỏ các thành phần nhiễu trong tín hiệu. Tuy nhiên, với một vài ứng dụng xử lý
tiếng nói, làm trơn tuyến tính không hoạt động hiệu quả do tính chất của tín hiệu được
làm trơn. Một ví dụ là đường F0 xác định từ tín hiệu tiếng nói không những chứa các
giá trị thay đổi một cách bất thường (outliers) so với các giá trị lân cận (Hình 2.10) mà
còn gián đoạn tại các vùng chuyển tiếp giữa âm vô thanh và âm hữu thanh (Hình 2.7).
Một bộ lọc tuyến tính thông thấp sẽ không kéo được giá trị F0 bất thường về gần các giá
trị đúng và còn làm méo đường F0 tại các điểm gián đoạn. Trong trường hợp này, một
kỹ thuật làm trơn phi tuyến như lọc trung vị là cần thiết.
Làm trơn trung vị (median smoothing) là kỹ thuật lọc phi tuyến được sử dụng phổ
biến trong xử lý tín hiệu. Nó có ưu điểm là loại bỏ được giá trị nhảy vọt so với các giá
trị lân cận mà vẫn bảo toàn các điểm gián đoạn trong tín hiệu. Giá trị đầu ra của bộ lọc
trung vị ứng với giá trị đầu vào x(n), ký hiệu là MN[x(n)], là giá trị trung vị (median) của
N giá trị x(n-L), …, x(n),…, x(n+L) (với N=2L+1 là số nguyên dương lẻ). Các giá trị
trung vị với chiều dài cửa sổ lọc N có các tính chất sau [4]:
- [ ( )] [ ( )]
N N
M x n M x n
 
= ;
- Các giá trị trung vị không làm nhoè các điểm gián đoạn trong tín hiệu nếu tín hiệu
không có điểm gián đoạn nào khác trong phạm vi N/2 mẫu (nghĩa là các điểm gián đoạn
phải cách nhau đủ xa);
- Các giá trị trung vị bám theo, một cách gần đúng, xu hướng có dạng đa thức bậc
thấp của tín hiệu.
Mặc dù lọc trung vị giữ lại được các gián đoạn sắc nét trong tín hiệu, kỹ thuật này lại
thường không loại bỏ hoàn toàn được các thành phần giống nhiễu của tín hiệu. Khi đó,
người ta kết hợp lọc trung vị với lọc thông thấp tuyến tính để tận dụng ưu điểm của cả
2 phương pháp.

26
2.5.2. Thuật toán lọc trung vị
Khung tín hiệu đưa vào
Khung tín hiệu đầu ra
Duyệt giá trị chưa xét của
khung tín hiệu
Lấy các điểm lân cận của điểm
khung tín hiệu đang xét đưa vào
cửa sổ
Sắp xếp các giá trị trong cửa số
Tính toán điểm giữa cửa sổ
(Median value)
Gán điểm tín hiệu được xét bởi
giá trị giữa của cửa số
Nếu còn tín hiệu để xét của
khung tín hiệu
True
False
Hình 2.10 – Sơ đồ khối thuật toán lọc trung vị
Trong luận văn, tín hiệu đưa vào thuật toán lọc trung vị là chuỗi giá trị F0 của tín hiệu
tiếng nói được xác định bởi thuật toán tự tương quan. Việc lọc trung vị sẽ áp dụng tuần
tự cho từng điểm từ đầu đến cuối tín hiệu đầu vào. Với kích thước N được định sẵn của
cửa sổ lọc trung vị, N giá trị lân cận 2 bên của điểm tín hiệu đang xét sẽ được điền vào
cửa sổ. Sau khi tính toán, giá trị trung vị của cửa sổ này sẽ được gán cho điểm tín hiệu
đang xét. Thuật toán sẽ được lặp lại cho đến khi kết thúc tín hiệu đầu vào.
Đối với các giá trị F0 ở gần hai biên thì cửa sổ lọc trung vị sẽ bị thiếu giá trị do không
có đủ N giá trị lân cận 2 bên. Để khắc phục điều này, trước tiên tôi bổ sung N/2 giá trị

27
F0 ở biên trái vào trước chuỗi giá trị F0 và bổ sung N/2 giá trị F0 ở biên phải vào sau
chuỗi giá trị F0, sau đó tôi mới tiến hành chạy lọc trung vị trên chuỗi giá trị F0 ban đầu.
Hình 2.11 – Đường F0 trước (hình trên) và sau khi lọc trung vị (hình dưới)
2.5.3. Kích thước bộ lọc
Độ dài N của cửa sổ lọc trung vị (còn gọi là kích thước bộ lọc) là tham số quan trọng
để bộ lọc trung vị có thể hoạt động đúng. Nếu kích thước càng lớn, giá trị tính toán sẽ
được thu hẹp và điểm lỗi sẽ gần hơn so với các điểm trơn hoặc các điểm đúng còn lại.
Tuy nhiên, kích thước quá lớn của bộ lọc cũng sẽ ảnh hưởng đến tốc độ tính toán cũng
như điểm bất thường được sửa lỗi. Nếu trong tín hiệu có quá nhiều điểm bất thường thì
điểm bất thường cần sửa lỗi không có tác dụng khi sử dụng bộ lọc trung vị. Do đó, kích
thước của cửa sổ lọc cần chọn phải phù hợp với tín hiệu. Tham số này được khảo sát
thực nghiệm trong phần 3.5.
2.6. Tổng kết chương
Về bản chất, hàm tự tương quan là hàm biến đổi tín hiệu từ miền thời gian sang miền
độ trễ. Do đó, để tính được F0, cần phải có các kỹ thuật khác liên quan đến miền độ trễ
được áp dụng trong thuật toán tìm F0 của tín hiệu tiếng nói. Qua đó sẽ làm cho giá trị
F0 tìm được chính xác hơn.
Để đánh giá được thuật toán và hàm tự tương quan trong việc tính F0 đối với tín hiệu
tiếng nói thu được, trong chương 3 tôi sẽ trình bày về ứng dụng sử dụng hàm tự tương
quan cũng như đánh giá hàm tự tương quan phát triển được so với cách thủ công để tính
F0.

28
CHƯƠNG 3: TRIỂN KHAI VÀ ĐÁNH GIÁ THUẬT TOÁN
3.1. Mở đầu
Trong chương này, tôi tiến hành cài đặt thuật toán tính F0 dùng hàm tự tương quan
trên Matlab [6]. Đồng thời, tôi dùng thuật toán lọc trung vị để làm trơn kết quả tính F0
nhận được từ thuật toán tự tương quan.
Để rút ra được kết quả và nhận xét hàm tự tương quan khi thực hiện tính F0 của tín
hiệu tiếng nói, tôi cài đặt hai hàm tự tương quan, một hàm là do tôi tự triển khai, và một
hàm thư viện của Matlab (hàm xcorr()). Đồng thời, tôi so sánh kết quả tính F0 tự động
bởi thuật toán với cách đo thủ công.
Để đánh giá độ chính xác của một thuật toán tính F0, người ta thường dùng 2 thước
đo gồm: lỗi xác định hữu thanh/vô thanh và sai số của giá trị F0 [8]. Lỗi xác định hữu
thanh/vô thanh lại được chia thành 2 loại lỗi sau:
- Lỗi nhầm hữu thanh thành vô thanh: là tỷ lệ lỗi khung tín hiệu tuần hoàn (ứng
với âm hữu thanh) bị xác định nhầm thành khung không tuần hoàn (ứng với âm
vô thanh).
- Lỗi nhầm vô thanh thành hữu thanh: là tỷ lệ lỗi khung tín hiệu không tuần hoàn
(ứng với âm vô thanh) bị xác định nhầm thành khung tuần hoàn (ứng với âm hữu
thanh).
Sai số của giá trị F0 chỉ được tính trên các khung tín hiệu được xác định thuộc âm
hữu thanh, dựa trên các giá trị F0 chuẩn (thường đo bằng phương pháp thủ công) và các
giá trị F0 tính tự động bởi thuật toán.
Tuy nhiên, các thước đo trên chỉ có thể đánh giá được trên tập tín hiệu đã xác định
trước mỗi khung tín hiệu là hữu thanh hay vô thanh, và nếu là khung hữu thanh thì F0
có giá trị chuẩn bằng bao nhiêu. Do không đủ thời gian để xây dựng tập dữ liệu F0 chuẩn
cho tín hiệu tiếng nói bất kỳ (ví dụ như của cả câu), trong luận văn tôi chỉ khảo sát tín
hiệu của các nguyên âm vì mỗi nguyên âm đều là âm hữu thanh và giá trị F0 của người
nói có thể coi là thay đổi không đáng kể trong thời gian phát âm. Khi đó, sai số của thuật
toán tính F0 trên mỗi tín hiệu nguyên âm được tính bằng độ lệch tuyệt đối giữa giá trị
F0 chuẩn được đo thủ công và giá trị F0 tự động tính bởi thuật toán.
3.2. Môi trường phát triển
Tôi cài đặt thuật toán và tiến hành thực nghiệm trên máy tính có cấu hình:
- Hệ điều hành: Windows 10 Ultimate x64
- Bộ nhớ trong: 8GB
- Bộ vi xử lý: Intel® Core™ i5-6260U CPU @ 1.80GHz
Phần mềm được sử dụng: Matlab – Phiên bản R2018a

29
3.3. Dữ liệu thử nghiệm
Việc khảo sát tín hiệu của nhiều âm nói bởi nhiều người khác nhau là cần thiết để
đánh giá hiệu quả của thuật toán. Tôi đã thu thập tín hiệu tiếng nói của năm nguyên âm
/a/, /e/, /i/, /o/, /u/ trong điều kiện phòng với ba giọng nam và ba giọng nữ của người
trưởng thành. Các tín hiệu được thu ở tần số lấy mẫu 44100 Hz, đơn kênh (mono), và
lưu trong các file .wav theo định dạng PCM của Microsoft.
Hình 3.1 – Tín hiệu nguyên âm /a/ của một người nam
Hình 3.2 – Tín hiệu nguyên âm /a/ của một người nữ
3.4. Demo ứng dụng
Ứng dụng được viết trên phần mềm Matlab với ba chức năng cơ bản: phần hiển thị
sóng âm của tín hiệu tiếng nói, phần hiển thị kết quả tính F0 của hàm tự tương quan tự
lập trình và hàm tự tương quan của Matlab, và phần cuối cùng là kết quả của hàm lọc
trung vị trên dữ liệu F0 thu được.

30
Hình 3.3 – Giao diện chính của chương trình
Để tính giá trị F0 của tín hiệu tiếng nói, đầu tiên cần phải mở file bằng cách vào menu
File → Open file, sau đó chọn file tín hiệu tiếng nói. Để hiển thị dạng sóng âm của tiếng
nói, click vào nút “Show waveform”.
Hình 3.4 – Hiển thị sóng âm của tín hiệu tiếng nói
Để hiển thị kết quả tính toán ứng với hàm tự tương quan của tác giả hoặc hàm tự
tương quan của Matlab, click chọn từng radio button tương ứng “Autocorrelation
function (make by author)” hoặc “Autocorrelation function (Matlab)” và sau đó click
“Show result” để hiển thị kết quả.

31
Để hiển thị kết quả sau khi lọc trung vị của tính hiệu tiếng nói, click vào nút “Show
median smoothing”.
Hình 3.5 – Kết quả tính F0 bằng hàm tự tương quan tự cài đặt và lọc trung vị
Hình 3.6 - Kết quả tính F0 bằng hàm tự tương quan của Matlab và lọc trung vị
Ngoài ra, ứng dụng còn có một chức năng khác đó là chức năng cho phép hiển thị
đoạn tín hiệu và kết quả xử lý của đoạn tín hiệu bằng hàm tự tương quan ứng với độ dài
khung đã nhập trong ứng dụng. Để thực hiện được chức năng này, cần phải tắt chế độ
“data cursor mode” của Matlab từ sang , file âm thanh phải được mở. Click vào

32
nút “Show wave form” để hiển thị đồ thị của sóng âm. Từ đồ thị, click chuột trái trên đồ
thị để kích hoạt chức năng.
Hình 3.7 – Chức năng xem khung tín hiệu và hàm tự tương quan của khung
3.5. Khảo sát giá trị kích thước bộ lọc trung vị
Trong luận văn, để tính kết quả chính xác hơn, tôi sử dụng hàm lọc trung vị để tính
kết quả F0 sau khi được tính bởi hàm tự tương quan. Để xác định được kích thước bộ
lọc N có độ tin cậy cao trong việc tính F0 của tín hiệu tiếng nói, tôi tiến hành khảo sát
với N lần lượt có giá trị là 3, 5, và 7. Các kích thước của bộ lọc sẽ được khảo sát trên tín
hiệu tiếng nói của một người nam và một người nữ ở các âm /a/, /e/, /i/, /o/, /u/. Để khảo
sát mang tính đầy đủ hơn, tôi cũng tiến hành khảo sát ở độ dài khung tín hiệu là 15 ms,
20 ms, và 30 ms.
Kết quả thu được ở độ dài khung 15 ms như sau:
Đơn vị đo: Hz
Tín
hiệu
Đo
thủ
công
F0 dùng
hàm tự
tương quan
F0 dùng hàm tự tương quan qua bộ lọc
trung vị
F0
Độ
lệch
N=3
Độ
lệch
N=5
Độ
lệch
N=7
Độ
lệch
/a/ 112,0 296,0 184,0 N/A N/A N/A N/A N/A N/A
/e/ 107,7 230,9 123,2 N/A N/A N/A N/A N/A N/A
/i/ 117,2 187,2 70,0 N/A N/A N/A N/A N/A N/A
/o/ 103,2 110,0 6,8 N/A N/A N/A N/A N/A N/A
/u/ 115,4 337,5 222,1 336,2 220,8 329,7 214,3 N/A N/A
Bảng 3.1 – Khảo sát kích thước bộ lọc trung vị với một người nam
ở khung tín hiệu 15 ms
Tải bản FULL (78 trang): https://bit.ly/3UMcKec
Dự phòng: fb.com/TaiHo123doc.net

33
Đơn vị đo: Hz
Tín
hiệu
Đo
thủ
công
F0 dùng
hàm tự
tương quan
trung vị
F0
Độ
lệch
N=3
Độ
lệch
N=5
Độ
lệch
N=7
Độ
lệch
/a/ 315,1 325,0 9,9 325,0 10,0 325,1 10,0 325,0 10,0
/e/ 310,7 322,6 12,0 321,9 11,3 322,2 11,5 322,2 11,6
/i/ 334,1 333,7 0,5 333,7 0,4 333,6 0,5 333,6 0,5
/o/ 317,4 320,8 3,4 320,7 3,4 320,7 3,4 320,7 3,3
/u/ 336,7 332,0 4,7 332,0 4,7 331,9 4,8 331,9 4,8
Bảng 3.2 - Khảo sát kích thước bộ lọc trung vị với một người nữ
Ở độ dài khung là 15ms, đối với tín hiệu của người nam thu được, các kết quả hầu
hết vẫn chưa có giá trị để thực hiện đánh giá. Ở bảng 3.7, kết quả đo được ở âm /u/, do
đó ở độ dài khung 15ms, kết quả đo F0 không đáng tin cây. Nhưng ngược lại, ở độ dài
khung này, ở bảng 3.8, kết quả ở tín hiệu nữ thu được lại có giá trị và độ lệch cao nhất
là 11,6 Hz. Trong hầu hết các kết quả đo được, với N = 3 cho thấy kết quả tốt hơn so
với N = 5 và N = 7. Với N = 5 hoặc N = 7, kết quả thu được không rõ ràng để quyết định
kích thước nào của cửa sổ là tốt hơn.
Với độ dài khung 20ms, kết quả thu được như sau:
Đơn vị đo: Hz
Tín
hiệu
Đo
thủ
công
F0 dùng
hàm tự
tương quan
trung vị
F0
Độ
lệch
N=3
Độ
lệch
N=5
Độ
lệch
N=7
Độ
lệch
/a/ 112,0 116,7 4,7 116,1 4,1 116,0 4,1 115,2 3,3
/e/ 107,7 138,8 31,2 115,1 7,4 114,8 7,1 114,5 6,8
/i/ 117,2 123,7 6,5 119,4 2,1 118,6 1,4 118,6 1,3
/o/ 103,2 119,9 16,7 114,0 10,8 113,2 10,0 113,1 9,8
/u/ 115,4 127,7 12,3 123,1 7,8 123,1 7,7 123,0 7,6
Bảng 3.3 - Khảo sát kích thước bộ lọc trung vị với một người nam
Đơn vị đo: Hz
Tín
hiệu
Đo
thủ
công
F0 dùng
hàm tự
tương quan
trung vị
F0
Độ
lệch
N=3
Độ
lệch
N=5
Độ
lệch
N=7
Độ
lệch
Tải bản FULL (78 trang): https://bit.ly/3UMcKec
Dự phòng: fb.com/TaiHo123doc.net

34
/a/ 315,1 323,2 8,1 323,1 8,0 323,1 8,1 323,1 8,1
/e/ 310,7 321,8 11,2 321,9 11,2 321,8 11,1 321,8 11,1
/i/ 334,1 333,9 0,2 333,9 0,2 333,9 0,2 334,0 0,1
/o/ 317,4 319,7 2,3 319,4 2,1 319,4 2,0 319,5 2,1
/u/ 336,7 321,3 15,4 331,2 5,5 331,2 5,5 331,2 5,5
Với độ dài khung tín hiệu là 20 ms, cho thấy với N = 7, tín hiệu hàm tự tương quan
qua bộ lọc trung vị đối với giọng nam thu được là tốt nhất. Điều này đã thể hiện rõ qua
bảng 3.9 đối với giọng nam thu được. Có một số trường hợp N = 5 có độ lệch bằng N =
7. Tuy nhiên, ở kết quả khác, N = 7 lại cho kết quả tốt hơn so với N = 5.
Đối với giọng nữ, việc chênh lệch giữa các kích thước cửa sổ của bộ lọc trung vị là
không nhiều. Nên trong trường hợp này, không thể đánh giá được kích thước của bộ lọc
trung vị nào là tốt.
Ở khung tín hiệu có chiều dài 30 ms có kết quả như sau:
Đơn vị đo: Hz
Tín
hiệu
Đo
thủ
công
F0 dùng
hàm tự
tương quan
trung vị
F0
Độ
lệch
N=3
Độ
lệch
N=5
Độ
lệch
N=7
Độ
lệch
/a/ 112,0 116,7 4,8 116,5 4,6 114,7 2,8 115,2 3,3
/e/ 107,7 113,0 5,3 112,9 5,2 113,0 5,3 113,3 5,6
/i/ 117,2 114,9 2,3 115,8 1,4 115,8 1,4 114,5 2,7
/o/ 103,2 112,2 8,9 112,0 8,8 111,8 8,5 111,3 8,1
/u/ 115,4 135,1 19,7 134,9 19,5 124,3 9,0 123,5 8,2
Bảng 3.5 - Khảo sát kích thước bộ lọc trung vị với một người nam
Đơn vị đo: Hz
Tín
hiệu
Đo
thủ
công
F0 dùng
hàm tự
tương quan
trung vị
F0
Độ
lệch
N=3
Độ
lệch
N=5
Độ
lệch
N=7
Độ
lệch
/a/ 315,1 319,7 4,6 319,8 4,7 319,7 4,6 319,7 4,6
/e/ 310,7 321,5 10,9 321,5 10,9 321,4 10,8 321,5 10,8
/i/ 334,1 332,0 2,1 332,0 2,1 331,9 2,2 331,9 2,2
/o/ 317,4 318,5 1,1 318,5 1,1 318,6 1,2 318,3 1,0
/u/ 336,7 332,8 3,9 332,8 3,9 332,8 3,9 332,8 3,9
7740251

XÁC ĐỊNH TẦN SỐ CƠ BẢN CỦA TÍN HIỆU TIẾNG NÓI DÙNG HÀM TỰ TƯƠNG QUAN.pdf

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to XÁC ĐỊNH TẦN SỐ CƠ BẢN CỦA TÍN HIỆU TIẾNG NÓI DÙNG HÀM TỰ TƯƠNG QUAN.pdf

Similar to XÁC ĐỊNH TẦN SỐ CƠ BẢN CỦA TÍN HIỆU TIẾNG NÓI DÙNG HÀM TỰ TƯƠNG QUAN.pdf (20)

More from TieuNgocLy

More from TieuNgocLy (20)

Recently uploaded

Recently uploaded (17)

XÁC ĐỊNH TẦN SỐ CƠ BẢN CỦA TÍN HIỆU TIẾNG NÓI DÙNG HÀM TỰ TƯƠNG QUAN.pdf