SlideShare a Scribd company logo
1 of 37
Download to read offline
ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
---------------------------------------
LÊ VĂN THỨC
ỨNG DỤNG MÔ HÌNH MARKOV ẨN XÂY DỰNG
HỆ THỐNG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT
LUẬN VĂN THẠC SĨ
KHOA HỌC MÁY TÍNH
Đà Nẵng – 2018
ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
---------------------------------------
LÊ VĂN THỨC
ỨNG DỤNG MÔ HÌNH MARKOV ẨN XÂY DỰNG
HỆ THỐNG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Ninh Khánh Duy
Đà Nẵng – 2018
i
LỜI CAM ĐOAN
Tôi xin cam đoan đây là luận văn do tôi nghiên cứu dưới sự hướng dẫn khoa
học của thầy TS. Ninh Khánh Duy. Các số liệu và tài liệu trong luận án là trung thực
và chưa được công bố trong bất kỳ công trình nghiên cứu nào. Tất cả những tham khảo
và kế thừa đều được trích dẫn và tham chiếu đầy đủ.
Đà Nẵng, năm 2018
Người thực hiện
Lê Văn Thức
ii
LỜI CẢM ƠN
Để hoàn thành luận văn tốt nghiệp của mình, em xin gửi lời cam ơn chân thành
và sự tri ân sâu sắc đối với các thầy cô của trương Đại học Bách Khoa Đà Nẵng, đặc
biệt khoa Công Nghệ Thông Tin của trường đã hết lòng tận tình chỉ dạy, truyền đạt
kiến thức cho chúng em trong suốt quá trình học tập và nghiên cứu.
Đặc biệt, em xin bày tỏ lòng biết ơn sâu sắc đến thầy TS. Ninh Khánh Duy–
người đã trực tiếp hướng dẫn, tận tình giúp đỡ và động viên em trong suốt quá trình
thực hiện luận văn tốt nghiệp này.
Thật lòng vô cùng cảm ơn sự hỗ trợ, giúp đỡ, động viên của toàn thể gia đình,
bạn bè trong suốt quá trình hoàn thành khóa luận tốt nghiệp, cũng như trong suốt quá
trình học tập vừa qua.
Mặc dù đã hết sức cố gắng song luận văn tốt nghiệp không tránh khỏi những
thiếu sót. Kính mong quý thầy giáo, cô giáo cũng toàn thể bạn bè góp ý để kiến thức
của em trong lĩnh vực này được hoàn thiện hơn.
Xin kính chúc quý Thầy, Cô sức khỏe và thành công trong sự nghiệp đào tạo
những thế hệ tri thức tiếp theo trong tương lai.
Một lần nữa xin chân thành cảm ơn!
Đà Nẵng, năm 2018
Người thực hiện
Lê Văn Thức
iii
TÓM TẮT
Tóm tắt - Mô hình Markov ẩn (Hidden Markov model) là một mô hình toán thống kê có
thể ứng dụng trong xử lý tiếng nói. Tổng hợp tiếng nói dựa trên mô hình Markov ẩn được
nghiên cứu và ứng dụng mạnh mẽ trên thế giới. Ở Việt Nam, tổng hợp tiếng nói tiếng Việt
dựa trên HMM đã và đang được nghiên cứu và triển khai những năm gần đây, và đã đạt được
các kết quả tương đối khả quan. Luận văn này nghiên cứu về lý thuyết mô hình Markov ẩn
(HMM) và ứng dụng của HMM trong tổng hợp tiếng nói, nghiên cứu các đặc trưng về ngữ âm
và âm vị của tiếng Việt, các đặc trưng cơ bản của tín hiệu tiếng nói (phổ, tần số cơ bản, …),
tổng quan về công nghệ tổng hợp tiếng nói (các module frontend và backend), kỹ thuật tạo
nhãn âm vị theo ngữ cảnh để từ đó tổng hợp ra tiếng nói. Kết quả là xây dựng được module
tạo nhãn âm vị theo ngữ cảnh cho tiếng Việt, dùng ngôn ngữ Python và framework Kivy xây
dựng chương trình chuyển văn bản thành tiếng nói cho tiếng Việt với chất lượng khá tốt.
Từ khóa - xử lý tiếng nói; tổng hợp tiếng nói; mô hình morkov ẩn; ngữ âm tiếng Việt;
âm vị tiếng Việt.
Abstract - The Hidden Markov model (HMM) is a widely used probability model for
speech processing. HMM-based speech synthesis has been studied and applied in many
languages around the world for a long time, but has been under development for about 10
years now in Vietnamese. This thesis presents the theory of HMM modeling and the
application of HMM in speech synthesis. In addition, the thesis also examines the phonetic
and phoneme characteristics of the Vietnamese language, the basic features of the speech
signal (such as spectrum, fundamental frequency, etc.), Modules of a text-to-speech system.
The main result of the thesis is to build the speech synthesis software for Vietnamese
language with good quality using Python programming language and Kivy framework.
Keywords - speech processing; speech synthesis; hidden Markov model; Vietnamese
phonetics.
iv
MỤC LỤC
LỜI CAM ĐOAN ...........................................................................................................i
LỜI CẢM ƠN ................................................................................................................ii
TÓM TẮT .................................................................................................................... iii
MỤC LỤC .....................................................................................................................iv
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT.............................................vi
DANH MỤC BẢNG ....................................................................................................vii
DANH MỤC CÁC HÌNH VẼ................................................................................... viii
MỞ ĐẦU.........................................................................................................................1
1. Lý do chọn đề tài................................................................................................1
2. Mục đích và ý nghĩa đề tài .................................................................................1
3. Mục tiêu và nhiệm vụ.........................................................................................1
4. Đối tượng và phạm vi nghiên cứu......................................................................2
5. Phương pháp nghiên cứu....................................................................................2
6. Kết luận ..............................................................................................................3
7. Cấu trúc luận văn................................................................................................3
Chương 1 - TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI..................................................4
1.1. Giới thiệu...............................................................................................................4
1.2. Ngữ âm Tiếng Việt................................................................................................4
1.3. Phân loại âm vị theo đặc trưng âm học.................................................................7
1.4. Các thành phần cơ bản của ngữ điệu trong tiếng nói............................................9
1.4.1. Cao độ (pitch hoặc f0) ....................................................................................9
1.4.2. Trường độ .......................................................................................................9
1.4.3. Cường độ ......................................................................................................10
1.5. Phân tích tiếng nói...............................................................................................10
1.5.1. Mô hình phân tích tiếng nói..........................................................................10
1.5.2. Phân tích tiếng nói ngắn hạn.........................................................................11
1.6. Các tham số cơ bản của tiếng hiệu tiếng nói.......................................................12
1.6.1. Tần số formant..............................................................................................12
1.6.2. Tần số cơ bản (F0)........................................................................................13
Chương 2 - TỔNG HỢP TIẾNG NÓI TỪ VĂN BẢN DỰA TRÊN MÔ HÌNH
MARKOV ẨN..............................................................................................................15
2.1. Giới thiệu.............................................................................................................15
2.2. Framework phân tích/tổng hợp tiếng nói............................................................15
v
2.3. Giai đoạn huấn luyện mô hình ............................................................................16
2.3.1. Mô hình hoá phổ bằng HMM có phân bố xác suất liên tục..........................17
2.3.2. Mô hình hoá F0 bằng HMM có phân bố xác suất đa không gian ................19
2.3.3. Tính toán đặc trưng động..............................................................................21
2.3.4. Mô hình hoá trường độ .................................................................................22
2.3.5. Mô hình hoá sự phụ thuộc ngữ cảnh và gom cụm ngữ cảnh........................22
2.4. Giai đoạn tổng hợp tiếng nói...............................................................................25
2.4.1. Phân tích văn bản..........................................................................................25
2.4.2. Xác định trường độ trạng thái.......................................................................25
2.4.3. Ảnh hưởng của đặc trưng động trong sinh tham số tiếng nói ......................26
Chương 3 – XÂY DỰNG HỆ THỐNG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT 29
3.1. Phân tích hệ thống...............................................................................................29
3.1.1. Mô-đun xử lý ngôn ngữ tự nhiên (front-end) ...............................................29
3.1.2. Mô-đun tổng hợp tiếng nói (back-end).........................................................29
3.1.3. Nhãn âm vị phụ thuộc ngữ cảnh...................................................................30
3.1.4. Quy tắc chuyển chữ cái có dấu mũ và dấu thanh sang nhãn âm vị ..............33
3.1.5. Xử lý Unicode cho tiếng Việt.......................................................................33
3.1.6. Thuật toán chuyển âm tiết thành chuỗi âm vị...............................................34
3.2. Thiết kế hệ thống.................................................................................................35
3.2.1. Mô-đun chính app.py....................................................................................35
3.2.2. Mô-đun xử lý các ký tự Unicode trong tiếng Việt uniproc.py .....................35
3.2.3. Mô-đun xử lý âm tiết let2snd.py...................................................................36
3.2.4. Mô-đun tạo nhãn âm vị phụ thuộc ngữ cảnh generate_label.py...................36
3.2.5. Mô-đun định nghĩa cấu trúc của một văn bản, định dạng của nhãn âm vị
và tạo nhãn âm vị phụ thuộc ngữ cảnh label_format.py.........................................36
3.3. Môi trường phát triển..........................................................................................38
Chương 4 – KẾT QUẢ THỰC NGHIỆM.................................................................39
4.1. Điều kiện thử nghiệm.......................................................................................39
4.2. Kết quả và đánh giá..........................................................................................39
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................................45
1. Kết quả đạt được ....................................................................................................45
2. Hướng phát triển ....................................................................................................45
TÀI LIỆU THAM KHẢO...........................................................................................46
vi
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
ADC : Analog to Digital Converter
STFT : Short-time Fourier transform
LPC : Linear Prediction Coded
THTN : Tổng hợp tiếng nói
HMM : Hidden Markov Model
MLSA : Mel Log Spectrum Approximation
LSP : Line spectral pair
EM : Expectation-Maximization
MSD : Multi-space Probability Distribution
MDL : minimum description length
HTS : HMM-based Speech Synthesis System
API : Application Programming Interface
Δ : Delta
vii
DANH MỤC BẢNG
Số hiệu
bảng
Tên bảng Trang
1.1. Cấu trúc của một âm tiết trong tiếng Việt [1]. 5
1.2. Bảng ánh xạ chữ cái sang âm vị của tiếng Việt. 5
3.1. Quy tắc chuyển dấu thanh sang nhãn âm vị. 33
3.2. Quy tắc chuyển chữ cái có dấu mũ sang nhãn âm vị. 33
viii
DANH MỤC CÁC HÌNH VẼ
Số hiệu
hình
Tên hình Trang
1.1. (a) Tần số, đường năng lượng âm vô thanh; (b) tần số, đường
năng lượng âm hữu thanh.
9
1.2. Mô hình tổng quát của việc xử lý tín hiệu tiếng nói [9] 10
1.3. Âm thanh có thể được xác định tốt hơn bởi các formant và sự
chuyển tiếp giữa các âm vị của chúng [8].
13
1.4. Dạng sóng âm (đồ thị trên) so với đường F0 (đồ thị dưới). 14
2.1. Tổng hợp tiếng nói dựa trên mô hình Markov ẩn 15
2.2. Mô hình nguồn-bộ lọc mô phỏng cách con người phát âm. 16
2.3. Một HMM có 3 trạng thái (không bỏ qua trạng thái nào khi đi từ
trái sang phải) sinh ra một chuỗi quan sát (chỉnh sửa từ [3])
18
2.4. Mô hình hóa đường F0 trên hai không gian [3]. 20
2.5. MSD-HMM cho mô hình hóa đường F0 [3]. 21
2.6. Vector đặc trưng của khung tín hiệu [3]. 22
2.7. Một ví dụ về phân cụm ngữ cảnh dựa trên cây quyết định [3]. 24
2.8. Sơ đồ khối của giai đoạn tổng hợp [3]. 25
2.9. Sinh trường độ trạng thái [7]. 26
2.10. Quỹ đạo tham số tiếng nói sinh ra [3] (chỉ hiển thị một chiều của
vector đặc trưng). Các tham số delta được hiển thị như là đại diện
cho các đặc trưng động.
27
3.1. Mô-đun xử lý ngôn ngữ tự nhiên (front-end). 29
3.2. Mô-đun tổng hợp tiếng nói (back-end) và quá trình huấn luyện
HMM để tạo HTS_voice.
30
3.3. Thuật toán chuyển âm tiết thành chuỗi âm vị cho tiếng Việt [2]. 34
3.4. Class diagram mô tả class đại diện cho một văn bản. 36
4.1. Giao diện chính của chương trình. 40
4.2. Giao diện chính của chương trình và nhãn ngữ cảnh được tạo. 41
1
MỞ ĐẦU
1. Lý do chọn đề tài
Tổng hợp tiếng nói (Speech synthesis/Text-To-Speech) là một trong những lĩnh
vực được nghiên cứu từ hàng chục năm nay, với mục đích giúp giao tiếp giữa người và
máy (Human-Machine Interface) trở nên tự nhiên và dễ dàng hơn. Tuy đã trải qua một
chặng đường rất dài nhưng đến nay chất lượng âm thanh và độ tự nhiên của tiếng nói
tổng hợp vẫn còn là chủ đề đáng quan tâm. Vì được ứng dụng rộng rải, đặc biệt cho
IoT nên bài toán tổng hợp tiếng nói đang được các hãng công nghệ lớn tham gia
nghiên cứu và đầu tư.
Tổng hợp tiếng nói có thể thực hiện theo nhiều phương pháp như: tổng hợp mô
phỏng hệ thống phát âm, tổng hợp tần số formant, tổng hợp dựa trên ghép nối, tổng
hợp theo mô hình Markov ẩn (Hidden Markov Model – HMM). Mỗi phương pháp đều
có những ưu nhược điểm riêng tuỳ vào mục đích sử dụng, nhưng chung quy lại thì bất
kỳ phương pháp tổng hợp tiếng nói nào cũng có mục đích căn bản là tạo ra tiếng nói
chất lượng dễ hiểu và tự nhiên.
Từ năm 2000, tổng hợp tiếng nói dựa trên HMM được nghiên cứu và ứng dụng
mạnh mẽ trên thế giới. Ở Việt Nam, tổng hợp tiếng nói tiếng Việt dựa trên HMM đã
và đang được nghiên cứu và triển khai những năm gần đây, với sự tham gia của FPT,
trung tâm nghiên cứu của các trường Đại học, Viện Công nghệ thông tin, Viện Hàn
lâm khoa học và Công nghệ Việt Nam và đến nay đã đạt được các kết quả tương đối
khả quan.
Nhằm tìm hiểu công nghệ tổng hợp tiếng nói dựa trên HMM và áp dụng cho
tiếng Việt, tôi chọn đề tài nghiên cứu là: “Ứng dụng mô hình Markov ẩn xây dựng
hệ thống tổng hợp tiếng nói tiếng Việt”.
2. Mục đích và ý nghĩa đề tài
a. Mục đích
- Nghiên cứu lý thuyết HMM và ứng dụng của nó trong tổng hợp tiếng nói.
- Xây dựng và cài đặt hệ thống tổng hợp tiếng nói tiếng Việt dựa trên HMM.
b. Ý nghĩa khoa học và thực tiễn của đề tài
- Đóng góp vào lĩnh vực nghiên cứu ứng dụng tổng hợp tiếng nói cho tiếng
Việt.
- Dựa vào kết quả nghiên cứu có thể xây dựng các chương trình tổng hợp
tiếng nói tiếng việt ứng dụng cho người tàn tật, trong truyền thông,...
3. Mục tiêu và nhiệm vụ
a. Mục tiêu
Mục tiêu của đề tài là nghiên cứu mô hình Markov ẩn và ứng dụng vào tổng
2
hợp tiếng nói tiếng Việt, cụ thể:
- Nghiên cứu mô hình Markov ẩn.
- Xây dựng chương trình tổng hợp tiếng nói tiếng việt.
b. Nhiệm vụ
Để đạt được mục tiêu đề ra thì nhiệm vụ cần thiết phải làm là:
- Nghiên cứu lý thuyết mô hình Markov ẩn (HMM) và ứng dụng của HMM
trong tổng hợp tiếng nói.
- Tìm hiểu các đặc trưng về ngữ âm và âm vị của tiếng Việt.
- Tìm hiểu HTS (HMM-based speech synthesis system) toolkit cho tổng hợp
tiếng nói.
- Cài đặt chương trình huấn luyện HMM từ dữ liệu tiếng nói.
- Cài đặt chương trình chuyển văn bản thành tiếng nói gồm 2 mô-đun: phân
tích văn bản (chuyển văn bản thành biểu diễn ngôn ngữ) và tổng hợp tiếng
nói dùng HMM (chuyển biểu diễn ngôn ngữ thành tín hiệu tiếng nói).
- Đánh giá độ tự nhiên và dễ hiểu của tiếng nói tổng hợp được.
4. Đối tượng và phạm vi nghiên cứu
a. Đối tượng
- Các đặc trưng ngữ âm học và âm vị học của tiếng Việt.
- Các đặc trưng của tín hiệu tiếng nói (phổ, tần số cơ bản,…).
- Các thuật toán học máy dùng HMM và sinh tín hiệu tiếng nói từ HMM.
b. Phạm vị
Tiếng Việt.
5. Phương pháp nghiên cứu
Phương pháp nghiên cứu chính là kết hợp giữa nghiên cứu lý thuyết và thực
nghiệm.
a. Phương pháp lý thuyết
- Thu thập và tổng hợp tài liệu thông qua các bài báo, tạp chí khoa học, qua
trao đổi với thầy hướng dẫn.
- Tìm hiểu các công nghệ liên quan.
- Tìm hiểu và đánh giá các phương pháp đã áp dụng.
b. Phương pháp thực nghiệm
- Khảo sát và phân tích các phương pháp, mô hình tổng hợp tiếng nói.
- Lựa chọn cách tiếp cận đã được áp dụng thành công, tiến hành thử nghiệm
với tiếng Việt.
- Nhận xét, đánh giá kết quả thử nghiệm.
3
6. Kết luận
a. Kết quả của đề tài
- Nắm vững cơ sở lý thuyết tổng hợp tiếng nói nói chung và tổng hợp tiếng
nói tiếng Việt nói riêng.
- Nắm vững cơ sở lý thuyết HMM.
- Đề xuất phương pháp tổng hợp tiếng nói tiếng Việt dựa trên HMM.
- Xây dựng hệ thống tổng hợp tiếng nói tiếng Việt.
b. Hướng phát triển của đề tài
- Nghiên cứu các phương pháp cải tiến chất lượng tiếng nói: thuật toán trích
đặc trưng tín hiệu, thuật toán huấn luyện HMM.
- Xây dựng các ứng dụng của tổng hợp tiếng nói: đọc báo cho người khiếm
thị, chuyển e-book thành sách nói (audiobook).
7. Cấu trúc luận văn
Chương 1: Tổng quan về xử lý tiếng nói
Chương 2: Tổng hợp tiếng nói từ văn bản dựa trên mô hình Markov ẩn
Chương 3: Xây dựng hệ thống tổng hợp tiếng nói tiếng Việt
Chương 4: Kết quả thực nghiệm
4
Chương 1 - TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI
1.1 Giới thiệu
Tiếng nói là phương tiện giao tiếp cơ bản giữa người với người, kể từ khi công
nghệ xử lý tiếng nói phát triển thì con người còn có thế giao tiếp được với máy thay
thế cho những phương pháp giao tiếp thông qua các thiết bị giao tiếp như bàn phím,
chuột, màn hình, … Vì vậy vấn đề xử lý tiếng nói đóng vai trò quan trọng trong vấn đề
giao tiếp này. Trên thế giới, lĩnh vực xử lý tiếng nói đã được nghiên cứu và phát triển
từ những năm 1971 và đã đạt nhiều thành tựa nhất định, tuy nhiên, đối với tiếng Việt
thì mới chỉ được nghiên cứu phát triển trong khoảng 10 năm trở lại đây. Những nghiên
cứu này liên quan trực tiếp tới các kết quả của chuyên ngành xử lý tiếng nói, trong đó
có tổng hợp tiếng nói. Xử lý tiếng nói là sự nghiên cứu về tín hiệu tiếng nói của con
người và các phương pháp xử lý tín hiệu tiếng nói. Tín hiệu tiếng nói thường được
biểu diễn dưới dạng số do việc xử lý tiếng nói bao gồm xử lý tín hiệu số và xử lý ngôn
ngữ tự nhiên.
1.2 Ngữ âm Tiếng Việt
1.2.1. Âm vị
Về mặt ngôn ngữ học [9], có thể xem tiếng nói là một chuỗi các âm cơ bản
được gọi là âm vị. Âm vị là đơn vị ngôn ngữ trừu tượng và không thể quan sát trực
tiếp trong tín hiệu tiếng nói. Nhiều âm vị khác nhau kết hợp với nhau một cách nào đó
để tạo ra những âm thanh khác nhau.
1.2.2. Nguyên âm
Nguyên âm được xác định bởi hốc cộng hưởng khoang miệng và hốc yết hầu-
nguồn gốc của các Formant. Khoang miệng và khoang yết hầu được tách biệt ra bởi
lưỡi. Do đó, sự thay đổi của khoang này đồng nghĩa với sự thay đổi của khoang kia.
Việc xác định thể tích, hình dáng, lối thoát không khí của những hốc cộng hưởng này,
tức xác định khả năng cộng hưởng của chúng, chính là mô tả độ mở của miệng, vị trí
của lưỡi và hình dáng của môi.
1.2.3. Phụ âm
Đặc điểm cơ bản của phụ âm là sự cấu tạo bằng luồng không khí bị cản trở, sự
cản trở này diễn ra với những mức độ khác nhau, cách thức khác nhau và ở những bộ
phận khác nhau của cơ quan phát âm. Phụ âm đuợc chia ra phụ âm tắc (như ‘p’, ‘t’,
‘đ’, ‘b’) và phụ âm xát (như ‘v’, ‘s’, ‘x’).
a) Phụ âm tắc
Đặc trưng là một tiếng nổ, do luồng không khí bị cản trở hoàn toàn, phải phá vỡ
sự cản trở để thoát ra ngoài. Phụ âm tắc được chia làm phụ âm bật hơi (như ‘th’) và
phụ âm mũi (như ‘m’, ‘n’, ‘ng’, ‘nh’).
5
b) Phụ âm xát
Đặc trưng là tiếng cọ xát, phát sinh do luồng không khi đi ra bị cản trở không
hoàn toàn (chỉ bị khó khăn) phải lách qua một khe hở nhỏ và trong khi thoát ra ngoài
cọ xát vào thành của bộ phận phát âm.
1.2.4. Cấu trúc âm tiết
Mỗi âm tiết trong tiếng Việt là một khối hoàn chỉnh trong phát âm. Âm tiết tuy
phát âm liền một hơi nhưng có cấu tạo ghép chứa ba bộ phận: thanh điệu, phần đầu và
phần sau. Phần đầu của âm tiết được xác định là âm đầu, ở vị trí này chỉ có một âm vị
tham gia cấu tạo. Phần sau của âm tiết được gọi là phần vần.
Các âm đầu vần, giữa vần và cuối vần được gọi là âm đệm, âm chính và âm
cuối. Bảng sau đây sẽ cho chúng ta hình dung rõ về cấu tạo âm tiết tiếng Việt:
Bảng 1.1. Cấu trúc của một âm tiết trong tiếng Việt [1].
Thanh điệu (Tone)
Âm đầu (Initial)
Vần (Final)
Âm đệm (Onset) Âm chính (Nucleus) Âm cuối (Coda)
Theo thống kê thì tiếng Việt có 6 thanh điệu (ngang, huyền, hỏi, ngã, sắc,
nặng), 22 âm đầu, 1 âm đệm, 16 âm chính và 8 âm cuối.
1.2.5. Ánh xạ chữ cái sang âm vị
Trong tiếng Việt, mỗi chữ cái không phải là một âm vị và ngược lại. Vì vậy, để
phân tích một âm tiết (dạng text) thành chuỗi âm vị, ta phải xây dựng bảng ánh xạ chữ
cái sang âm vị dựa trên tài liệu chuẩn về ngữ âm tiếng Việt [1].
Bảng 1.2. Bảng ánh xạ chữ cái sang âm vị của tiếng Việt.
Vị trí
trong
âm tiết
Chữ
cái
Âm vị
(theo phiên âm quốc tế IPA)
Âm vị
(tự mã hoá)
Âm tiết ví dụ
Âm đầu
m m m ma
n n n na
nh ɲ nj nhà
ng ŋ N ngà
ngh ŋ N nghĩ
b b b bán
p P p pa
đ d d đài
6
Vị trí
trong
âm tiết
Chữ
cái
Âm vị
(theo phiên âm quốc tế IPA)
Âm vị
(tự mã hoá)
Âm tiết ví dụ
t t t tàn
th tʰ tH thu
tr ʈ tr trong
ch c c chán
c k k cái
k k k kiêu
q k k qua
v v v vũ
ph f f phở
d z z dì
gi z z gió
x s s xem
r ʐ zr rồi
s ʂ sr sẽ
g ɣ G gái
gh ɣ G ghiền
kh x x khuôn
h h h hát
l l l lan
(không
có)
ʔ Q ùa
Âm
đệm
u u
̯ w quà
o u
̯ w hoa
Âm
cuối
m m m am
n n n hàn
ng ŋ N vàng
nh ŋ N vành
p p p áp
t t t lát
c k k các
ch k k dịch
7
Vị trí
trong
âm tiết
Chữ
cái
Âm vị
(theo phiên âm quốc tế IPA)
Âm vị
(tự mã hoá)
Âm tiết ví dụ
i i ji gì
y i̯ ji hay
o u
̯ wu hào
u u
̯ wu hàu
Âm
trung
tâm
u u u hù
ư ɯ W hư
ô o o cô
ơ ɤ oU cớ
â ɤ
̆ oUs bất
oo ɔ O xoong
i i i khi
y i i ly
ê e e khế
e ɛ E hè
ă ă as căn
iê i
͜ e ie điền
ia i
͜ e ie vía
yê i
͜ e ie yêu
ya i
͜ e ie khuya
uô u
͜ o uo khuôn
ua u
͜ o uo cua
ươ ɯ
͜ ɤ WoU lươn
ưa ɯ
͜ ɤ WoU lựa
o ɔ, ɔ
̆ O, Os to, vòng
a ɛ
̆ , a, ă Es, a, as xanh, ba, hay
Bảng trên là cơ sở để đưa ra thuật toán chuyển âm tiết thành chuỗi âm vị ở phần
3.1.6.
1.3. Phân loại âm vị theo đặc trưng âm học
Tiếng nói là âm thanh mang mục đích diễn đạt thông tin, khi giao tiếp chuỗi lời
nói mà con người phát ra gồm nhiều khúc đoạn dài ngắn khác nhau. Đơn vị phát âm
ngắn nhất là âm tiết (syllable). Trong tiếng Việt, có khoảng 6700 âm tiết được sử
8
dụng. Khi chúng ta phát ra một tiếng thì có rất nhiều bộ phận như lưỡi, thanh môn,
môi, họng, thanh quản, ... kết hợp với nhau để tạo thành âm thanh. Âm thanh phát ra
được lan truyền trong không khí để đến tai người nhận. Vì âm thanh phát ra từ sự kết
hợp của rất nhiều bộ phận, do đó âm thanh ở mỗi lần nói khác nhau hầu như khác nhau
dẫn đến khá khó khăn khi ta muốn phân chia tiếng nói theo những đặc tính riêng.
Người ta chỉ chia tiếng nói thành 2 loại cơ bản như sau:
1.3.1. Âm hữu thanh
Là âm khi phát ra thì có thanh, ví dụ như chúng ta nói “i”, “a”, hay “o” chẳng
hạn. Thực ra âm hữu thanh được tạo ra là do việc không khí qua thanh môn (thanh
môn tạo ra sự khép mở của dây thanh dưới sự điều khiển của hai sụn chóp) với một độ
căng của dây thanh sao cho chúng tạo nên dao động.
Được tạo ra khi dây thanh âm căng lên và rung khi áp suất không khí tăng lên,
làm cho thanh môn mở ra rồi đóng lại khi luồng không khí đi qua. Bộ phận phát âm
hoạt động giống như hộp cộng hưởng, khuếch đại những thành phần hài này và làm
suy giảm những thành phần hài khác để tạo ra âm hữu thanh. Mức độ rung của dây
thanh âm tùy thuộc vào áp suất không khí ở phổi và sức căng của dây thanh âm. Người
nói có thể điều khiển 2 yếu tố trên để thày đổi chu kì cơ bản (được gọi là pitch) của âm
thanh. Ở người đàn ông, tần số cơ bản khoảng từ 50÷250 Hz, trong khi ở phụ nữ là
thường rơi vào khoảng 120÷500 Hz. Trong ngôn ngữ, các nguyên âm về bản chất âm
học là những âm hữu thanh.
1.3.2. Âm vô thanh
Được tạo ra khi dây thanh âm không rung. Có hai loại âm vô thanh cơ bản: âm
xát và âm bật hơi [1].
Đối với âm xát, ví dụ khi nói “s”, “x”, một số điểm trên bộ phận phát âm bị co
lại khi luồng không khí đi ngang qua nó, hỗn loạn xảy ra tạo nên nhiễu ngẫu nhiên.
Bởi vì những điểm co thường ở phía trước miệng, cộng hưởng của bộ phận phát âm có
ảnh hưởng nhỏ đến đặc tính của âm xát.
Đối với âm bật hơi, như khi ta nói ‘h’ trong hung?, hỗn loạn xảy ra ở gần thanh
môn khi dây thanh âm bị giữ nhẹ một phần. Trường hợp này, cộng hưởng của bộ phận
phát âm sẽ biến điệu phổ của nhiễu ngẫu nhiên. Hiệu ứng này có thể nghe rõ khi nói
thì thầm. Cấu tạo cơ bản của phụ âm trong mọi ngôn ngữ là âm vô thanh. Ngoài hai
loại âm cơ bản ở trên, còn có một loại âm trung gian vừa mang tính chất nguyên âm,
vừa mang tính chất phụ âm, được gọi là bán nguyên âm hay bán phụ âm. Ví dụ như
âm ‘i’ và ‘u’ trong những từ ‘ai’, ‘âu’.
Khi phát các âm này, bộ máy phát âm sẽ được đóng lại hoàn toàn tại một điểm
nào đó trong bộ máy phát âm. Áp suất không khí trong bộ máy phát âm sẽ tăng lên tức
9
thời và được giải phóng một cách đột ngột. Sự giải thoát nhanh chóng của áp suất này
sẽ tạo nên một sự kích thích tạm thời của bộ máy phát âm.
(a)
(b)
Hình 1.1. (a) Tần số, đường năng lượng âm vô thanh; (b) tần số, đường năng lượng
âm hữu thanh.
1.4. Các thành phần cơ bản của ngữ điệu trong tiếng nói
Ngữ điệu là một thành phần tổng quát và quan trọng của tiếng nói, bởi vì tất cả
các ngôn ngữ đều có ngữ điệu. Trong ngành ngôn ngữ học, ngữ điệu là một thành của
ngữ âm, và được biểu diễn bởi các yếu tố vật lý như thời gian, cao độ, cường độ, phổ.
Và một hệ thống ngữ điệu (intonation system) là một sự thay đổi về cao độ, cường độ,
thời gian ngắt nghỉ, phổ của một câu nhằm thể hiện một ý nghĩa, sắc thái tình cảm khi
giao tiếp bằng tiếng nói. Ngữ điệu bao gồm một số thành phần như sau:
1.4.1. Cao độ (pitch hoặc f0)
Trong số các yếu tố ngôn điệu, sự thay đổi cao độ là rõ ràng, dễ thấy nhất. Các
thay đổi này hợp thành đường cao độ của lời nói (hay đường F0 của tín hiệu tiếng nói).
Một vài nghiên cứu về các đường cao độ ở mức độ câu cho thấy đường cao độ của
những câu dài hơn có thể phân tách thành một chuỗi những đường cơ bản, những
đường này lại có thể được phân nhỏ hơn thành những đường cao độ của âm tiết.
1.4.2. Trường độ
Trường độ trong ngôn điệu quan tâm đến độ dài của câu, của từ, của âm tiết, và
của từng âm vị của âm tiết. Độ dài của âm tiết và lời nói phụ thuộc (phụ thuộc hoặc
phụ thuộc lẫn nhau) vào một số yếu tố như tốc độ nói, nhịp điệu, bản chất ngữ âm, ...
Trong phần lớn trường hợp, trường độ tuyệt đối của một yếu tố được ước lượng một
10
cách dễ dàng. Thỉnh thoảng, việc xác định được biên của một yếu tố là không dễ dàng.
1.4.3. Cường độ
Là một thuộc tính ngôn điệu đã được mô tả từ những nghiên cứu đầu tiên về
ngôn điệu trong ngữ âm học. Người ta cho rằng nó liên quan đến âm lượng (loudness)
cũng như các lực âm vị (phonology force). Cả hai tính chất này đều ám chỉ đến dạng
cảm nhận của ngôn điệu: âm tiết mang trọng âm nổi bật hơn so với các âm tiết xung
quanh, do âm lượng lớn hoặc các thuộc tính động của chúng.
1.5. Phân tích tiếng nói
1.5.1. Mô hình phân tích tiếng nói
Tín hiệu tiếng nói được tiền xử lý bằng cách cho qua một bộ lọc thông thấp với
tần số cắt khoảng 8kHz. Tín hiệu thu được sau đó được thực hiện quá trình biến đổi
sang dạng tín hiệu số nhờ bộ biến đổi ADC. Thông thường, tần số lấy mẫu bằng
16kHz với tốc độ bít lượng từ hóa là 16bit. Tín hiệu tiếng nói dạng số được phân
khung với chiều dài khung thường khoảng 30ms và khoảng lệch các khung thường
bằng 10ms. Khung phân tích tín hiệu sau đó được chỉnh biên bằng cách lấy cửa sổ với
các hàm cửa sổ phổ biến như Hamming, Hanning.... Tín hiệu thu được sau khi lấy cửa
sổ được đưa vào phân tích với các phương pháp phân tích phổ (chẳng hạn như STFT,
LPC, ...). Hoặc sau khi phân tích phổ cơ bản, tiếp tục được đưa đến các khối để trích
chọn các đặc trưng.
Hình 1.2. Mô hình tổng quát của việc xử lý tín hiệu tiếng nói [9]
11
1.5.2. Phân tích tiếng nói ngắn hạn
Trong lý thuyết phân tích, chúng ta thường không để ý đến một điểm quan
trọng là các phân tích phải được tiến hành trong một khoảng thời gian giới hạn. Chẳng
hạn, chúng ta biết rằng biến đổi Fourier theo thời gian liên tục là một công cụ vô cùng
hữu ích cho việc phân tích tín hiệu. Tuy nhiên, nó yêu cầu phải biết được tín hiệu trong
mọi khoảng thời gian. Hơn nữa, các tính chất hay đặc trưng của tín hiệu mà chúng ta
cần tìm hiểu phải là các đại lượng không đổi theo thời gian. điều này trong thực tế
phân tích tín hiệu khó mà đạt được vì việc phân tích tín hiệu đáp ứng các ứng dụng
thực tế có thời gian hữu hạn. Hầu hết các tín hiệu, đặc biệt là tín hiệu tiếng nói, không
phải là tín hiệu không đổi theo thời gian.
Về mặt nguyên lý, chúng ta có thể áp dụng các kỹ thuật phân tích đã biết vào
phân tích tín hiệu trong ngắn hạn. Tuy nhiên vì tín hiệu tiếng nói là một quá trình
mang thông tin động nên chúng ta không thể chỉ đơn thuần xem xét phân tích ngắn hạn
trong chỉ một khung thời gian đơn lẻ.
Tín hiệu tiếng nói như đã đề cập là tín hiệu thay đổi theo thời gian. Nó có các
đặc trưng cơ bản như nguồn kích thích (excitation), cường độ (pitch), biên độ
(amplitude), ... Các tham số thay đổi theo thời gian của tín hiệu tiếng nói có thể kể đến
là tần số cơ bản (fundamental frequency - pitch), loại âm (âm hữu thanh - voiced, vô
thanh - unvoiced, tắc - fricative hay khoảng lặng - silence), các tần số cộng hưởng
chính (formant), hàm diện tích của tuyến âm (vocal tract area), ...
Việc thực hiện phân tích ngắn hạn tức là xem xét tín hiệu trong một khoảng
nhỏ thời gian xung quanh thời điểm đang xét n nào đó. Các khoảng này thường
khoảng từ 10-30ms. Điều này cho phép chúng ta giả thiết rằng trong khoảng thời
gian đó các tính chất của dạng sóng tín hiệu tiếng nói là tương đối ổn định. Khoảng
nhỏ tín hiệu dùng để phân tích thường được gọi là một khung (frame), hay một đoạn
(segment). Một khung tín hiệu được xác định là tích của một hàm cửa sổ dịch w(m)
và dãy tín hiệu s(n):
𝑠𝑛(𝑚) = 𝑠(𝑚)𝑤(𝑛 − 𝑚) (1.1)
Một khung tín hiệu có thể được hiểu như một đoạn tín hiệu được cắt gọt bởi
một hàm cửa sổ để tạo thành một dãy mới mà các giá trị của nó bằng không bên ngoài
khoảng n∈[mN+1,m]. Từ công thức (1.1) chúng ta thấy rằng khung tín hiệu này phụ
thuộc vào khoảng thời gian kết thúc m. Trong khung tín hiệu nhỏ vừa được định nghĩa,
dễ dàng thấy rằng các phép xử lý ngắn hạn cũng có ý nghĩa tương đương các phép xử
lý dài hạn. Như đã đề cập, việc phân tích tín hiệu tiếng nói không thể đơn giản chỉ
bằng phân tích một khung tín hiệu đơn lẻ mà phải bằng các phân tích của các khung
tín hiệu liên tiếp. Thực tế, để tránh mất thông tin, các khung tín hiệu thường được lấy
12
bao trùm nhau. Nói một các khác, hai khung cạnh nhau có chung ít nhất M>0 mẫu.
Một phép phân tích ngắn hạn tổng quát có thể biểu diễn là:
𝑋𝑛(𝑚) = ∑ 𝑇
∞
𝑚=−∞ {𝑠(𝑚)𝑤(𝑛 − 𝑚)} (1.2)
trong đó: Xn biểu diễn tham số phân tích (hoặc véc-tơ các tham số phân tích) tại thời
điểm phân tích n. Toán tử T{} định nghĩa một hàm phân tích ngắn hạn. Tổng (1.2)
được tính với giới hạn vô cùng được hiểu là phép lấy tổng được thực hiện với tất cả
các thành phần khác không của khung tín hiệu là kết quả của phép lấy cửa sổ. Nói cách
khác, tổng được thực hiện với mọi giá trị của m trong tập xác định (support) của hàm
cửa sổ.
Một số hàm cửa sổ phổ biến thường hay được sử dụng là: hàm cửa sổ chữ nhật
(rectangular window), hàm cửa sổ Hanning, và hàm cửa sổ Hamming.
1.6. Các tham số cơ bản của tiếng hiệu tiếng nói
1.6.1. Tần số formant
Formant của tín hiệu tiếng nói là một trong các tham số quan trọng và hữu ích
có ứng dụng rộng rãi trong nhiều lĩnh vực chẳng hạn như trong việc xử lý, tổng hợp và
nhận dạng tiếng nói. Các formant là các tần số cộng hưởng của tuyến âm (vocal tract),
nó thường được thể hiện trong các biểu diễn phổ chẳng hạn như trong biểu diễn
spectrogram như là một vùng có năng lượng cao, và chúng biến đổi chậm theo thời
gian theo hoạt động của bộ máy phát âm. Sở dĩ formant có vai trò quan trọng và là một
tham số hữu ích trong các nghiên cứu xử lý tiếng nói là vì các formant có thể miêu tả
được các khía cạnh quan trọng nhất của tiếng nói bằng việc sử dụng một tập rất hạn
chế các đặc trưng. Chẳng hạn trong mã hóa tiếng nói, nếu sử dụng các tham số formant
để biểu diễn cấu hình của bộ máy phát âm và một vài tham số phụ trợ biểu diễn nguồn
kích thích, chúng ta có thể đạt được tốc độ mã hóa thấp đến 2,4kbps.
Nhiều nghiên cứu về xử lý và nhận dạng tiếng nói đã chỉ ra rằng các tham số
formant là ứng cử viên tốt nhất cho việc biểu diễn phổ của bộ máy phát âm một cách
hiệu quả. Tuy nhiên việc xác định các formant không đơn giản chỉ là việc xác định các
đỉnh trong phổ biên độ bởi vì các đỉnh phổ của tín hiệu ra của bộ máy phát âm phụ
thuộc một cách phức tạp vào nhiều yếu chẳng hạn như cấu hình bộ máy phát âm, các
nguồn kích thích, ...
Các phương pháp xác định formant liên quan đến việc tìm kiếm các đỉnh trong
các biểu diễn phổ, thường là từ kết quả phân tích phổ theo phương pháp STFT hoặc
mã hóa dự đoán tuyến tính (LPC).
a) Xác định formant từ phân tích STFT
Các phân tích STFT tương tự và rời rạc đã trở thành một công cụ cơ bản cho
nhiều phát triển trong phân tích và tổng hợp tín hiệu tiếng nói. Dễ dàng thấy STFT
13
trực tiếp chứa các thông tin về formant ngay trong biên độ phổ. Do đó, nó trở thành
một cơ sở cho việc phân tích các tần số formant của tín hiệu tiếng nói.
b) Xác định formant từ phân tích LPC
Các tần số formant có thể được ước lượng từ các tham số dự đoán theo một
trong hai cách. Cách thứ nhất là xác định trực tiếp bằng cách phân tích nhân tử đa thức
dự đoán và dựa trên các nghiệm thu được để quyết định xem nghiệm nào tương ứng
với formant. Cách thứ hai là sử dụng phân tích phổ và chọn các formant tương ứng với
các đỉnh nhọn bằng một trong các thuật toán chọn đỉnh đã biết.
Một lợi điểm khi sử dụng phương pháp phân tích LPC để phân tích formant là
tần số trung tâm của các formant và băng tần của chúng có thể xác định được một cách
chính xác thông qua việc phân tích nhân tử đa thức dự đoán. Một phép phân tích LPC
bậc p được chọn trước, thì số khả năng lớn nhất có thể có các điểm cực liên hợp phức
là p/2. Do đó, việc gán nhãn trong quá trình xác định xem điểm cực nào tương ứng với
các formant đơn giản hơn các phương pháp khác. Ngoài ra, với các điểm cực bên
ngoài thường có thể dễ dàng phân tách trong phân tích LPC vì băng tần của chúng
thường rất lớn so với băng tần thông thường của các formant tín hiệu tiếng nói.
Hình 1.3. Âm thanh có thể được xác định tốt hơn bởi các formant và sự chuyển tiếp
giữa các âm vị của chúng [8].
1.6.2. Tần số cơ bản (F0)
Chu kỳ cơ bản T0: khi dây thanh rung với chu kỳ T0 thì thông lượng cũng biến
đổi tuần hoàn theo chu kỳ này và ta gọi T0 là chu kỳ cơ bản.
14
Giá trị nghịch đảo của T0 là F0=1/T0 được gọi là tần số cơ bản của tiếng nói.
F0 phụ thuộc vào giới tính và lứa tuổi của người phát âm; F0 của nữ thường cao hơn
của nam, F0 của người trẻ thường cao hơn của người già. Thường với giọng của nam,
F0 nằm trong khoảng từ 80-250Hz, với giọng của nữ, F0 trong khoảng 150-500Hz. Sự
biến đổi của F0 có tính quyết định đến thanh điệu của từ cũng như ngữ điệu của câu.
Hình 1.4. Dạng sóng âm (đồ thị trên) so với đường F0 (đồ thị dưới).
15
Chương 2 - TỔNG HỢP TIẾNG NÓI TỪ VĂN BẢN DỰA TRÊN MÔ HÌNH
MARKOV ẨN
2.1. Giới thiệu
Phần này trình bày tổng quan về tổng hợp tiếng nói (THTN) dựa trên mô hình
Markov ẩn (Hidden Markov model – HMM). Một hệ thống THTN dựa trên mô hình
HMM điển hình bao gồm hai phần: huấn luyện mô hình (training) và tổng hợp tiếng
nói (synthesis), được thể hiện như trong hình 2.1. Trong phần huấn luyện, trước tiên
các tham số phổ (ví dụ như các hệ số mel-cepstral) và tham số kích thích (ví dụ như
tần số cơ bản F0) được trích xuất từ dữ liệu tiếng nói mẫu. Sau đó các tham số đã được
trích xuất được mô hình hóa bằng các mô hình HMM phụ thuộc ngữ cảnh. Mô hình
trường độ phụ thuộc ngữ cảnh cũng được tính toán trong giai đoạn này. Trong phần
tổng hợp, văn bản đầu vào được cắt thành từng câu và mỗi câu được chuyển thành một
chuỗi các nhãn âm vị phụ thuộc ngữ cảnh nhờ mô-đun phân tích văn bản. Sau đó, một
HMM mức câu được tạo ra bằng cách ghép nối các HMM mức âm vị phụ thuộc ngữ
cảnh lại với nhau. Các tham số tiếng nói (phổ, nguồn kích thích, trường độ) được sinh
ra từ HMM mức câu bằng thuật toán tạo tham số dựa trên tiêu chuẩn xác suất cực đại.
Cuối cùng, tín hiệu tiếng nói được tổng hợp trực tiếp từ các tham số phổ và nguồn kích
thích sử dụng bộ lọc tổng hợp tiếng nói [7].
Hình 2.1. Tổng hợp tiếng nói dựa trên mô hình Markov ẩn
2.2. Framework phân tích/tổng hợp tiếng nói
Các nghiên cứu về phân tích/tổng hợp tiếng nói đều dựa trên mô hình nguồn-bộ
lọc mô phỏng cách phát âm của con người [3] (Hình 2.2). Trong mô hình này, tín hiệu
tiếng nói được giả định là đầu ra của một hệ thống (còn gọi là bộ lọc) tuyến tính bất
biến theo thời gian, hệ thống này bị kích thích bởi tín hiệu kích thích (còn gọi là
16
nguồn) bằng cách luân phiên thay đổi giữa một trong hai nguồn: xung tuần hoàn cho
âm hữu thanh (voiced speech) và nhiễu trắng cho âm vô thanh (unvoiced speech). Tín
hiệu kích thích ( )
e n mô phỏng cho luồng không khí ở dây thanh âm (bộ phận phát ra
tiếng nói của thanh quản), trong khi đó bộ lọc ( )
h n sẽ mô phỏng hiệu ứng cộng hưởng
của tuyến âm (vocal tract) trong quá trình phát âm của con người. Để tạo ra một tín
hiệu tiếng nói giống với tiếng nói tự nhiên, nguồn kích thích và các thuộc tính của bộ
lọc tuyến âm phải thay đổi theo thời gian.
Hình 2.2. Mô hình nguồn-bộ lọc mô phỏng cách con người phát âm.
Quá trình phân tích tiếng nói phải xem xét đến yếu tố: các tính chất của tín hiệu
tiếng nói biến đổi chậm theo thời gian. Do đó, người ta thường giả định rằng các đặc
tính chung của các tham số kích thích và tuyến âm không thay đổi trong khoảng thời
gian rất ngắn từ 10 đến 40 ms. Trong thực tế, các khung tín hiệu dài 25 ms với độ dịch
giữa 2 khung liên tiếp là 5 ms thường được sử dụng để trích xuất các tham số của tín
hiệu tiếng nói, bao gồm tham số kích thích và tham số phổ. Các tham số kích thích là
bao gồm: tiếng nói là hữu thanh hay vô thanh (voiced/unvoiced), và tần số cơ bản (F0)
đối với tiếng nói hữu thanh. Các tham số phổ mô tả đáp ứng tần số của bộ lọc mô
phỏng tuyến âm, thường là các hệ số mel-cepstral hoặc LSP (line spectral pair). Trong
luận văn này, các hệ số mel-cepstral được trích xuất bằng kỹ thuật phân tích mel-
cepstral.
Để tổng hợp tiếng nói từ các tham số nguồn kích thích và tham số phổ, một bộ
lọc tổng hợp phải được xây dựng dựa trên các hệ số phổ mel-cepstral. Ở đây, bộ lọc
MLSA (Mel Log Spectrum Approximation) [3] được sử dụng để tổng hợp tín hiệu
tiếng nói từ các hệ số mel-cepstra đã thu được.
2.3. Giai đoạn huấn luyện mô hình
Phần này mô tả cách các tham số phổ, F0 và trường độ được mô hình hoá đồng
thời trên một nền tảng hợp nhất của mô hình HMM theo tiêu chuẩn cực đại hoá xác
suất (Maximum Likelihood).
17
2.3.1. Mô hình hoá phổ bằng HMM có phân bố xác suất liên tục
a) HMM có phân bố xác suất liên tục
Trong tổng hợp tiếng nói dựa trên mô hình HMM, các tham số phổ được biểu
diễn bằng cách sử dụng các HMM giống như trong nhận dạng tiếng nói [3]. HMM là
một máy trạng thái hữu hạn tạo ra một chuỗi các quan sát, tuy nhiên, các trạng thái của
nó bị ẩn (tức là không thể quan sát được). Hiểu theo toán học, HMM là một quá trình
ngẫu nhiên kép, trong đó trạng thái của HMM tại mỗi đơn vị thời gian thay đổi theo
các xác suất chuyển đổi trạng thái, sau đó các quan sát được tạo ra thông qua hàm
phân bố xác suất sinh quan sát ứng với mỗi trạng thái.
• Một HMM  có N trạng thái được định nghĩa bởi một tập các tham số mô
hình bao gồm:
• Các xác suất trạng thái ban đầu 1
{ }N
i i
 =
=
π , trong đó
( )
1
i P q i
 = = (2.1)
là xác suất ở trạng thái i tại thời điểm đầu tiên. Các xác suất này thoả mãn ràng buộc:
1
1.
N
i
i

=
=
 (2.2)
• Các xác suất chuyển tiếp trạng thái , 1
{ }N
ij i j
a =
=
A , trong đó
( )
1 |
ij t t
a P q j q i
+
= = = (2.3)
là xác suất chuyển từ trạng thái i sang trạng thái j với giả thuyết rằng các xác suất
chuyển trạng thái tuân theo quá trình Markov bậc một (có nghĩa là xác suất ở trạng thái
tại thời điểm tiếp theo chỉ phụ thuộc vào trạng thái hiện tại và không phụ thuộc vào
các trạng thái trong quá khứ) và không phụ thuộc thời gian. Các xác suất này tuân theo
ràng buộc sau:
1
1, 1 .
N
ij
j
a i N
=
=  
 (2.4)
• Hàm phân bố xác suất sinh quan sát của trạng thái 1
{ ( )} N
j t j
b =
=
B o , trong đó
( ) ( | )
j t t t
b P q j
= =
o o (2.5)
là xác suất sinh ra quan sát ot khi ở trạng thái j vào thời điểm t . Hàm phân bố xác suất
sinh quan sát ( )
j t
b o có thể là rời rạc hoặc liên tục tùy thuộc vào các quan sát nhận giá
trị rời rạc hay liên tục.
Để đơn giản về ký hiệu, các tham số của mô hình HMM  được biểu thị như
sau:
( )
, ,
 = A B π . (2.6)
18
Hình 2.3. Một HMM có 3 trạng thái (không bỏ qua trạng thái nào khi đi từ trái
sang phải) sinh ra một chuỗi quan sát (chỉnh sửa từ [3])
Hình 2.3 cho thấy một HMM với 3 trạng thái có tô-pô không bỏ qua trạng thái
nào khi đi từ trái sang phải. Đây là cấu hình HMM thường được sử dụng để mô hình
hóa các chuỗi tham số tiếng nói của một đơn vị lời nói (ví dụ như âm vị) vì trong thực
tế các tín hiệu tiếng nói có các thuộc tính biến đổi liên tiếp theo thời gian. Trong cấu
trúc HMM này, chỉ số trạng thái hoặc tăng hoặc không đổi khi chỉ số thời gian tăng
lên. Trong hình 2.3, HMM được giả định tạo ra chuỗi quan sát 1 2
( , ,..., )
T
=
O o o o , trong
đó có bốn quan sát đầu tiên được sinh ra từ trạng thái đầu tiên. Quan sát t
ο là một
vector tham số tiếng nói D-chiều thu được sau khi tham số hóa khung phân tích tại chỉ
số thời gian t (ví dụ như vector tham số phổ gồm các hệ số mel-cepstral).
Đối với việc mô hình hóa dữ liệu quan sát liên tục theo nhiều chiều, chúng ta sử
dụng mô hình HMM với phân bố xác suất liên tục, trong đó hàm phân bố xác suất sinh
quan sát của một trạng thái thường được biểu diễn bằng hỗn hợp các phân bố Gaussian
đa biến như sau.
( )
1
( ) ; , , 1 ,
M
j t jm t jm jm
m
b w j N
=
=  

o o μ Σ
N (2.7)
trong đó M là số các thành phần Gaussian trong hỗn hợp; jm
w , jm
μ , và jm
Σ là trọng
số, vector trung bình D-chiều, và ma trận hiệp phương sai của thành phần Gaussian m
của trạng thái j, tương ứng. Chức năng phân bố xác suất Gaussian (PDF)
( )
; ,
t jm jm
o μ Σ
N được định nghĩa là.
( )
( )
( ) ( )
1
1/2
/2
1 1
; , exp .
2
2
T
t jm jm t jm jm t jm
D
jm

−
 
= − − −
 
 
o μ Σ o μ Σ o μ
Σ
N (2.8)
Khi các thành phần của vector thuộc tính D-chiều được giả định là không
tương quan với nhau (giả định này thường sử dụng trong tổng hợp tiếng nói dựa trên
mô hình HMM), jm
Σ trở thành một ma trận đường chéo và phương trình trên được
12
a 23
a
)
(
1 t
b o )
(
2 t
b o )
(
3 t
b o
1
o 2
o 3
o 4
o 5
o T
o
 
・ ・
1 2 3
1

11
a 22
a 33
a
19
rút gọn như sau:
( )
( )
2
2
2
1
1 1
; , exp
2
2
D
ti jmi
t jm jm
jmi
i jmi
o 


=
 
−
 
= −
 
 

o μ Σ
N , (2.9)
trong đó ti
o là thành phần thứ i của t
o , jmi
 là thành phần thứ i của jm
μ
, và
2
jmi
 là
thành phần thứ i của ma trận đường chéo jm
Σ
.
Đối với việc sử dụng HMM trong mô hình hóa các hiện tượng thực tế, cần giải
quyết một cách hiệu quả ba vấn đề sau đây, có các giải pháp toán học được trình bày
chi tiết trong [3]:
• Vấn đề 1 (tính xác suất): cho một mô hình HMM  , làm thế nào để tính
xác suất ( | )
P 
O của chuỗi quan sát 1 2
( , ,..., )
T
=
O o o o
• Vấn đề 2 (xác định chuỗi trạng thái tối ưu): cho một mô hình HMM  , làm
thế nào để xác định chuỗi trạng thái tối ưu nhất 1 2
( , ,..., )
T
q q q
=
q đã sinh ra
chuỗi quan sát 1 2
( , ,..., )
T
=
O o o o ?
• Vấn đề 3 (tính các tham số mô hình): cho chuỗi quan sát =
O 1 2
( , ,..., )
T
o o o ,
làm thế nào để xác định các tham số mô hình ( )
, ,
 = A B π sao cho cực đại
hóa xác xuất ( | )
P 
O ?
b) Huấn luyện HMM theo tiêu chuẩn xác suất cực đại (maximum likelihood)
Không có lời giải cho vấn đề 3 (còn gọi là bài toán huấn luyện mô hình) để tìm
ra tập hợp tham số mô hình ( )
, ,
 = A B π sao cho cực đại hoá xác suất toàn cục của một
chuỗi quan sát cho trước 1 2
( , ,..., )
T
=
O o o o :
ˆ arg max ( | ) arg max ( , | )
all
P P
 
  
= = q
O O q , (2.10)
trong đó q biểu thị một chuỗi trạng thái có thể, đó là một biến ẩn. Tuy nhiên, một bộ
tham số mô hình  cực đại hoá xác suất cục bộ ( | )
P 
O có thể thu được bằng cách sử
dụng một thủ tục lặp ví dụ như thuật toán cực đại hóa kỳ vọng (Expectation-
Maximization (EM)) [3]. Thuật toán này là một kỹ thuật được dùng rộng rãi trong
thống kê và học máy để giải bài toán tìm xác suất cực đại của một mô hình xác suất có
các biến ẩn như các trạng thái HMM.
2.3.2. Mô hình hoá F0 bằng HMM có phân bố xác suất đa không gian
Chúng ta mô hình hoá chuỗi tham số phổ có số chiều cố định dùng hàm phân bố
xác suất Gauss liên tục. Tuy nhiên, rất khó để sử dụng phân bố xác suất rời rạc hoặc liên
tục để mô hình hoá một tham số có số chiều biến đổi như tần số cơ bản (F0). Đường F0
20
được trích xuất từ tín hiệu tiếng nói bao gồm các quan sát có giá trị thực đối với các
đoạn tiếng nói hữu thanh hoặc có giá trị không xác định đối với các đoạn tiếng nói vô
thanh. Nói cách khác, chuỗi quan sát F0 bao gồm cả các giá trị liên tục (một chiều) thể
hiện tiếng nói hữu thanh và các ký hiệu rời rạc (không chiều) biểu trưng cho tiếng nói vô
thanh. Để mô hình hóa chuỗi quan sát có số chiều thay đổi, HMM dùng phân bố xác
suất đa không gian (Multi-space Probability Distribution - MSD) đã được đề xuất và áp
dụng cho mô hình hóa đường F0 trong tổng hợp tiếng nói dựa trên HMM [3].
Hình 2.4. Mô hình hóa đường F0 trên hai không gian [3].
Hình 2.4 minh hoạ việc mô hình hoá đường F0 sử dụng phân bố xác suất đa
không gian, trong đó quan sát F0 được giả định là sinh ra từ không gian một chiều 1

cho các đoạn tiếng nói hữu thanh hoặc không gian không chiều 2
 cho các đoạn tiếng
nói vô thanh. Mỗi không gian g
 có trọng số riêng của nó g
w và đáp ứng được sự ràng
buộc xác suất:
2
1
1
g
g
w
=
=
 . (2.11)
Không gian 1
 có một hàm mật độ xác suất Gaussian một chiều 1( )
x
N , trong
khi không gian 2
 chỉ có một điểm mẫu. Một quan sát F0 o bao gồm một biến ngẫu
nhiên liên tục x và một tập các chỉ số không gian X , nghĩa là
( )
, ,
X
=
o x (2.12)
trong đó  
1
X = cho vùng hữu thanh và  
0
X = cho vùng vô thanh. Xác suất quan sát
o được xác định như sau:
( )
( )
( )
( ) ,
g g
g S
b w V

= o
o o
N (2.13)
với ( )
V =
o x and ( )
S X
=
o . Chú ý rằng 2 ( ) 1

x
N để đơn giản ký hiệu.
Bằng cách sử dụng mô hình HMM trong đó phân bố xác suất sinh quan sát của
trạng thái là một MSD đã được xác định trong phương trình (2.13) (từ đây được gọi là
21
MSD-HMM), các quan sát F0 đối với các miền hữu thanh và vô thanh có thể được mô
hình hoá trong một mô hình thống nhất mà không có giả thuyết heuristic [7]. Hình 2.5
thể hiện cấu trúc của MSD-HMM cho việc mô hình hóa đường F0. Mỗi trạng thái có
trọng số MSD (tức là trọng số hữu thanh/vô thanh) biểu diễn xác suất của âm hữu
thanh và âm vô thanh, và một hàm phân bố xác suất liên tục cho các quan sát hữu
thanh. Việc huấn luyện MSD-HMM theo tiêu chuẩn cực đại hoá xác suất sử dụng
thuật toán EM tương tự như của HMM với hàm mật độ xác suất liên tục.
Hình 2.5. MSD-HMM cho mô hình hóa đường F0 [3].
Tuy nhiên, nếu phổ và F0 được mô hình hóa riêng biệt thì các đoạn tiếng nói có
thể sẽ không thống nhất giữa chúng. Để tránh vấn đề này, chúng được mô hình hóa
một cách kết hợp bởi MSD-HMM đa luồng (multi-stream), trong đó phần phổ được
mô hình hoá bởi phân bố xác suất liên tục và phần F0 được mô hình hoá bởi MSD
(Hình 2.6). Trong hình, t
c , p
t
X , và p
t
x lần lượt đại diện cho vector tham số phổ, một
tập hợp các chỉ số không gian của tham số F0, và F0 tại thời điểm t , và 2
 lần lượt
đại diện cho các tham số delta và delta-delta.
2.3.3. Tính toán đặc trưng động
Trong THTN dựa trên mô hình HMM, không chỉ tham số phổ và F0 (được gọi
là các đặc trưng tĩnh) mà còn các thành phần delta và delta-delta tương ứng của chúng
(được gọi là các đặc trưng động) được mô hình hoá theo HMM. Những đặc trưng này
nắm bắt các thuộc tính động của quỹ đạo tham số âm thanh. Do đó, việc tích hợp các
đặc trưng động vào vector đặc trưng của khung tín hiệu tiếng nói là rất cần thiết cho
việc mô hình hóa và sinh ra các quỹ đạo tham số. Trong luận văn này đặc trưng động
của tham số phổ được xác định như sau:
( )
1 1
0.5 ,
t t t
+ −
 = −
c c c (2.14)
2
1 1
2
t t t t
+ −
 = − +
c c c c . (2.15)
22
Tương tự, đặc trưng động của tham số F0 được xác định như sau:
( )
1 1
0.5 ,
p p p
t t t

+ −
= −
x x x (2.16)
2
1 1
2
p p p p
t t
t t

+ −
= − +
x x x x . (2.16)
Trong miền vô thanh ,
p
t
x ,
p
t

x và
2
p
t

x là ký hiệu rời rạc. Đối với các khung tín
hiệu tại ranh giới giữa miền hữu thanh và vô thanh nơi đặc trưng động F0 không thể
tính toán thì chúng cũng được xác định là ký hiệu rời rạc.
Hình 2.6. Vector đặc trưng của khung tín hiệu [3].
2.3.4. Mô hình hoá trường độ
Trong THTN dựa trên mô hình HMM, nhịp điệu nhanh/chậm của tiếng nói tổng
hợp được điều khiển bởi trường độ (hay độ dài) của các trạng thái HMM. Trường độ
của một trạng thái HMM là số lượng khung tín hiệu tiếng nói liên tiếp thuộc về (hay
sinh ra bởi) trạng thái đó. Vì chúng ta sử dụng một HMM có cấu trúc đi từ trái sang
phải không bỏ qua trạng thái nào để mô hình hoá một âm vị, một trạng thái của HMM
có thể được coi là mô hình của một phần của âm vị (sub-phoneme). Để điều khiển linh
hoạt trường độ của âm vị được tổng hợp, độ dài của mỗi trạng thái của HMM cũng
được mô hình hóa bởi phân bố Gauss [3].
2.3.5. Mô hình hoá sự phụ thuộc ngữ cảnh và gom cụm ngữ cảnh
Sự thể hiện của các tham số âm thanh như phổ, nguồn kích thích, và trường độ
trong tiếng nói tự nhiên bị ảnh hưởng bởi các yếu tố ngữ âm, ngữ điệu và ngôn ngữ
học. Các yếu tố làm ảnh hưởng đến các đặc trưng âm học của một âm vị được gọi là
ngữ cảnh của âm vị đó. Để có được tiếng nói tổng hợp chất lượng cao thì cần biểu diễn
được tập hợp rất lớn các ngữ cảnh khác nhau. Các ngữ cảnh được sử dụng rộng rãi cho
tổng hợp tiếng nói bao gồm [3]:
23
• Các âm vị kế cận với âm vị đang xét. Thông thường, hai âm vị ở bên trái và
bên phải của âm vị hiện tại được gọi là ngữ cảnh ngữ âm học.
• Loại âm vị (phụ âm/nguyên âm/âm xát/âm bật, hữu thanh/vô thanh).
• Vị trí của âm vị, âm tiết, từ, cụm từ trong các đơn vị ở mức cao hơn (ví dụ
như vị trí của âm vị trong âm tiết).
• Số lượng âm vị, âm tiết, từ, cụm từ trong các đơn vị ở mức cao hơn (ví dụ
như số lượng âm vị trong âm tiết).
• Vị trí âm tiết được nhấn trọng âm đối với các ngôn ngữ có trọng âm (ví dụ
tiếng Anh), hoặc thanh điệu đối với các ngôn ngữ có thanh điệu (ví dụ tiếng
Việt).
• Vai trò ngôn ngữ học, ví dụ từ loại của từ là danh/động/tính/đại từ.
Mỗi âm vị được gắn một nhãn tích hợp tất cả các thông tin ngữ cảnh liên quan
đến nó, được gọi là nhãn ngữ cảnh đầy đủ (full-context label). Để xử lý độ phức tạp về
ngữ cảnh, một mô hình HMM riêng biệt phải được sử dụng cho từng tổ hợp các ngữ
cảnh có thể xảy ra, gọi là mô hình HMM phụ thuộc ngữ cảnh (context-dependent).
Tuy nhiên, tổng số các tổ hợp có thể có của các yếu tố này tăng lên theo cấp số nhân
với số lượng ngữ cảnh hiện có (khoảng 50). Lượng dữ liệu huấn luyện thường không
đủ để tính toán một cách đáng tin cậy tất cả các mô hình HMM phụ thuộc ngữ cảnh vì
rất hiếm khi có đủ dữ liệu để bao phủ tất cả các tổ hợp ngữ cảnh. Bên cạnh đó có sự
biến đổi lớn về số lần xuất hiện của mỗi âm vị phụ thuộc ngữ cảnh. Để khắc phục vấn
đề này, gom cụm (clustering) ngữ cảnh dùng cây quyết định được sử dụng phổ biến để
nhóm các trạng thái HMM và chia sẻ các tham số mô hình giữa các trạng thái trong
mỗi cụm [3].
Một ví dụ về việc phân cụm ngữ cảnh dựa trên cây quyết định được thể hiện
trong hình 2.7. Cây quyết định là một cây nhị phân. Mỗi nút (trừ các nút lá) có một câu
hỏi liên quan đến bối cảnh, chẳng hạn như R-silence? ("Là âm vị hiện tại ở bên phải R
của silence?") hoặc L-vowel? ("Là âm vị hiện tại ở bên trái L của vowel?"), và hai nút
con đại diện cho các câu trả lời "Có" và "Không" cho câu hỏi. Các nút lá có sự phân bố
đầu ra của trạng thái. Bằng cách sử dụng cây quyết định dựa trên nhóm ngữ cảnh, các
tham số mô hình của từng đơn vị tiếng nói đối với các ngữ cảnh nhập nhằng có thể đạt
được, vì bất kỳ ngữ cảnh nào cũng đều đến được một trong các nút lá theo hướng đi
xuống theo cấu trúc cây, bắt đầu từ nút gốc sau đó chọn nút tiếp theo tùy thuộc vào câu
trả lời về ngữ cảnh hiện tại.
24
Hình 2.7. Một ví dụ về phân cụm ngữ cảnh dựa trên cây quyết định [3].
Quá trình phát triển cây dựa trên tiêu chí độ dài mô tả cực tiểu (minimum
description length - MDL) [3], quá trình này thể hiện sự cân bằng giữa độ phức tạp của
mô hình và độ tăng xác suất của dữ liệu huấn luyện, được tóm tắt như sau:
• Tập hợp các mô hình HMM dựa vào ngữ cảnh với phân phối Gaussian đơn
trên mỗi trạng thái được huấn luyện theo tiêu chí cực đại hoá xác suất như
đã mô tả trong Phần 2.3.1(b).
• Phân bố ước lượng của tất cả các trạng thái đã được nhóm được tập hợp lại
và đặt tại nút gốc của cây, dữ liệu huấn luyện được tính toán với giả thiết
rằng tất cả các trạng thái đã được gắn (ví dụ: các tham số mô hình được chia
sẻ giữa các các trạng thái).
• mỗi nút lá, khả năng dữ liệu huấn luyện cho phép tăng tối đa khi nút lá được
tách thành hai nút bằng cách sử dụng câu hỏi.
• Trong số tất cả các nút lá, nút đạt được độ dài mô tả cực tiểu của mô hình
khi được tách thành hai nút bằng cách sử dụng câu hỏi tại bước 3.
• Nút được chọn được chia thành hai nếu độ dài mô tả của mô hình sau khi
tách nhỏ hơn với độ dài trước đó. Ngược lại, quá trình phát triển cây bị dừng
lại.
• Lặp lại các bước 3, 4, và 5 cho đến khi quá trình phát triển cây bị dừng lại.
Cần lưu ý rằng, một cây được xây dựng cho từng chỉ số trạng thái để tạo ra cấu
trúc chia sẻ tham số. Ngoài ra, các cây riêng biệt cũng được xây dựng cho các tham số
phổ, kích thích, và trường độ bởi vì mỗi tham số sẽ có độ phụ thuộc vào ngữ cảnh của
riêng nó.
25
2.4. Giai đoạn tổng hợp tiếng nói
Trong giai đoạn tổng hợp, đầu tiên văn bản cần chuyển thành tiếng nói được
chuyển thành một chuỗi các nhãn âm vị phụ thuộc vào ngữ cảnh bằng mô-đun phân
tích văn bản. Dựa vào chuỗi nhãn này, một HMM mức câu được tạo ra bằng cách ghép
nối các HMM mức âm vị tương ứng. Sau đó, độ dài của mỗi trạng thái trong HMM
mức câu được tính toán để tối đa hóa xác suất của độ dài trạng thái của chuỗi trạng
thái [3]. Dựa trên độ dài của các trạng thái thu được, chuỗi các hệ số mel-cepstral và
giá trị F0 được sinh ra sao cho cực đại hoá xác suất đầu ra của chúng với HMM mức
câu [3]. Cuối cùng, bộ lọc MLSA [3] được sử dụng để tổng hợp dạng sóng của tín hiệu
tiếng nói từ chuỗi mel-cepstral và đường F0 đã có. Toàn bộ quá trình tổng hợp được
minh họa trong Hình 2.8
2.4.1. Phân tích văn bản
Nhiệm vụ của mô-đun phân tích văn bản là trích xuất thông tin ngữ cảnh và
chuyển chúng thành một chuỗi các nhãn ngữ cảnh từ một văn bản đầu vào. Luận văn
này sử dụng lại và chỉnh sửa các nhãn ngữ cảnh được cung cấp bởi bộ công cụ HTS
cho phù hợp với tiếng Việt [3].
Hình 2.8. Sơ đồ khối của giai đoạn tổng hợp [3].
2.4.2. Xác định trường độ trạng thái
Cho trước chuỗi nhãn ngữ cảnh W , HMM mức câu ̂ (có cấu trúc từ trái sang
phải và không bỏ qua trạng thái nào), và chiều dài mong muốn (theo đơn vị là khung
tín hiệu) của tiếng nói tổng hợp T , thì xác suất của dãy trạng thái 1 2
( , ,..., )
T
q q q
=
q
được tính như sau [3]
Tải bản FULL (65 trang): bit.ly/2Ywib4t
Dự phòng: fb.com/KhoTaiLieuAZ
26
1
ˆ
( | , ) ( ),
K
k k
k
P W p d

=
= 
q (2.18)
trong đó ( )
k k
p d là xác suất ở trạng thái k cho khung k
d , K là số trạng thái trong
HMM ̂ , và
1
.
K
k
k
d T
=
=
 (2.19)
Khi trường độ trạng thái được mô hình hoá bởi phân bố Gauss
( ) ( )
2
2
2
2
1
( ) ; , exp ,
2
2
k k
k k k k k
k
k
d
p d d

 


 
−
= = −
 
 
 
N (2.20)
trường độ trạng thái 1
{ }K
k k
d = cực đại hóa (2.18) dưới sự ràng buộc của phương trình
(2.19) được xác định như sau:
2
, 1 ,
k k k
d k K
  
= +    (2.21)
2
1 1
/ ,
K K
k k
k k
T
  
= =
 
= −
 
 
  (2.22)
trong đó k
 và 2
k
 lần lượt là giá trị trung bình và phương sai của hàm mật độ xác suất
của trường độ của trạng thái k (hình 2.9).
Hình 2.9. Sinh trường độ trạng thái [7].
Cần lưu ý rằng tốc độ nói có thể được điều khiển bởi  thay vì T vì chúng có
liên quan với nhau (phương trình 2.21). Để tổng hợp tiếng nói với tốc độ nói trung
bình,  nên bằng 0 và phương trình cụ thể như sau:
1
K
k
k
T 
=
=  . (2.23)
Để tăng hoặc giảm tốc độ nói thì  phải có giá trị tương ứng là dương hoặc âm.
2.4.3. Ảnh hưởng của đặc trưng động trong sinh tham số tiếng nói
Tải bản FULL (65 trang): bit.ly/2Ywib4t
Dự phòng: fb.com/KhoTaiLieuAZ
27
Chuỗi trạng thái 1 2
ˆ ( , ,..., )
T
q q q
=
q được sử dụng cho quá trình tổng hợp có thể dễ
dàng được suy ra từ trường độ trạng thái được tổng hợp 1
{ }K
k k
d = , từ đó một chuỗi vector
đặc trưng ( )
1 2
, , , T

  
=
o o o o (T biểu thị phép chuyển vị ma trận) được tạo ra để tối đa
hóa xác suất đầu ra̂ , tham khảo trong [3],
ˆ
ˆ ˆ
argmax ( | , )
P 
=
o
o o q . (2.24)
Phần tiếp theo sẽ trình bày tóm tắt về sự ảnh hưởng của các đặc trưng động
trong quá trình tạo tham số âm thanh.
Để đơn giản hóa, chúng ta giả định rằng mỗi phân bố đầu ra của trạng thái là
một phân bố Gauss đa chiều, cụ thể như sau:
( )
( ) ; ,
k t t k k
b =
o o μ Σ
N , (2.25)
trong đó k
μ và k
Σ lần lượt là vector trung bình và ma trận hiệp phương sai của trạng
thái thứ k . Từ phương trình (2.33) và (2.34), chúng ta có được như sau:
( )
ˆ ˆ
ˆ argmax ; ,
q q
=
o
o o μ Σ
N , (2.26)
trong đó ( )
1 2
ˆ , , , T
q q q q

  
=
μ μ μ μ và ( )
1 2
ˆ , , , T
q q q q
diag
=
Σ Σ Σ Σ là vector trung bình và ma
trận hiệp phương sai liên quan đến chuỗi trạng thái q̂ .
Nếu vector đặc trưng tại thời điểm t chỉ bao gồm các tham số tĩnh, tức là t t
=
o c
thì chuỗi vector đặc trưng được sinh ra ô theo phương trình (2.26) sẽ là chuỗi vector
trung bình q̂
μ do giả thiết phân bố Gauss (đường ngang màu đỏ trong Hình 2.10). Các
quỹ đạo tham số bị gián đoạn (nhảy bậc tại các biên trạng thái HMM) như vậy là biểu
diễn không tốt của tiếng nói tự nhiên. Nó sẽ làm suy giảm nghiêm trọng chất lượng lời
nói tổng hợp do sự không liên tục xảy ra ở ranh giới các trạng thái.
Hình 2.10. Quỹ đạo tham số tiếng nói sinh ra [3] (chỉ hiển thị một chiều của vector
đặc trưng). Các tham số delta được hiển thị như là đại diện cho các đặc trưng động.
Để tạo ra nhiều quĩ đạo tham số giống như tiếng nói thực thì mối quan hệ giữa
các đặc trưng tĩnh và động được đưa vào làm ràng buộc cho bài toán tối đa hóa trong
97926655

More Related Content

What's hot

Báo cáo quản lý cửa hàng máy tính
Báo cáo quản lý cửa hàng máy tínhBáo cáo quản lý cửa hàng máy tính
Báo cáo quản lý cửa hàng máy tínhthuvienso
 
Báo cáo thực tập tốt nghiệp
Báo cáo thực tập tốt nghiệpBáo cáo thực tập tốt nghiệp
Báo cáo thực tập tốt nghiệpSammy Chiu
 
Giao thức bảo mật SSL
Giao thức bảo mật SSLGiao thức bảo mật SSL
Giao thức bảo mật SSLconglongit90
 
Nghiên cứu các kỹ thuật xử lý ảnh phục vụ việc nâng cao chất lượng nhận dạng ...
Nghiên cứu các kỹ thuật xử lý ảnh phục vụ việc nâng cao chất lượng nhận dạng ...Nghiên cứu các kỹ thuật xử lý ảnh phục vụ việc nâng cao chất lượng nhận dạng ...
Nghiên cứu các kỹ thuật xử lý ảnh phục vụ việc nâng cao chất lượng nhận dạng ...sunflower_micro
 
Trí tuệ nhân tạo "Game cờ Caro"
Trí tuệ nhân tạo "Game cờ Caro"Trí tuệ nhân tạo "Game cờ Caro"
Trí tuệ nhân tạo "Game cờ Caro"Ham Hau
 
ChuyenDeANM ung dung he thong IDS securityonion vao giam sat moi truong mang ...
ChuyenDeANM ung dung he thong IDS securityonion vao giam sat moi truong mang ...ChuyenDeANM ung dung he thong IDS securityonion vao giam sat moi truong mang ...
ChuyenDeANM ung dung he thong IDS securityonion vao giam sat moi truong mang ...nataliej4
 
Slide báo cáo đồ án tốt nghiệp "Website cửa hàng điện thoại trực tuyến"
Slide báo cáo đồ án tốt nghiệp "Website cửa hàng điện thoại trực tuyến"Slide báo cáo đồ án tốt nghiệp "Website cửa hàng điện thoại trực tuyến"
Slide báo cáo đồ án tốt nghiệp "Website cửa hàng điện thoại trực tuyến"Tú Cao
 
XÂY DỰNG GAME CỜ VUA CHƠI QUA MẠNG
XÂY DỰNG GAME CỜ VUA CHƠI QUA MẠNG XÂY DỰNG GAME CỜ VUA CHƠI QUA MẠNG
XÂY DỰNG GAME CỜ VUA CHƠI QUA MẠNG nataliej4
 
Báo Cáo Cuối Ký Thực Tập Tốt Nghiệp Xậy Dựng Web Bán Hàng Trực Tuyến bằng Ope...
Báo Cáo Cuối Ký Thực Tập Tốt Nghiệp Xậy Dựng Web Bán Hàng Trực Tuyến bằng Ope...Báo Cáo Cuối Ký Thực Tập Tốt Nghiệp Xậy Dựng Web Bán Hàng Trực Tuyến bằng Ope...
Báo Cáo Cuối Ký Thực Tập Tốt Nghiệp Xậy Dựng Web Bán Hàng Trực Tuyến bằng Ope...hoainhan1501
 
Vien tham - 10 phan loai anh - a
Vien tham - 10 phan loai anh - aVien tham - 10 phan loai anh - a
Vien tham - 10 phan loai anh - attungbmt
 
NGHIÊN CỨU GIẢI PHÁP BÃI ĐỖ XE THÔNG MINH CHO CÁC ĐÔ THỊ KHU VỰC MIỀN TRUNG 6...
NGHIÊN CỨU GIẢI PHÁP BÃI ĐỖ XE THÔNG MINH CHO CÁC ĐÔ THỊ KHU VỰC MIỀN TRUNG 6...NGHIÊN CỨU GIẢI PHÁP BÃI ĐỖ XE THÔNG MINH CHO CÁC ĐÔ THỊ KHU VỰC MIỀN TRUNG 6...
NGHIÊN CỨU GIẢI PHÁP BÃI ĐỖ XE THÔNG MINH CHO CÁC ĐÔ THỊ KHU VỰC MIỀN TRUNG 6...nataliej4
 
Giáo trình xử lý ảnh
Giáo trình xử lý ảnhGiáo trình xử lý ảnh
Giáo trình xử lý ảnhTùng Trần
 

What's hot (20)

Báo cáo quản lý cửa hàng máy tính
Báo cáo quản lý cửa hàng máy tínhBáo cáo quản lý cửa hàng máy tính
Báo cáo quản lý cửa hàng máy tính
 
Đề tài: Hệ thống giám sát mạng dựa trên phần mềm Zabbix, 9đ
Đề tài: Hệ thống giám sát mạng dựa trên phần mềm Zabbix, 9đĐề tài: Hệ thống giám sát mạng dựa trên phần mềm Zabbix, 9đ
Đề tài: Hệ thống giám sát mạng dựa trên phần mềm Zabbix, 9đ
 
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đĐề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
 
Báo cáo thực tập tốt nghiệp
Báo cáo thực tập tốt nghiệpBáo cáo thực tập tốt nghiệp
Báo cáo thực tập tốt nghiệp
 
Giao thức bảo mật SSL
Giao thức bảo mật SSLGiao thức bảo mật SSL
Giao thức bảo mật SSL
 
Nghiên cứu các kỹ thuật xử lý ảnh phục vụ việc nâng cao chất lượng nhận dạng ...
Nghiên cứu các kỹ thuật xử lý ảnh phục vụ việc nâng cao chất lượng nhận dạng ...Nghiên cứu các kỹ thuật xử lý ảnh phục vụ việc nâng cao chất lượng nhận dạng ...
Nghiên cứu các kỹ thuật xử lý ảnh phục vụ việc nâng cao chất lượng nhận dạng ...
 
Trí tuệ nhân tạo "Game cờ Caro"
Trí tuệ nhân tạo "Game cờ Caro"Trí tuệ nhân tạo "Game cờ Caro"
Trí tuệ nhân tạo "Game cờ Caro"
 
Đề tài: hệ thống phân loại sản phẩm bằng nhận dạng mờ, HAY
Đề tài: hệ thống phân loại sản phẩm bằng nhận dạng mờ, HAYĐề tài: hệ thống phân loại sản phẩm bằng nhận dạng mờ, HAY
Đề tài: hệ thống phân loại sản phẩm bằng nhận dạng mờ, HAY
 
ChuyenDeANM ung dung he thong IDS securityonion vao giam sat moi truong mang ...
ChuyenDeANM ung dung he thong IDS securityonion vao giam sat moi truong mang ...ChuyenDeANM ung dung he thong IDS securityonion vao giam sat moi truong mang ...
ChuyenDeANM ung dung he thong IDS securityonion vao giam sat moi truong mang ...
 
Slide báo cáo đồ án tốt nghiệp "Website cửa hàng điện thoại trực tuyến"
Slide báo cáo đồ án tốt nghiệp "Website cửa hàng điện thoại trực tuyến"Slide báo cáo đồ án tốt nghiệp "Website cửa hàng điện thoại trực tuyến"
Slide báo cáo đồ án tốt nghiệp "Website cửa hàng điện thoại trực tuyến"
 
XÂY DỰNG GAME CỜ VUA CHƠI QUA MẠNG
XÂY DỰNG GAME CỜ VUA CHƠI QUA MẠNG XÂY DỰNG GAME CỜ VUA CHƠI QUA MẠNG
XÂY DỰNG GAME CỜ VUA CHƠI QUA MẠNG
 
Đề tài: Hệ thống hỗ trợ điểm danh sinh viên trường ĐH Hải Phòng
Đề tài: Hệ thống hỗ trợ điểm danh sinh viên trường ĐH Hải PhòngĐề tài: Hệ thống hỗ trợ điểm danh sinh viên trường ĐH Hải Phòng
Đề tài: Hệ thống hỗ trợ điểm danh sinh viên trường ĐH Hải Phòng
 
Báo Cáo Cuối Ký Thực Tập Tốt Nghiệp Xậy Dựng Web Bán Hàng Trực Tuyến bằng Ope...
Báo Cáo Cuối Ký Thực Tập Tốt Nghiệp Xậy Dựng Web Bán Hàng Trực Tuyến bằng Ope...Báo Cáo Cuối Ký Thực Tập Tốt Nghiệp Xậy Dựng Web Bán Hàng Trực Tuyến bằng Ope...
Báo Cáo Cuối Ký Thực Tập Tốt Nghiệp Xậy Dựng Web Bán Hàng Trực Tuyến bằng Ope...
 
Đề tài: Tìm hiểu mạng riêng ảo và ứng dụng, HOT
Đề tài: Tìm hiểu mạng riêng ảo và ứng dụng, HOTĐề tài: Tìm hiểu mạng riêng ảo và ứng dụng, HOT
Đề tài: Tìm hiểu mạng riêng ảo và ứng dụng, HOT
 
Vien tham - 10 phan loai anh - a
Vien tham - 10 phan loai anh - aVien tham - 10 phan loai anh - a
Vien tham - 10 phan loai anh - a
 
Đề tài: Nhận dạng mặt người trên matlab, HOT, 9đ
Đề tài: Nhận dạng mặt người trên matlab, HOT, 9đĐề tài: Nhận dạng mặt người trên matlab, HOT, 9đ
Đề tài: Nhận dạng mặt người trên matlab, HOT, 9đ
 
Đề tài: Hệ thống giao thông thông minh và ứng dụng của nó, HOT
Đề tài: Hệ thống giao thông thông minh và ứng dụng của nó, HOTĐề tài: Hệ thống giao thông thông minh và ứng dụng của nó, HOT
Đề tài: Hệ thống giao thông thông minh và ứng dụng của nó, HOT
 
NGHIÊN CỨU GIẢI PHÁP BÃI ĐỖ XE THÔNG MINH CHO CÁC ĐÔ THỊ KHU VỰC MIỀN TRUNG 6...
NGHIÊN CỨU GIẢI PHÁP BÃI ĐỖ XE THÔNG MINH CHO CÁC ĐÔ THỊ KHU VỰC MIỀN TRUNG 6...NGHIÊN CỨU GIẢI PHÁP BÃI ĐỖ XE THÔNG MINH CHO CÁC ĐÔ THỊ KHU VỰC MIỀN TRUNG 6...
NGHIÊN CỨU GIẢI PHÁP BÃI ĐỖ XE THÔNG MINH CHO CÁC ĐÔ THỊ KHU VỰC MIỀN TRUNG 6...
 
Giáo trình xử lý ảnh
Giáo trình xử lý ảnhGiáo trình xử lý ảnh
Giáo trình xử lý ảnh
 
Đề tài: Xây Dựng Chương Trình Quản Lý Nhà Hàng Coffee SEN
Đề tài: Xây Dựng Chương Trình Quản Lý Nhà Hàng Coffee SENĐề tài: Xây Dựng Chương Trình Quản Lý Nhà Hàng Coffee SEN
Đề tài: Xây Dựng Chương Trình Quản Lý Nhà Hàng Coffee SEN
 

Similar to ỨNG DỤNG MÔ HÌNH MARKOV ẨN XÂY DỰNG HỆ THỐNG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT 97926655

KHAI PHÁ LỜI BÌNH TRÊN CÁC TRANG THƯƠNG MẠI ĐIỆN TỬ ĐỂ XÁC ĐỊNH CẢM XÚC CỦA K...
KHAI PHÁ LỜI BÌNH TRÊN CÁC TRANG THƯƠNG MẠI ĐIỆN TỬ ĐỂ XÁC ĐỊNH CẢM XÚC CỦA K...KHAI PHÁ LỜI BÌNH TRÊN CÁC TRANG THƯƠNG MẠI ĐIỆN TỬ ĐỂ XÁC ĐỊNH CẢM XÚC CỦA K...
KHAI PHÁ LỜI BÌNH TRÊN CÁC TRANG THƯƠNG MẠI ĐIỆN TỬ ĐỂ XÁC ĐỊNH CẢM XÚC CỦA K...nataliej4
 
Using competence-based approach in the development of a writing course for en...
Using competence-based approach in the development of a writing course for en...Using competence-based approach in the development of a writing course for en...
Using competence-based approach in the development of a writing course for en...HanaTiti
 
XÂY DỰNG HỆ THỐNG TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG LÀO 9897bf32
XÂY DỰNG HỆ THỐNG TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG LÀO 9897bf32XÂY DỰNG HỆ THỐNG TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG LÀO 9897bf32
XÂY DỰNG HỆ THỐNG TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG LÀO 9897bf32nataliej4
 
FYP 13011699 Report
FYP 13011699 ReportFYP 13011699 Report
FYP 13011699 ReportJacob Healey
 
Sustainability mkt course_outline_a01
Sustainability mkt course_outline_a01Sustainability mkt course_outline_a01
Sustainability mkt course_outline_a01YueLi153482
 
Developing and Implementing Competency-based ICT Training for Teachers: A Cas...
Developing and Implementing Competency-based ICT Training for Teachers: A Cas...Developing and Implementing Competency-based ICT Training for Teachers: A Cas...
Developing and Implementing Competency-based ICT Training for Teachers: A Cas...eraser Juan José Calderón
 
Oral Communication in Context
Oral Communication in ContextOral Communication in Context
Oral Communication in ContextKokoStevan
 
Oral Communication in Context.pdf
Oral Communication in Context.pdfOral Communication in Context.pdf
Oral Communication in Context.pdfBKBasinillo
 
Metodología para-el-diseño-semi-automático-y-optimizado-de-rampas-en-múltiple...
Metodología para-el-diseño-semi-automático-y-optimizado-de-rampas-en-múltiple...Metodología para-el-diseño-semi-automático-y-optimizado-de-rampas-en-múltiple...
Metodología para-el-diseño-semi-automático-y-optimizado-de-rampas-en-múltiple...FLORTATIANAVARGASCUE
 
An evaluation of the translation of the film Rio based on Newmarks model.pdf
An evaluation of the translation of the film Rio based on Newmarks model.pdfAn evaluation of the translation of the film Rio based on Newmarks model.pdf
An evaluation of the translation of the film Rio based on Newmarks model.pdfNuioKila
 
CMC Module Guide 2010
CMC Module Guide 2010CMC Module Guide 2010
CMC Module Guide 2010Craig Blewett
 
complete_project
complete_projectcomplete_project
complete_projectAnirban Roy
 
Challenges of educators in emerging trends in managemen tppt
Challenges of educators in emerging trends in managemen tpptChallenges of educators in emerging trends in managemen tppt
Challenges of educators in emerging trends in managemen tpptManisha Srivastava
 
UWC Chat Marketing Report
UWC Chat Marketing ReportUWC Chat Marketing Report
UWC Chat Marketing ReportKelsey Robinson
 
FACTORS AFFECTING MONETIZATION OF INTERNATIONAL A2P SMS SERVICE: A CASE OF V...
FACTORS AFFECTING MONETIZATION OF INTERNATIONAL  A2P SMS SERVICE: A CASE OF V...FACTORS AFFECTING MONETIZATION OF INTERNATIONAL  A2P SMS SERVICE: A CASE OF V...
FACTORS AFFECTING MONETIZATION OF INTERNATIONAL A2P SMS SERVICE: A CASE OF V...lamluanvan.net Viết thuê luận văn
 

Similar to ỨNG DỤNG MÔ HÌNH MARKOV ẨN XÂY DỰNG HỆ THỐNG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT 97926655 (20)

KHAI PHÁ LỜI BÌNH TRÊN CÁC TRANG THƯƠNG MẠI ĐIỆN TỬ ĐỂ XÁC ĐỊNH CẢM XÚC CỦA K...
KHAI PHÁ LỜI BÌNH TRÊN CÁC TRANG THƯƠNG MẠI ĐIỆN TỬ ĐỂ XÁC ĐỊNH CẢM XÚC CỦA K...KHAI PHÁ LỜI BÌNH TRÊN CÁC TRANG THƯƠNG MẠI ĐIỆN TỬ ĐỂ XÁC ĐỊNH CẢM XÚC CỦA K...
KHAI PHÁ LỜI BÌNH TRÊN CÁC TRANG THƯƠNG MẠI ĐIỆN TỬ ĐỂ XÁC ĐỊNH CẢM XÚC CỦA K...
 
Using competence-based approach in the development of a writing course for en...
Using competence-based approach in the development of a writing course for en...Using competence-based approach in the development of a writing course for en...
Using competence-based approach in the development of a writing course for en...
 
MYINT OO ID BIT COURSEWORK
MYINT OO ID BIT COURSEWORKMYINT OO ID BIT COURSEWORK
MYINT OO ID BIT COURSEWORK
 
Luận Văn How Does Channel Integration Quality Enrich Customer Experiences Wit...
Luận Văn How Does Channel Integration Quality Enrich Customer Experiences Wit...Luận Văn How Does Channel Integration Quality Enrich Customer Experiences Wit...
Luận Văn How Does Channel Integration Quality Enrich Customer Experiences Wit...
 
XÂY DỰNG HỆ THỐNG TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG LÀO 9897bf32
XÂY DỰNG HỆ THỐNG TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG LÀO 9897bf32XÂY DỰNG HỆ THỐNG TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG LÀO 9897bf32
XÂY DỰNG HỆ THỐNG TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG LÀO 9897bf32
 
Lakaps_Abstracts
Lakaps_AbstractsLakaps_Abstracts
Lakaps_Abstracts
 
Thesis mprove speaking skill of first-year English majors, HOT
Thesis mprove speaking skill of first-year English majors, HOTThesis mprove speaking skill of first-year English majors, HOT
Thesis mprove speaking skill of first-year English majors, HOT
 
FYP 13011699 Report
FYP 13011699 ReportFYP 13011699 Report
FYP 13011699 Report
 
Sustainability mkt course_outline_a01
Sustainability mkt course_outline_a01Sustainability mkt course_outline_a01
Sustainability mkt course_outline_a01
 
Master thesis _ Factors affecting customer loyalty
Master thesis _ Factors affecting customer loyaltyMaster thesis _ Factors affecting customer loyalty
Master thesis _ Factors affecting customer loyalty
 
Developing and Implementing Competency-based ICT Training for Teachers: A Cas...
Developing and Implementing Competency-based ICT Training for Teachers: A Cas...Developing and Implementing Competency-based ICT Training for Teachers: A Cas...
Developing and Implementing Competency-based ICT Training for Teachers: A Cas...
 
Oral Communication in Context
Oral Communication in ContextOral Communication in Context
Oral Communication in Context
 
Oral Communication in Context.pdf
Oral Communication in Context.pdfOral Communication in Context.pdf
Oral Communication in Context.pdf
 
Metodología para-el-diseño-semi-automático-y-optimizado-de-rampas-en-múltiple...
Metodología para-el-diseño-semi-automático-y-optimizado-de-rampas-en-múltiple...Metodología para-el-diseño-semi-automático-y-optimizado-de-rampas-en-múltiple...
Metodología para-el-diseño-semi-automático-y-optimizado-de-rampas-en-múltiple...
 
An evaluation of the translation of the film Rio based on Newmarks model.pdf
An evaluation of the translation of the film Rio based on Newmarks model.pdfAn evaluation of the translation of the film Rio based on Newmarks model.pdf
An evaluation of the translation of the film Rio based on Newmarks model.pdf
 
CMC Module Guide 2010
CMC Module Guide 2010CMC Module Guide 2010
CMC Module Guide 2010
 
complete_project
complete_projectcomplete_project
complete_project
 
Challenges of educators in emerging trends in managemen tppt
Challenges of educators in emerging trends in managemen tpptChallenges of educators in emerging trends in managemen tppt
Challenges of educators in emerging trends in managemen tppt
 
UWC Chat Marketing Report
UWC Chat Marketing ReportUWC Chat Marketing Report
UWC Chat Marketing Report
 
FACTORS AFFECTING MONETIZATION OF INTERNATIONAL A2P SMS SERVICE: A CASE OF V...
FACTORS AFFECTING MONETIZATION OF INTERNATIONAL  A2P SMS SERVICE: A CASE OF V...FACTORS AFFECTING MONETIZATION OF INTERNATIONAL  A2P SMS SERVICE: A CASE OF V...
FACTORS AFFECTING MONETIZATION OF INTERNATIONAL A2P SMS SERVICE: A CASE OF V...
 

More from nataliej4

đồ áN xây dựng website bán laptop 1129155
đồ áN xây dựng website bán laptop 1129155đồ áN xây dựng website bán laptop 1129155
đồ áN xây dựng website bán laptop 1129155nataliej4
 
Nghệ thuật chiến tranh nhân dân việt nam trong công cuộc xây dựng và bảo vệ t...
Nghệ thuật chiến tranh nhân dân việt nam trong công cuộc xây dựng và bảo vệ t...Nghệ thuật chiến tranh nhân dân việt nam trong công cuộc xây dựng và bảo vệ t...
Nghệ thuật chiến tranh nhân dân việt nam trong công cuộc xây dựng và bảo vệ t...nataliej4
 
Quản lý dịch vụ ô tô toyota 724279
Quản lý dịch vụ ô tô toyota 724279Quản lý dịch vụ ô tô toyota 724279
Quản lý dịch vụ ô tô toyota 724279nataliej4
 
Từ vựng tiếng anh luyện thi thpt quốc gia
Từ vựng tiếng anh luyện thi thpt quốc giaTừ vựng tiếng anh luyện thi thpt quốc gia
Từ vựng tiếng anh luyện thi thpt quốc gianataliej4
 
Công tác dược lâm sàng tại bv cấp cứu trưng vương
Công tác dược lâm sàng tại bv cấp cứu trưng vươngCông tác dược lâm sàng tại bv cấp cứu trưng vương
Công tác dược lâm sàng tại bv cấp cứu trưng vươngnataliej4
 
Bài giảng nghề giám đốc
Bài giảng nghề giám đốcBài giảng nghề giám đốc
Bài giảng nghề giám đốcnataliej4
 
đề Cương chương trình đào tạo trình độ trung cấp kế toán tin học
đề Cương chương trình đào tạo trình độ trung cấp kế toán   tin họcđề Cương chương trình đào tạo trình độ trung cấp kế toán   tin học
đề Cương chương trình đào tạo trình độ trung cấp kế toán tin họcnataliej4
 
Giáo trình kỹ thuật an toàn và bảo hộ lao động
Giáo trình kỹ thuật an toàn và bảo hộ lao độngGiáo trình kỹ thuật an toàn và bảo hộ lao động
Giáo trình kỹ thuật an toàn và bảo hộ lao độngnataliej4
 
Lựa chọn trong điều kiện không chắc chắn
Lựa chọn trong điều kiện không chắc chắnLựa chọn trong điều kiện không chắc chắn
Lựa chọn trong điều kiện không chắc chắnnataliej4
 
Thực trạng phân bố và khai thác khoáng sét ở đồng bằng sông cửu long 4857877
Thực trạng phân bố và khai thác khoáng sét ở đồng bằng sông cửu long 4857877Thực trạng phân bố và khai thác khoáng sét ở đồng bằng sông cửu long 4857877
Thực trạng phân bố và khai thác khoáng sét ở đồng bằng sông cửu long 4857877nataliej4
 
Sổ tay hướng dẫn khách thuê tòa nhà ree tower
Sổ tay hướng dẫn khách thuê   tòa nhà ree towerSổ tay hướng dẫn khách thuê   tòa nhà ree tower
Sổ tay hướng dẫn khách thuê tòa nhà ree towernataliej4
 
Phân tích tác động của thiên lệch hành vi đến quyết định của nhà đầu tư cá nh...
Phân tích tác động của thiên lệch hành vi đến quyết định của nhà đầu tư cá nh...Phân tích tác động của thiên lệch hành vi đến quyết định của nhà đầu tư cá nh...
Phân tích tác động của thiên lệch hành vi đến quyết định của nhà đầu tư cá nh...nataliej4
 
Bài giảng giáo dục hoà nhập trẻ khuyết tật
Bài giảng giáo dục hoà nhập trẻ khuyết tậtBài giảng giáo dục hoà nhập trẻ khuyết tật
Bài giảng giáo dục hoà nhập trẻ khuyết tậtnataliej4
 
đồ áN thiết kế quần âu nam 6838864
đồ áN thiết kế quần âu nam 6838864đồ áN thiết kế quần âu nam 6838864
đồ áN thiết kế quần âu nam 6838864nataliej4
 
Tài liệu hội thảo chuyên đề công tác tuyển sinh – thực trạng và giải pháp 717...
Tài liệu hội thảo chuyên đề công tác tuyển sinh – thực trạng và giải pháp 717...Tài liệu hội thảo chuyên đề công tác tuyển sinh – thực trạng và giải pháp 717...
Tài liệu hội thảo chuyên đề công tác tuyển sinh – thực trạng và giải pháp 717...nataliej4
 
Bài giảng dịch tễ học bệnh nhiễm trùng
Bài giảng dịch tễ học bệnh nhiễm trùngBài giảng dịch tễ học bệnh nhiễm trùng
Bài giảng dịch tễ học bệnh nhiễm trùngnataliej4
 
Bài giảng môn khởi sự kinh doanh
Bài giảng môn khởi sự kinh doanhBài giảng môn khởi sự kinh doanh
Bài giảng môn khởi sự kinh doanhnataliej4
 
Giới thiệu học máy – mô hình naïve bayes learning intro
Giới thiệu học máy – mô hình naïve bayes   learning introGiới thiệu học máy – mô hình naïve bayes   learning intro
Giới thiệu học máy – mô hình naïve bayes learning intronataliej4
 
Lý thuyết thuế chuẩn tắc
Lý thuyết thuế chuẩn tắcLý thuyết thuế chuẩn tắc
Lý thuyết thuế chuẩn tắcnataliej4
 
Bài giảng thuế thu nhập (cá nhân, doanh nghiệp)
Bài giảng thuế thu nhập (cá nhân, doanh nghiệp)Bài giảng thuế thu nhập (cá nhân, doanh nghiệp)
Bài giảng thuế thu nhập (cá nhân, doanh nghiệp)nataliej4
 

More from nataliej4 (20)

đồ áN xây dựng website bán laptop 1129155
đồ áN xây dựng website bán laptop 1129155đồ áN xây dựng website bán laptop 1129155
đồ áN xây dựng website bán laptop 1129155
 
Nghệ thuật chiến tranh nhân dân việt nam trong công cuộc xây dựng và bảo vệ t...
Nghệ thuật chiến tranh nhân dân việt nam trong công cuộc xây dựng và bảo vệ t...Nghệ thuật chiến tranh nhân dân việt nam trong công cuộc xây dựng và bảo vệ t...
Nghệ thuật chiến tranh nhân dân việt nam trong công cuộc xây dựng và bảo vệ t...
 
Quản lý dịch vụ ô tô toyota 724279
Quản lý dịch vụ ô tô toyota 724279Quản lý dịch vụ ô tô toyota 724279
Quản lý dịch vụ ô tô toyota 724279
 
Từ vựng tiếng anh luyện thi thpt quốc gia
Từ vựng tiếng anh luyện thi thpt quốc giaTừ vựng tiếng anh luyện thi thpt quốc gia
Từ vựng tiếng anh luyện thi thpt quốc gia
 
Công tác dược lâm sàng tại bv cấp cứu trưng vương
Công tác dược lâm sàng tại bv cấp cứu trưng vươngCông tác dược lâm sàng tại bv cấp cứu trưng vương
Công tác dược lâm sàng tại bv cấp cứu trưng vương
 
Bài giảng nghề giám đốc
Bài giảng nghề giám đốcBài giảng nghề giám đốc
Bài giảng nghề giám đốc
 
đề Cương chương trình đào tạo trình độ trung cấp kế toán tin học
đề Cương chương trình đào tạo trình độ trung cấp kế toán   tin họcđề Cương chương trình đào tạo trình độ trung cấp kế toán   tin học
đề Cương chương trình đào tạo trình độ trung cấp kế toán tin học
 
Giáo trình kỹ thuật an toàn và bảo hộ lao động
Giáo trình kỹ thuật an toàn và bảo hộ lao độngGiáo trình kỹ thuật an toàn và bảo hộ lao động
Giáo trình kỹ thuật an toàn và bảo hộ lao động
 
Lựa chọn trong điều kiện không chắc chắn
Lựa chọn trong điều kiện không chắc chắnLựa chọn trong điều kiện không chắc chắn
Lựa chọn trong điều kiện không chắc chắn
 
Thực trạng phân bố và khai thác khoáng sét ở đồng bằng sông cửu long 4857877
Thực trạng phân bố và khai thác khoáng sét ở đồng bằng sông cửu long 4857877Thực trạng phân bố và khai thác khoáng sét ở đồng bằng sông cửu long 4857877
Thực trạng phân bố và khai thác khoáng sét ở đồng bằng sông cửu long 4857877
 
Sổ tay hướng dẫn khách thuê tòa nhà ree tower
Sổ tay hướng dẫn khách thuê   tòa nhà ree towerSổ tay hướng dẫn khách thuê   tòa nhà ree tower
Sổ tay hướng dẫn khách thuê tòa nhà ree tower
 
Phân tích tác động của thiên lệch hành vi đến quyết định của nhà đầu tư cá nh...
Phân tích tác động của thiên lệch hành vi đến quyết định của nhà đầu tư cá nh...Phân tích tác động của thiên lệch hành vi đến quyết định của nhà đầu tư cá nh...
Phân tích tác động của thiên lệch hành vi đến quyết định của nhà đầu tư cá nh...
 
Bài giảng giáo dục hoà nhập trẻ khuyết tật
Bài giảng giáo dục hoà nhập trẻ khuyết tậtBài giảng giáo dục hoà nhập trẻ khuyết tật
Bài giảng giáo dục hoà nhập trẻ khuyết tật
 
đồ áN thiết kế quần âu nam 6838864
đồ áN thiết kế quần âu nam 6838864đồ áN thiết kế quần âu nam 6838864
đồ áN thiết kế quần âu nam 6838864
 
Tài liệu hội thảo chuyên đề công tác tuyển sinh – thực trạng và giải pháp 717...
Tài liệu hội thảo chuyên đề công tác tuyển sinh – thực trạng và giải pháp 717...Tài liệu hội thảo chuyên đề công tác tuyển sinh – thực trạng và giải pháp 717...
Tài liệu hội thảo chuyên đề công tác tuyển sinh – thực trạng và giải pháp 717...
 
Bài giảng dịch tễ học bệnh nhiễm trùng
Bài giảng dịch tễ học bệnh nhiễm trùngBài giảng dịch tễ học bệnh nhiễm trùng
Bài giảng dịch tễ học bệnh nhiễm trùng
 
Bài giảng môn khởi sự kinh doanh
Bài giảng môn khởi sự kinh doanhBài giảng môn khởi sự kinh doanh
Bài giảng môn khởi sự kinh doanh
 
Giới thiệu học máy – mô hình naïve bayes learning intro
Giới thiệu học máy – mô hình naïve bayes   learning introGiới thiệu học máy – mô hình naïve bayes   learning intro
Giới thiệu học máy – mô hình naïve bayes learning intro
 
Lý thuyết thuế chuẩn tắc
Lý thuyết thuế chuẩn tắcLý thuyết thuế chuẩn tắc
Lý thuyết thuế chuẩn tắc
 
Bài giảng thuế thu nhập (cá nhân, doanh nghiệp)
Bài giảng thuế thu nhập (cá nhân, doanh nghiệp)Bài giảng thuế thu nhập (cá nhân, doanh nghiệp)
Bài giảng thuế thu nhập (cá nhân, doanh nghiệp)
 

Recently uploaded

e-Sealing at EADTU by Kamakshi Rajagopal
e-Sealing at EADTU by Kamakshi Rajagopale-Sealing at EADTU by Kamakshi Rajagopal
e-Sealing at EADTU by Kamakshi RajagopalEADTU
 
male presentation...pdf.................
male presentation...pdf.................male presentation...pdf.................
male presentation...pdf.................MirzaAbrarBaig5
 
TỔNG HỢP HƠN 100 ĐỀ THI THỬ TỐT NGHIỆP THPT TOÁN 2024 - TỪ CÁC TRƯỜNG, TRƯỜNG...
TỔNG HỢP HƠN 100 ĐỀ THI THỬ TỐT NGHIỆP THPT TOÁN 2024 - TỪ CÁC TRƯỜNG, TRƯỜNG...TỔNG HỢP HƠN 100 ĐỀ THI THỬ TỐT NGHIỆP THPT TOÁN 2024 - TỪ CÁC TRƯỜNG, TRƯỜNG...
TỔNG HỢP HƠN 100 ĐỀ THI THỬ TỐT NGHIỆP THPT TOÁN 2024 - TỪ CÁC TRƯỜNG, TRƯỜNG...Nguyen Thanh Tu Collection
 
How To Create Editable Tree View in Odoo 17
How To Create Editable Tree View in Odoo 17How To Create Editable Tree View in Odoo 17
How To Create Editable Tree View in Odoo 17Celine George
 
Book Review of Run For Your Life Powerpoint
Book Review of Run For Your Life PowerpointBook Review of Run For Your Life Powerpoint
Book Review of Run For Your Life Powerpoint23600690
 
會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽
會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽
會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽中 央社
 
Spellings Wk 4 and Wk 5 for Grade 4 at CAPS
Spellings Wk 4 and Wk 5 for Grade 4 at CAPSSpellings Wk 4 and Wk 5 for Grade 4 at CAPS
Spellings Wk 4 and Wk 5 for Grade 4 at CAPSAnaAcapella
 
SPLICE Working Group: Reusable Code Examples
SPLICE Working Group:Reusable Code ExamplesSPLICE Working Group:Reusable Code Examples
SPLICE Working Group: Reusable Code ExamplesPeter Brusilovsky
 
The Story of Village Palampur Class 9 Free Study Material PDF
The Story of Village Palampur Class 9 Free Study Material PDFThe Story of Village Palampur Class 9 Free Study Material PDF
The Story of Village Palampur Class 9 Free Study Material PDFVivekanand Anglo Vedic Academy
 
How to Send Pro Forma Invoice to Your Customers in Odoo 17
How to Send Pro Forma Invoice to Your Customers in Odoo 17How to Send Pro Forma Invoice to Your Customers in Odoo 17
How to Send Pro Forma Invoice to Your Customers in Odoo 17Celine George
 
An Overview of the Odoo 17 Knowledge App
An Overview of the Odoo 17 Knowledge AppAn Overview of the Odoo 17 Knowledge App
An Overview of the Odoo 17 Knowledge AppCeline George
 
Stl Algorithms in C++ jjjjjjjjjjjjjjjjjj
Stl Algorithms in C++ jjjjjjjjjjjjjjjjjjStl Algorithms in C++ jjjjjjjjjjjjjjjjjj
Stl Algorithms in C++ jjjjjjjjjjjjjjjjjjMohammed Sikander
 
Analyzing and resolving a communication crisis in Dhaka textiles LTD.pptx
Analyzing and resolving a communication crisis in Dhaka textiles LTD.pptxAnalyzing and resolving a communication crisis in Dhaka textiles LTD.pptx
Analyzing and resolving a communication crisis in Dhaka textiles LTD.pptxLimon Prince
 
24 ĐỀ THAM KHẢO KÌ THI TUYỂN SINH VÀO LỚP 10 MÔN TIẾNG ANH SỞ GIÁO DỤC HẢI DƯ...
24 ĐỀ THAM KHẢO KÌ THI TUYỂN SINH VÀO LỚP 10 MÔN TIẾNG ANH SỞ GIÁO DỤC HẢI DƯ...24 ĐỀ THAM KHẢO KÌ THI TUYỂN SINH VÀO LỚP 10 MÔN TIẾNG ANH SỞ GIÁO DỤC HẢI DƯ...
24 ĐỀ THAM KHẢO KÌ THI TUYỂN SINH VÀO LỚP 10 MÔN TIẾNG ANH SỞ GIÁO DỤC HẢI DƯ...Nguyen Thanh Tu Collection
 
Đề tieng anh thpt 2024 danh cho cac ban hoc sinh
Đề tieng anh thpt 2024 danh cho cac ban hoc sinhĐề tieng anh thpt 2024 danh cho cac ban hoc sinh
Đề tieng anh thpt 2024 danh cho cac ban hoc sinhleson0603
 
Major project report on Tata Motors and its marketing strategies
Major project report on Tata Motors and its marketing strategiesMajor project report on Tata Motors and its marketing strategies
Major project report on Tata Motors and its marketing strategiesAmanpreetKaur157993
 

Recently uploaded (20)

e-Sealing at EADTU by Kamakshi Rajagopal
e-Sealing at EADTU by Kamakshi Rajagopale-Sealing at EADTU by Kamakshi Rajagopal
e-Sealing at EADTU by Kamakshi Rajagopal
 
male presentation...pdf.................
male presentation...pdf.................male presentation...pdf.................
male presentation...pdf.................
 
Mattingly "AI & Prompt Design: Named Entity Recognition"
Mattingly "AI & Prompt Design: Named Entity Recognition"Mattingly "AI & Prompt Design: Named Entity Recognition"
Mattingly "AI & Prompt Design: Named Entity Recognition"
 
TỔNG HỢP HƠN 100 ĐỀ THI THỬ TỐT NGHIỆP THPT TOÁN 2024 - TỪ CÁC TRƯỜNG, TRƯỜNG...
TỔNG HỢP HƠN 100 ĐỀ THI THỬ TỐT NGHIỆP THPT TOÁN 2024 - TỪ CÁC TRƯỜNG, TRƯỜNG...TỔNG HỢP HƠN 100 ĐỀ THI THỬ TỐT NGHIỆP THPT TOÁN 2024 - TỪ CÁC TRƯỜNG, TRƯỜNG...
TỔNG HỢP HƠN 100 ĐỀ THI THỬ TỐT NGHIỆP THPT TOÁN 2024 - TỪ CÁC TRƯỜNG, TRƯỜNG...
 
How To Create Editable Tree View in Odoo 17
How To Create Editable Tree View in Odoo 17How To Create Editable Tree View in Odoo 17
How To Create Editable Tree View in Odoo 17
 
Mattingly "AI and Prompt Design: LLMs with NER"
Mattingly "AI and Prompt Design: LLMs with NER"Mattingly "AI and Prompt Design: LLMs with NER"
Mattingly "AI and Prompt Design: LLMs with NER"
 
Book Review of Run For Your Life Powerpoint
Book Review of Run For Your Life PowerpointBook Review of Run For Your Life Powerpoint
Book Review of Run For Your Life Powerpoint
 
會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽
會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽
會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽會考英聽
 
Spellings Wk 4 and Wk 5 for Grade 4 at CAPS
Spellings Wk 4 and Wk 5 for Grade 4 at CAPSSpellings Wk 4 and Wk 5 for Grade 4 at CAPS
Spellings Wk 4 and Wk 5 for Grade 4 at CAPS
 
SPLICE Working Group: Reusable Code Examples
SPLICE Working Group:Reusable Code ExamplesSPLICE Working Group:Reusable Code Examples
SPLICE Working Group: Reusable Code Examples
 
The Story of Village Palampur Class 9 Free Study Material PDF
The Story of Village Palampur Class 9 Free Study Material PDFThe Story of Village Palampur Class 9 Free Study Material PDF
The Story of Village Palampur Class 9 Free Study Material PDF
 
How to Send Pro Forma Invoice to Your Customers in Odoo 17
How to Send Pro Forma Invoice to Your Customers in Odoo 17How to Send Pro Forma Invoice to Your Customers in Odoo 17
How to Send Pro Forma Invoice to Your Customers in Odoo 17
 
Supporting Newcomer Multilingual Learners
Supporting Newcomer  Multilingual LearnersSupporting Newcomer  Multilingual Learners
Supporting Newcomer Multilingual Learners
 
An Overview of the Odoo 17 Knowledge App
An Overview of the Odoo 17 Knowledge AppAn Overview of the Odoo 17 Knowledge App
An Overview of the Odoo 17 Knowledge App
 
VAMOS CUIDAR DO NOSSO PLANETA! .
VAMOS CUIDAR DO NOSSO PLANETA!                    .VAMOS CUIDAR DO NOSSO PLANETA!                    .
VAMOS CUIDAR DO NOSSO PLANETA! .
 
Stl Algorithms in C++ jjjjjjjjjjjjjjjjjj
Stl Algorithms in C++ jjjjjjjjjjjjjjjjjjStl Algorithms in C++ jjjjjjjjjjjjjjjjjj
Stl Algorithms in C++ jjjjjjjjjjjjjjjjjj
 
Analyzing and resolving a communication crisis in Dhaka textiles LTD.pptx
Analyzing and resolving a communication crisis in Dhaka textiles LTD.pptxAnalyzing and resolving a communication crisis in Dhaka textiles LTD.pptx
Analyzing and resolving a communication crisis in Dhaka textiles LTD.pptx
 
24 ĐỀ THAM KHẢO KÌ THI TUYỂN SINH VÀO LỚP 10 MÔN TIẾNG ANH SỞ GIÁO DỤC HẢI DƯ...
24 ĐỀ THAM KHẢO KÌ THI TUYỂN SINH VÀO LỚP 10 MÔN TIẾNG ANH SỞ GIÁO DỤC HẢI DƯ...24 ĐỀ THAM KHẢO KÌ THI TUYỂN SINH VÀO LỚP 10 MÔN TIẾNG ANH SỞ GIÁO DỤC HẢI DƯ...
24 ĐỀ THAM KHẢO KÌ THI TUYỂN SINH VÀO LỚP 10 MÔN TIẾNG ANH SỞ GIÁO DỤC HẢI DƯ...
 
Đề tieng anh thpt 2024 danh cho cac ban hoc sinh
Đề tieng anh thpt 2024 danh cho cac ban hoc sinhĐề tieng anh thpt 2024 danh cho cac ban hoc sinh
Đề tieng anh thpt 2024 danh cho cac ban hoc sinh
 
Major project report on Tata Motors and its marketing strategies
Major project report on Tata Motors and its marketing strategiesMajor project report on Tata Motors and its marketing strategies
Major project report on Tata Motors and its marketing strategies
 

ỨNG DỤNG MÔ HÌNH MARKOV ẨN XÂY DỰNG HỆ THỐNG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT 97926655

  • 1. ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA --------------------------------------- LÊ VĂN THỨC ỨNG DỤNG MÔ HÌNH MARKOV ẨN XÂY DỰNG HỆ THỐNG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đà Nẵng – 2018
  • 2. ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA --------------------------------------- LÊ VĂN THỨC ỨNG DỤNG MÔ HÌNH MARKOV ẨN XÂY DỰNG HỆ THỐNG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Ninh Khánh Duy Đà Nẵng – 2018
  • 3. i LỜI CAM ĐOAN Tôi xin cam đoan đây là luận văn do tôi nghiên cứu dưới sự hướng dẫn khoa học của thầy TS. Ninh Khánh Duy. Các số liệu và tài liệu trong luận án là trung thực và chưa được công bố trong bất kỳ công trình nghiên cứu nào. Tất cả những tham khảo và kế thừa đều được trích dẫn và tham chiếu đầy đủ. Đà Nẵng, năm 2018 Người thực hiện Lê Văn Thức
  • 4. ii LỜI CẢM ƠN Để hoàn thành luận văn tốt nghiệp của mình, em xin gửi lời cam ơn chân thành và sự tri ân sâu sắc đối với các thầy cô của trương Đại học Bách Khoa Đà Nẵng, đặc biệt khoa Công Nghệ Thông Tin của trường đã hết lòng tận tình chỉ dạy, truyền đạt kiến thức cho chúng em trong suốt quá trình học tập và nghiên cứu. Đặc biệt, em xin bày tỏ lòng biết ơn sâu sắc đến thầy TS. Ninh Khánh Duy– người đã trực tiếp hướng dẫn, tận tình giúp đỡ và động viên em trong suốt quá trình thực hiện luận văn tốt nghiệp này. Thật lòng vô cùng cảm ơn sự hỗ trợ, giúp đỡ, động viên của toàn thể gia đình, bạn bè trong suốt quá trình hoàn thành khóa luận tốt nghiệp, cũng như trong suốt quá trình học tập vừa qua. Mặc dù đã hết sức cố gắng song luận văn tốt nghiệp không tránh khỏi những thiếu sót. Kính mong quý thầy giáo, cô giáo cũng toàn thể bạn bè góp ý để kiến thức của em trong lĩnh vực này được hoàn thiện hơn. Xin kính chúc quý Thầy, Cô sức khỏe và thành công trong sự nghiệp đào tạo những thế hệ tri thức tiếp theo trong tương lai. Một lần nữa xin chân thành cảm ơn! Đà Nẵng, năm 2018 Người thực hiện Lê Văn Thức
  • 5. iii TÓM TẮT Tóm tắt - Mô hình Markov ẩn (Hidden Markov model) là một mô hình toán thống kê có thể ứng dụng trong xử lý tiếng nói. Tổng hợp tiếng nói dựa trên mô hình Markov ẩn được nghiên cứu và ứng dụng mạnh mẽ trên thế giới. Ở Việt Nam, tổng hợp tiếng nói tiếng Việt dựa trên HMM đã và đang được nghiên cứu và triển khai những năm gần đây, và đã đạt được các kết quả tương đối khả quan. Luận văn này nghiên cứu về lý thuyết mô hình Markov ẩn (HMM) và ứng dụng của HMM trong tổng hợp tiếng nói, nghiên cứu các đặc trưng về ngữ âm và âm vị của tiếng Việt, các đặc trưng cơ bản của tín hiệu tiếng nói (phổ, tần số cơ bản, …), tổng quan về công nghệ tổng hợp tiếng nói (các module frontend và backend), kỹ thuật tạo nhãn âm vị theo ngữ cảnh để từ đó tổng hợp ra tiếng nói. Kết quả là xây dựng được module tạo nhãn âm vị theo ngữ cảnh cho tiếng Việt, dùng ngôn ngữ Python và framework Kivy xây dựng chương trình chuyển văn bản thành tiếng nói cho tiếng Việt với chất lượng khá tốt. Từ khóa - xử lý tiếng nói; tổng hợp tiếng nói; mô hình morkov ẩn; ngữ âm tiếng Việt; âm vị tiếng Việt. Abstract - The Hidden Markov model (HMM) is a widely used probability model for speech processing. HMM-based speech synthesis has been studied and applied in many languages around the world for a long time, but has been under development for about 10 years now in Vietnamese. This thesis presents the theory of HMM modeling and the application of HMM in speech synthesis. In addition, the thesis also examines the phonetic and phoneme characteristics of the Vietnamese language, the basic features of the speech signal (such as spectrum, fundamental frequency, etc.), Modules of a text-to-speech system. The main result of the thesis is to build the speech synthesis software for Vietnamese language with good quality using Python programming language and Kivy framework. Keywords - speech processing; speech synthesis; hidden Markov model; Vietnamese phonetics.
  • 6. iv MỤC LỤC LỜI CAM ĐOAN ...........................................................................................................i LỜI CẢM ƠN ................................................................................................................ii TÓM TẮT .................................................................................................................... iii MỤC LỤC .....................................................................................................................iv DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT.............................................vi DANH MỤC BẢNG ....................................................................................................vii DANH MỤC CÁC HÌNH VẼ................................................................................... viii MỞ ĐẦU.........................................................................................................................1 1. Lý do chọn đề tài................................................................................................1 2. Mục đích và ý nghĩa đề tài .................................................................................1 3. Mục tiêu và nhiệm vụ.........................................................................................1 4. Đối tượng và phạm vi nghiên cứu......................................................................2 5. Phương pháp nghiên cứu....................................................................................2 6. Kết luận ..............................................................................................................3 7. Cấu trúc luận văn................................................................................................3 Chương 1 - TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI..................................................4 1.1. Giới thiệu...............................................................................................................4 1.2. Ngữ âm Tiếng Việt................................................................................................4 1.3. Phân loại âm vị theo đặc trưng âm học.................................................................7 1.4. Các thành phần cơ bản của ngữ điệu trong tiếng nói............................................9 1.4.1. Cao độ (pitch hoặc f0) ....................................................................................9 1.4.2. Trường độ .......................................................................................................9 1.4.3. Cường độ ......................................................................................................10 1.5. Phân tích tiếng nói...............................................................................................10 1.5.1. Mô hình phân tích tiếng nói..........................................................................10 1.5.2. Phân tích tiếng nói ngắn hạn.........................................................................11 1.6. Các tham số cơ bản của tiếng hiệu tiếng nói.......................................................12 1.6.1. Tần số formant..............................................................................................12 1.6.2. Tần số cơ bản (F0)........................................................................................13 Chương 2 - TỔNG HỢP TIẾNG NÓI TỪ VĂN BẢN DỰA TRÊN MÔ HÌNH MARKOV ẨN..............................................................................................................15 2.1. Giới thiệu.............................................................................................................15 2.2. Framework phân tích/tổng hợp tiếng nói............................................................15
  • 7. v 2.3. Giai đoạn huấn luyện mô hình ............................................................................16 2.3.1. Mô hình hoá phổ bằng HMM có phân bố xác suất liên tục..........................17 2.3.2. Mô hình hoá F0 bằng HMM có phân bố xác suất đa không gian ................19 2.3.3. Tính toán đặc trưng động..............................................................................21 2.3.4. Mô hình hoá trường độ .................................................................................22 2.3.5. Mô hình hoá sự phụ thuộc ngữ cảnh và gom cụm ngữ cảnh........................22 2.4. Giai đoạn tổng hợp tiếng nói...............................................................................25 2.4.1. Phân tích văn bản..........................................................................................25 2.4.2. Xác định trường độ trạng thái.......................................................................25 2.4.3. Ảnh hưởng của đặc trưng động trong sinh tham số tiếng nói ......................26 Chương 3 – XÂY DỰNG HỆ THỐNG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT 29 3.1. Phân tích hệ thống...............................................................................................29 3.1.1. Mô-đun xử lý ngôn ngữ tự nhiên (front-end) ...............................................29 3.1.2. Mô-đun tổng hợp tiếng nói (back-end).........................................................29 3.1.3. Nhãn âm vị phụ thuộc ngữ cảnh...................................................................30 3.1.4. Quy tắc chuyển chữ cái có dấu mũ và dấu thanh sang nhãn âm vị ..............33 3.1.5. Xử lý Unicode cho tiếng Việt.......................................................................33 3.1.6. Thuật toán chuyển âm tiết thành chuỗi âm vị...............................................34 3.2. Thiết kế hệ thống.................................................................................................35 3.2.1. Mô-đun chính app.py....................................................................................35 3.2.2. Mô-đun xử lý các ký tự Unicode trong tiếng Việt uniproc.py .....................35 3.2.3. Mô-đun xử lý âm tiết let2snd.py...................................................................36 3.2.4. Mô-đun tạo nhãn âm vị phụ thuộc ngữ cảnh generate_label.py...................36 3.2.5. Mô-đun định nghĩa cấu trúc của một văn bản, định dạng của nhãn âm vị và tạo nhãn âm vị phụ thuộc ngữ cảnh label_format.py.........................................36 3.3. Môi trường phát triển..........................................................................................38 Chương 4 – KẾT QUẢ THỰC NGHIỆM.................................................................39 4.1. Điều kiện thử nghiệm.......................................................................................39 4.2. Kết quả và đánh giá..........................................................................................39 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................................45 1. Kết quả đạt được ....................................................................................................45 2. Hướng phát triển ....................................................................................................45 TÀI LIỆU THAM KHẢO...........................................................................................46
  • 8. vi DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ADC : Analog to Digital Converter STFT : Short-time Fourier transform LPC : Linear Prediction Coded THTN : Tổng hợp tiếng nói HMM : Hidden Markov Model MLSA : Mel Log Spectrum Approximation LSP : Line spectral pair EM : Expectation-Maximization MSD : Multi-space Probability Distribution MDL : minimum description length HTS : HMM-based Speech Synthesis System API : Application Programming Interface Δ : Delta
  • 9. vii DANH MỤC BẢNG Số hiệu bảng Tên bảng Trang 1.1. Cấu trúc của một âm tiết trong tiếng Việt [1]. 5 1.2. Bảng ánh xạ chữ cái sang âm vị của tiếng Việt. 5 3.1. Quy tắc chuyển dấu thanh sang nhãn âm vị. 33 3.2. Quy tắc chuyển chữ cái có dấu mũ sang nhãn âm vị. 33
  • 10. viii DANH MỤC CÁC HÌNH VẼ Số hiệu hình Tên hình Trang 1.1. (a) Tần số, đường năng lượng âm vô thanh; (b) tần số, đường năng lượng âm hữu thanh. 9 1.2. Mô hình tổng quát của việc xử lý tín hiệu tiếng nói [9] 10 1.3. Âm thanh có thể được xác định tốt hơn bởi các formant và sự chuyển tiếp giữa các âm vị của chúng [8]. 13 1.4. Dạng sóng âm (đồ thị trên) so với đường F0 (đồ thị dưới). 14 2.1. Tổng hợp tiếng nói dựa trên mô hình Markov ẩn 15 2.2. Mô hình nguồn-bộ lọc mô phỏng cách con người phát âm. 16 2.3. Một HMM có 3 trạng thái (không bỏ qua trạng thái nào khi đi từ trái sang phải) sinh ra một chuỗi quan sát (chỉnh sửa từ [3]) 18 2.4. Mô hình hóa đường F0 trên hai không gian [3]. 20 2.5. MSD-HMM cho mô hình hóa đường F0 [3]. 21 2.6. Vector đặc trưng của khung tín hiệu [3]. 22 2.7. Một ví dụ về phân cụm ngữ cảnh dựa trên cây quyết định [3]. 24 2.8. Sơ đồ khối của giai đoạn tổng hợp [3]. 25 2.9. Sinh trường độ trạng thái [7]. 26 2.10. Quỹ đạo tham số tiếng nói sinh ra [3] (chỉ hiển thị một chiều của vector đặc trưng). Các tham số delta được hiển thị như là đại diện cho các đặc trưng động. 27 3.1. Mô-đun xử lý ngôn ngữ tự nhiên (front-end). 29 3.2. Mô-đun tổng hợp tiếng nói (back-end) và quá trình huấn luyện HMM để tạo HTS_voice. 30 3.3. Thuật toán chuyển âm tiết thành chuỗi âm vị cho tiếng Việt [2]. 34 3.4. Class diagram mô tả class đại diện cho một văn bản. 36 4.1. Giao diện chính của chương trình. 40 4.2. Giao diện chính của chương trình và nhãn ngữ cảnh được tạo. 41
  • 11. 1 MỞ ĐẦU 1. Lý do chọn đề tài Tổng hợp tiếng nói (Speech synthesis/Text-To-Speech) là một trong những lĩnh vực được nghiên cứu từ hàng chục năm nay, với mục đích giúp giao tiếp giữa người và máy (Human-Machine Interface) trở nên tự nhiên và dễ dàng hơn. Tuy đã trải qua một chặng đường rất dài nhưng đến nay chất lượng âm thanh và độ tự nhiên của tiếng nói tổng hợp vẫn còn là chủ đề đáng quan tâm. Vì được ứng dụng rộng rải, đặc biệt cho IoT nên bài toán tổng hợp tiếng nói đang được các hãng công nghệ lớn tham gia nghiên cứu và đầu tư. Tổng hợp tiếng nói có thể thực hiện theo nhiều phương pháp như: tổng hợp mô phỏng hệ thống phát âm, tổng hợp tần số formant, tổng hợp dựa trên ghép nối, tổng hợp theo mô hình Markov ẩn (Hidden Markov Model – HMM). Mỗi phương pháp đều có những ưu nhược điểm riêng tuỳ vào mục đích sử dụng, nhưng chung quy lại thì bất kỳ phương pháp tổng hợp tiếng nói nào cũng có mục đích căn bản là tạo ra tiếng nói chất lượng dễ hiểu và tự nhiên. Từ năm 2000, tổng hợp tiếng nói dựa trên HMM được nghiên cứu và ứng dụng mạnh mẽ trên thế giới. Ở Việt Nam, tổng hợp tiếng nói tiếng Việt dựa trên HMM đã và đang được nghiên cứu và triển khai những năm gần đây, với sự tham gia của FPT, trung tâm nghiên cứu của các trường Đại học, Viện Công nghệ thông tin, Viện Hàn lâm khoa học và Công nghệ Việt Nam và đến nay đã đạt được các kết quả tương đối khả quan. Nhằm tìm hiểu công nghệ tổng hợp tiếng nói dựa trên HMM và áp dụng cho tiếng Việt, tôi chọn đề tài nghiên cứu là: “Ứng dụng mô hình Markov ẩn xây dựng hệ thống tổng hợp tiếng nói tiếng Việt”. 2. Mục đích và ý nghĩa đề tài a. Mục đích - Nghiên cứu lý thuyết HMM và ứng dụng của nó trong tổng hợp tiếng nói. - Xây dựng và cài đặt hệ thống tổng hợp tiếng nói tiếng Việt dựa trên HMM. b. Ý nghĩa khoa học và thực tiễn của đề tài - Đóng góp vào lĩnh vực nghiên cứu ứng dụng tổng hợp tiếng nói cho tiếng Việt. - Dựa vào kết quả nghiên cứu có thể xây dựng các chương trình tổng hợp tiếng nói tiếng việt ứng dụng cho người tàn tật, trong truyền thông,... 3. Mục tiêu và nhiệm vụ a. Mục tiêu Mục tiêu của đề tài là nghiên cứu mô hình Markov ẩn và ứng dụng vào tổng
  • 12. 2 hợp tiếng nói tiếng Việt, cụ thể: - Nghiên cứu mô hình Markov ẩn. - Xây dựng chương trình tổng hợp tiếng nói tiếng việt. b. Nhiệm vụ Để đạt được mục tiêu đề ra thì nhiệm vụ cần thiết phải làm là: - Nghiên cứu lý thuyết mô hình Markov ẩn (HMM) và ứng dụng của HMM trong tổng hợp tiếng nói. - Tìm hiểu các đặc trưng về ngữ âm và âm vị của tiếng Việt. - Tìm hiểu HTS (HMM-based speech synthesis system) toolkit cho tổng hợp tiếng nói. - Cài đặt chương trình huấn luyện HMM từ dữ liệu tiếng nói. - Cài đặt chương trình chuyển văn bản thành tiếng nói gồm 2 mô-đun: phân tích văn bản (chuyển văn bản thành biểu diễn ngôn ngữ) và tổng hợp tiếng nói dùng HMM (chuyển biểu diễn ngôn ngữ thành tín hiệu tiếng nói). - Đánh giá độ tự nhiên và dễ hiểu của tiếng nói tổng hợp được. 4. Đối tượng và phạm vi nghiên cứu a. Đối tượng - Các đặc trưng ngữ âm học và âm vị học của tiếng Việt. - Các đặc trưng của tín hiệu tiếng nói (phổ, tần số cơ bản,…). - Các thuật toán học máy dùng HMM và sinh tín hiệu tiếng nói từ HMM. b. Phạm vị Tiếng Việt. 5. Phương pháp nghiên cứu Phương pháp nghiên cứu chính là kết hợp giữa nghiên cứu lý thuyết và thực nghiệm. a. Phương pháp lý thuyết - Thu thập và tổng hợp tài liệu thông qua các bài báo, tạp chí khoa học, qua trao đổi với thầy hướng dẫn. - Tìm hiểu các công nghệ liên quan. - Tìm hiểu và đánh giá các phương pháp đã áp dụng. b. Phương pháp thực nghiệm - Khảo sát và phân tích các phương pháp, mô hình tổng hợp tiếng nói. - Lựa chọn cách tiếp cận đã được áp dụng thành công, tiến hành thử nghiệm với tiếng Việt. - Nhận xét, đánh giá kết quả thử nghiệm.
  • 13. 3 6. Kết luận a. Kết quả của đề tài - Nắm vững cơ sở lý thuyết tổng hợp tiếng nói nói chung và tổng hợp tiếng nói tiếng Việt nói riêng. - Nắm vững cơ sở lý thuyết HMM. - Đề xuất phương pháp tổng hợp tiếng nói tiếng Việt dựa trên HMM. - Xây dựng hệ thống tổng hợp tiếng nói tiếng Việt. b. Hướng phát triển của đề tài - Nghiên cứu các phương pháp cải tiến chất lượng tiếng nói: thuật toán trích đặc trưng tín hiệu, thuật toán huấn luyện HMM. - Xây dựng các ứng dụng của tổng hợp tiếng nói: đọc báo cho người khiếm thị, chuyển e-book thành sách nói (audiobook). 7. Cấu trúc luận văn Chương 1: Tổng quan về xử lý tiếng nói Chương 2: Tổng hợp tiếng nói từ văn bản dựa trên mô hình Markov ẩn Chương 3: Xây dựng hệ thống tổng hợp tiếng nói tiếng Việt Chương 4: Kết quả thực nghiệm
  • 14. 4 Chương 1 - TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI 1.1 Giới thiệu Tiếng nói là phương tiện giao tiếp cơ bản giữa người với người, kể từ khi công nghệ xử lý tiếng nói phát triển thì con người còn có thế giao tiếp được với máy thay thế cho những phương pháp giao tiếp thông qua các thiết bị giao tiếp như bàn phím, chuột, màn hình, … Vì vậy vấn đề xử lý tiếng nói đóng vai trò quan trọng trong vấn đề giao tiếp này. Trên thế giới, lĩnh vực xử lý tiếng nói đã được nghiên cứu và phát triển từ những năm 1971 và đã đạt nhiều thành tựa nhất định, tuy nhiên, đối với tiếng Việt thì mới chỉ được nghiên cứu phát triển trong khoảng 10 năm trở lại đây. Những nghiên cứu này liên quan trực tiếp tới các kết quả của chuyên ngành xử lý tiếng nói, trong đó có tổng hợp tiếng nói. Xử lý tiếng nói là sự nghiên cứu về tín hiệu tiếng nói của con người và các phương pháp xử lý tín hiệu tiếng nói. Tín hiệu tiếng nói thường được biểu diễn dưới dạng số do việc xử lý tiếng nói bao gồm xử lý tín hiệu số và xử lý ngôn ngữ tự nhiên. 1.2 Ngữ âm Tiếng Việt 1.2.1. Âm vị Về mặt ngôn ngữ học [9], có thể xem tiếng nói là một chuỗi các âm cơ bản được gọi là âm vị. Âm vị là đơn vị ngôn ngữ trừu tượng và không thể quan sát trực tiếp trong tín hiệu tiếng nói. Nhiều âm vị khác nhau kết hợp với nhau một cách nào đó để tạo ra những âm thanh khác nhau. 1.2.2. Nguyên âm Nguyên âm được xác định bởi hốc cộng hưởng khoang miệng và hốc yết hầu- nguồn gốc của các Formant. Khoang miệng và khoang yết hầu được tách biệt ra bởi lưỡi. Do đó, sự thay đổi của khoang này đồng nghĩa với sự thay đổi của khoang kia. Việc xác định thể tích, hình dáng, lối thoát không khí của những hốc cộng hưởng này, tức xác định khả năng cộng hưởng của chúng, chính là mô tả độ mở của miệng, vị trí của lưỡi và hình dáng của môi. 1.2.3. Phụ âm Đặc điểm cơ bản của phụ âm là sự cấu tạo bằng luồng không khí bị cản trở, sự cản trở này diễn ra với những mức độ khác nhau, cách thức khác nhau và ở những bộ phận khác nhau của cơ quan phát âm. Phụ âm đuợc chia ra phụ âm tắc (như ‘p’, ‘t’, ‘đ’, ‘b’) và phụ âm xát (như ‘v’, ‘s’, ‘x’). a) Phụ âm tắc Đặc trưng là một tiếng nổ, do luồng không khí bị cản trở hoàn toàn, phải phá vỡ sự cản trở để thoát ra ngoài. Phụ âm tắc được chia làm phụ âm bật hơi (như ‘th’) và phụ âm mũi (như ‘m’, ‘n’, ‘ng’, ‘nh’).
  • 15. 5 b) Phụ âm xát Đặc trưng là tiếng cọ xát, phát sinh do luồng không khi đi ra bị cản trở không hoàn toàn (chỉ bị khó khăn) phải lách qua một khe hở nhỏ và trong khi thoát ra ngoài cọ xát vào thành của bộ phận phát âm. 1.2.4. Cấu trúc âm tiết Mỗi âm tiết trong tiếng Việt là một khối hoàn chỉnh trong phát âm. Âm tiết tuy phát âm liền một hơi nhưng có cấu tạo ghép chứa ba bộ phận: thanh điệu, phần đầu và phần sau. Phần đầu của âm tiết được xác định là âm đầu, ở vị trí này chỉ có một âm vị tham gia cấu tạo. Phần sau của âm tiết được gọi là phần vần. Các âm đầu vần, giữa vần và cuối vần được gọi là âm đệm, âm chính và âm cuối. Bảng sau đây sẽ cho chúng ta hình dung rõ về cấu tạo âm tiết tiếng Việt: Bảng 1.1. Cấu trúc của một âm tiết trong tiếng Việt [1]. Thanh điệu (Tone) Âm đầu (Initial) Vần (Final) Âm đệm (Onset) Âm chính (Nucleus) Âm cuối (Coda) Theo thống kê thì tiếng Việt có 6 thanh điệu (ngang, huyền, hỏi, ngã, sắc, nặng), 22 âm đầu, 1 âm đệm, 16 âm chính và 8 âm cuối. 1.2.5. Ánh xạ chữ cái sang âm vị Trong tiếng Việt, mỗi chữ cái không phải là một âm vị và ngược lại. Vì vậy, để phân tích một âm tiết (dạng text) thành chuỗi âm vị, ta phải xây dựng bảng ánh xạ chữ cái sang âm vị dựa trên tài liệu chuẩn về ngữ âm tiếng Việt [1]. Bảng 1.2. Bảng ánh xạ chữ cái sang âm vị của tiếng Việt. Vị trí trong âm tiết Chữ cái Âm vị (theo phiên âm quốc tế IPA) Âm vị (tự mã hoá) Âm tiết ví dụ Âm đầu m m m ma n n n na nh ɲ nj nhà ng ŋ N ngà ngh ŋ N nghĩ b b b bán p P p pa đ d d đài
  • 16. 6 Vị trí trong âm tiết Chữ cái Âm vị (theo phiên âm quốc tế IPA) Âm vị (tự mã hoá) Âm tiết ví dụ t t t tàn th tʰ tH thu tr ʈ tr trong ch c c chán c k k cái k k k kiêu q k k qua v v v vũ ph f f phở d z z dì gi z z gió x s s xem r ʐ zr rồi s ʂ sr sẽ g ɣ G gái gh ɣ G ghiền kh x x khuôn h h h hát l l l lan (không có) ʔ Q ùa Âm đệm u u ̯ w quà o u ̯ w hoa Âm cuối m m m am n n n hàn ng ŋ N vàng nh ŋ N vành p p p áp t t t lát c k k các ch k k dịch
  • 17. 7 Vị trí trong âm tiết Chữ cái Âm vị (theo phiên âm quốc tế IPA) Âm vị (tự mã hoá) Âm tiết ví dụ i i ji gì y i̯ ji hay o u ̯ wu hào u u ̯ wu hàu Âm trung tâm u u u hù ư ɯ W hư ô o o cô ơ ɤ oU cớ â ɤ ̆ oUs bất oo ɔ O xoong i i i khi y i i ly ê e e khế e ɛ E hè ă ă as căn iê i ͜ e ie điền ia i ͜ e ie vía yê i ͜ e ie yêu ya i ͜ e ie khuya uô u ͜ o uo khuôn ua u ͜ o uo cua ươ ɯ ͜ ɤ WoU lươn ưa ɯ ͜ ɤ WoU lựa o ɔ, ɔ ̆ O, Os to, vòng a ɛ ̆ , a, ă Es, a, as xanh, ba, hay Bảng trên là cơ sở để đưa ra thuật toán chuyển âm tiết thành chuỗi âm vị ở phần 3.1.6. 1.3. Phân loại âm vị theo đặc trưng âm học Tiếng nói là âm thanh mang mục đích diễn đạt thông tin, khi giao tiếp chuỗi lời nói mà con người phát ra gồm nhiều khúc đoạn dài ngắn khác nhau. Đơn vị phát âm ngắn nhất là âm tiết (syllable). Trong tiếng Việt, có khoảng 6700 âm tiết được sử
  • 18. 8 dụng. Khi chúng ta phát ra một tiếng thì có rất nhiều bộ phận như lưỡi, thanh môn, môi, họng, thanh quản, ... kết hợp với nhau để tạo thành âm thanh. Âm thanh phát ra được lan truyền trong không khí để đến tai người nhận. Vì âm thanh phát ra từ sự kết hợp của rất nhiều bộ phận, do đó âm thanh ở mỗi lần nói khác nhau hầu như khác nhau dẫn đến khá khó khăn khi ta muốn phân chia tiếng nói theo những đặc tính riêng. Người ta chỉ chia tiếng nói thành 2 loại cơ bản như sau: 1.3.1. Âm hữu thanh Là âm khi phát ra thì có thanh, ví dụ như chúng ta nói “i”, “a”, hay “o” chẳng hạn. Thực ra âm hữu thanh được tạo ra là do việc không khí qua thanh môn (thanh môn tạo ra sự khép mở của dây thanh dưới sự điều khiển của hai sụn chóp) với một độ căng của dây thanh sao cho chúng tạo nên dao động. Được tạo ra khi dây thanh âm căng lên và rung khi áp suất không khí tăng lên, làm cho thanh môn mở ra rồi đóng lại khi luồng không khí đi qua. Bộ phận phát âm hoạt động giống như hộp cộng hưởng, khuếch đại những thành phần hài này và làm suy giảm những thành phần hài khác để tạo ra âm hữu thanh. Mức độ rung của dây thanh âm tùy thuộc vào áp suất không khí ở phổi và sức căng của dây thanh âm. Người nói có thể điều khiển 2 yếu tố trên để thày đổi chu kì cơ bản (được gọi là pitch) của âm thanh. Ở người đàn ông, tần số cơ bản khoảng từ 50÷250 Hz, trong khi ở phụ nữ là thường rơi vào khoảng 120÷500 Hz. Trong ngôn ngữ, các nguyên âm về bản chất âm học là những âm hữu thanh. 1.3.2. Âm vô thanh Được tạo ra khi dây thanh âm không rung. Có hai loại âm vô thanh cơ bản: âm xát và âm bật hơi [1]. Đối với âm xát, ví dụ khi nói “s”, “x”, một số điểm trên bộ phận phát âm bị co lại khi luồng không khí đi ngang qua nó, hỗn loạn xảy ra tạo nên nhiễu ngẫu nhiên. Bởi vì những điểm co thường ở phía trước miệng, cộng hưởng của bộ phận phát âm có ảnh hưởng nhỏ đến đặc tính của âm xát. Đối với âm bật hơi, như khi ta nói ‘h’ trong hung?, hỗn loạn xảy ra ở gần thanh môn khi dây thanh âm bị giữ nhẹ một phần. Trường hợp này, cộng hưởng của bộ phận phát âm sẽ biến điệu phổ của nhiễu ngẫu nhiên. Hiệu ứng này có thể nghe rõ khi nói thì thầm. Cấu tạo cơ bản của phụ âm trong mọi ngôn ngữ là âm vô thanh. Ngoài hai loại âm cơ bản ở trên, còn có một loại âm trung gian vừa mang tính chất nguyên âm, vừa mang tính chất phụ âm, được gọi là bán nguyên âm hay bán phụ âm. Ví dụ như âm ‘i’ và ‘u’ trong những từ ‘ai’, ‘âu’. Khi phát các âm này, bộ máy phát âm sẽ được đóng lại hoàn toàn tại một điểm nào đó trong bộ máy phát âm. Áp suất không khí trong bộ máy phát âm sẽ tăng lên tức
  • 19. 9 thời và được giải phóng một cách đột ngột. Sự giải thoát nhanh chóng của áp suất này sẽ tạo nên một sự kích thích tạm thời của bộ máy phát âm. (a) (b) Hình 1.1. (a) Tần số, đường năng lượng âm vô thanh; (b) tần số, đường năng lượng âm hữu thanh. 1.4. Các thành phần cơ bản của ngữ điệu trong tiếng nói Ngữ điệu là một thành phần tổng quát và quan trọng của tiếng nói, bởi vì tất cả các ngôn ngữ đều có ngữ điệu. Trong ngành ngôn ngữ học, ngữ điệu là một thành của ngữ âm, và được biểu diễn bởi các yếu tố vật lý như thời gian, cao độ, cường độ, phổ. Và một hệ thống ngữ điệu (intonation system) là một sự thay đổi về cao độ, cường độ, thời gian ngắt nghỉ, phổ của một câu nhằm thể hiện một ý nghĩa, sắc thái tình cảm khi giao tiếp bằng tiếng nói. Ngữ điệu bao gồm một số thành phần như sau: 1.4.1. Cao độ (pitch hoặc f0) Trong số các yếu tố ngôn điệu, sự thay đổi cao độ là rõ ràng, dễ thấy nhất. Các thay đổi này hợp thành đường cao độ của lời nói (hay đường F0 của tín hiệu tiếng nói). Một vài nghiên cứu về các đường cao độ ở mức độ câu cho thấy đường cao độ của những câu dài hơn có thể phân tách thành một chuỗi những đường cơ bản, những đường này lại có thể được phân nhỏ hơn thành những đường cao độ của âm tiết. 1.4.2. Trường độ Trường độ trong ngôn điệu quan tâm đến độ dài của câu, của từ, của âm tiết, và của từng âm vị của âm tiết. Độ dài của âm tiết và lời nói phụ thuộc (phụ thuộc hoặc phụ thuộc lẫn nhau) vào một số yếu tố như tốc độ nói, nhịp điệu, bản chất ngữ âm, ... Trong phần lớn trường hợp, trường độ tuyệt đối của một yếu tố được ước lượng một
  • 20. 10 cách dễ dàng. Thỉnh thoảng, việc xác định được biên của một yếu tố là không dễ dàng. 1.4.3. Cường độ Là một thuộc tính ngôn điệu đã được mô tả từ những nghiên cứu đầu tiên về ngôn điệu trong ngữ âm học. Người ta cho rằng nó liên quan đến âm lượng (loudness) cũng như các lực âm vị (phonology force). Cả hai tính chất này đều ám chỉ đến dạng cảm nhận của ngôn điệu: âm tiết mang trọng âm nổi bật hơn so với các âm tiết xung quanh, do âm lượng lớn hoặc các thuộc tính động của chúng. 1.5. Phân tích tiếng nói 1.5.1. Mô hình phân tích tiếng nói Tín hiệu tiếng nói được tiền xử lý bằng cách cho qua một bộ lọc thông thấp với tần số cắt khoảng 8kHz. Tín hiệu thu được sau đó được thực hiện quá trình biến đổi sang dạng tín hiệu số nhờ bộ biến đổi ADC. Thông thường, tần số lấy mẫu bằng 16kHz với tốc độ bít lượng từ hóa là 16bit. Tín hiệu tiếng nói dạng số được phân khung với chiều dài khung thường khoảng 30ms và khoảng lệch các khung thường bằng 10ms. Khung phân tích tín hiệu sau đó được chỉnh biên bằng cách lấy cửa sổ với các hàm cửa sổ phổ biến như Hamming, Hanning.... Tín hiệu thu được sau khi lấy cửa sổ được đưa vào phân tích với các phương pháp phân tích phổ (chẳng hạn như STFT, LPC, ...). Hoặc sau khi phân tích phổ cơ bản, tiếp tục được đưa đến các khối để trích chọn các đặc trưng. Hình 1.2. Mô hình tổng quát của việc xử lý tín hiệu tiếng nói [9]
  • 21. 11 1.5.2. Phân tích tiếng nói ngắn hạn Trong lý thuyết phân tích, chúng ta thường không để ý đến một điểm quan trọng là các phân tích phải được tiến hành trong một khoảng thời gian giới hạn. Chẳng hạn, chúng ta biết rằng biến đổi Fourier theo thời gian liên tục là một công cụ vô cùng hữu ích cho việc phân tích tín hiệu. Tuy nhiên, nó yêu cầu phải biết được tín hiệu trong mọi khoảng thời gian. Hơn nữa, các tính chất hay đặc trưng của tín hiệu mà chúng ta cần tìm hiểu phải là các đại lượng không đổi theo thời gian. điều này trong thực tế phân tích tín hiệu khó mà đạt được vì việc phân tích tín hiệu đáp ứng các ứng dụng thực tế có thời gian hữu hạn. Hầu hết các tín hiệu, đặc biệt là tín hiệu tiếng nói, không phải là tín hiệu không đổi theo thời gian. Về mặt nguyên lý, chúng ta có thể áp dụng các kỹ thuật phân tích đã biết vào phân tích tín hiệu trong ngắn hạn. Tuy nhiên vì tín hiệu tiếng nói là một quá trình mang thông tin động nên chúng ta không thể chỉ đơn thuần xem xét phân tích ngắn hạn trong chỉ một khung thời gian đơn lẻ. Tín hiệu tiếng nói như đã đề cập là tín hiệu thay đổi theo thời gian. Nó có các đặc trưng cơ bản như nguồn kích thích (excitation), cường độ (pitch), biên độ (amplitude), ... Các tham số thay đổi theo thời gian của tín hiệu tiếng nói có thể kể đến là tần số cơ bản (fundamental frequency - pitch), loại âm (âm hữu thanh - voiced, vô thanh - unvoiced, tắc - fricative hay khoảng lặng - silence), các tần số cộng hưởng chính (formant), hàm diện tích của tuyến âm (vocal tract area), ... Việc thực hiện phân tích ngắn hạn tức là xem xét tín hiệu trong một khoảng nhỏ thời gian xung quanh thời điểm đang xét n nào đó. Các khoảng này thường khoảng từ 10-30ms. Điều này cho phép chúng ta giả thiết rằng trong khoảng thời gian đó các tính chất của dạng sóng tín hiệu tiếng nói là tương đối ổn định. Khoảng nhỏ tín hiệu dùng để phân tích thường được gọi là một khung (frame), hay một đoạn (segment). Một khung tín hiệu được xác định là tích của một hàm cửa sổ dịch w(m) và dãy tín hiệu s(n): 𝑠𝑛(𝑚) = 𝑠(𝑚)𝑤(𝑛 − 𝑚) (1.1) Một khung tín hiệu có thể được hiểu như một đoạn tín hiệu được cắt gọt bởi một hàm cửa sổ để tạo thành một dãy mới mà các giá trị của nó bằng không bên ngoài khoảng n∈[mN+1,m]. Từ công thức (1.1) chúng ta thấy rằng khung tín hiệu này phụ thuộc vào khoảng thời gian kết thúc m. Trong khung tín hiệu nhỏ vừa được định nghĩa, dễ dàng thấy rằng các phép xử lý ngắn hạn cũng có ý nghĩa tương đương các phép xử lý dài hạn. Như đã đề cập, việc phân tích tín hiệu tiếng nói không thể đơn giản chỉ bằng phân tích một khung tín hiệu đơn lẻ mà phải bằng các phân tích của các khung tín hiệu liên tiếp. Thực tế, để tránh mất thông tin, các khung tín hiệu thường được lấy
  • 22. 12 bao trùm nhau. Nói một các khác, hai khung cạnh nhau có chung ít nhất M>0 mẫu. Một phép phân tích ngắn hạn tổng quát có thể biểu diễn là: 𝑋𝑛(𝑚) = ∑ 𝑇 ∞ 𝑚=−∞ {𝑠(𝑚)𝑤(𝑛 − 𝑚)} (1.2) trong đó: Xn biểu diễn tham số phân tích (hoặc véc-tơ các tham số phân tích) tại thời điểm phân tích n. Toán tử T{} định nghĩa một hàm phân tích ngắn hạn. Tổng (1.2) được tính với giới hạn vô cùng được hiểu là phép lấy tổng được thực hiện với tất cả các thành phần khác không của khung tín hiệu là kết quả của phép lấy cửa sổ. Nói cách khác, tổng được thực hiện với mọi giá trị của m trong tập xác định (support) của hàm cửa sổ. Một số hàm cửa sổ phổ biến thường hay được sử dụng là: hàm cửa sổ chữ nhật (rectangular window), hàm cửa sổ Hanning, và hàm cửa sổ Hamming. 1.6. Các tham số cơ bản của tiếng hiệu tiếng nói 1.6.1. Tần số formant Formant của tín hiệu tiếng nói là một trong các tham số quan trọng và hữu ích có ứng dụng rộng rãi trong nhiều lĩnh vực chẳng hạn như trong việc xử lý, tổng hợp và nhận dạng tiếng nói. Các formant là các tần số cộng hưởng của tuyến âm (vocal tract), nó thường được thể hiện trong các biểu diễn phổ chẳng hạn như trong biểu diễn spectrogram như là một vùng có năng lượng cao, và chúng biến đổi chậm theo thời gian theo hoạt động của bộ máy phát âm. Sở dĩ formant có vai trò quan trọng và là một tham số hữu ích trong các nghiên cứu xử lý tiếng nói là vì các formant có thể miêu tả được các khía cạnh quan trọng nhất của tiếng nói bằng việc sử dụng một tập rất hạn chế các đặc trưng. Chẳng hạn trong mã hóa tiếng nói, nếu sử dụng các tham số formant để biểu diễn cấu hình của bộ máy phát âm và một vài tham số phụ trợ biểu diễn nguồn kích thích, chúng ta có thể đạt được tốc độ mã hóa thấp đến 2,4kbps. Nhiều nghiên cứu về xử lý và nhận dạng tiếng nói đã chỉ ra rằng các tham số formant là ứng cử viên tốt nhất cho việc biểu diễn phổ của bộ máy phát âm một cách hiệu quả. Tuy nhiên việc xác định các formant không đơn giản chỉ là việc xác định các đỉnh trong phổ biên độ bởi vì các đỉnh phổ của tín hiệu ra của bộ máy phát âm phụ thuộc một cách phức tạp vào nhiều yếu chẳng hạn như cấu hình bộ máy phát âm, các nguồn kích thích, ... Các phương pháp xác định formant liên quan đến việc tìm kiếm các đỉnh trong các biểu diễn phổ, thường là từ kết quả phân tích phổ theo phương pháp STFT hoặc mã hóa dự đoán tuyến tính (LPC). a) Xác định formant từ phân tích STFT Các phân tích STFT tương tự và rời rạc đã trở thành một công cụ cơ bản cho nhiều phát triển trong phân tích và tổng hợp tín hiệu tiếng nói. Dễ dàng thấy STFT
  • 23. 13 trực tiếp chứa các thông tin về formant ngay trong biên độ phổ. Do đó, nó trở thành một cơ sở cho việc phân tích các tần số formant của tín hiệu tiếng nói. b) Xác định formant từ phân tích LPC Các tần số formant có thể được ước lượng từ các tham số dự đoán theo một trong hai cách. Cách thứ nhất là xác định trực tiếp bằng cách phân tích nhân tử đa thức dự đoán và dựa trên các nghiệm thu được để quyết định xem nghiệm nào tương ứng với formant. Cách thứ hai là sử dụng phân tích phổ và chọn các formant tương ứng với các đỉnh nhọn bằng một trong các thuật toán chọn đỉnh đã biết. Một lợi điểm khi sử dụng phương pháp phân tích LPC để phân tích formant là tần số trung tâm của các formant và băng tần của chúng có thể xác định được một cách chính xác thông qua việc phân tích nhân tử đa thức dự đoán. Một phép phân tích LPC bậc p được chọn trước, thì số khả năng lớn nhất có thể có các điểm cực liên hợp phức là p/2. Do đó, việc gán nhãn trong quá trình xác định xem điểm cực nào tương ứng với các formant đơn giản hơn các phương pháp khác. Ngoài ra, với các điểm cực bên ngoài thường có thể dễ dàng phân tách trong phân tích LPC vì băng tần của chúng thường rất lớn so với băng tần thông thường của các formant tín hiệu tiếng nói. Hình 1.3. Âm thanh có thể được xác định tốt hơn bởi các formant và sự chuyển tiếp giữa các âm vị của chúng [8]. 1.6.2. Tần số cơ bản (F0) Chu kỳ cơ bản T0: khi dây thanh rung với chu kỳ T0 thì thông lượng cũng biến đổi tuần hoàn theo chu kỳ này và ta gọi T0 là chu kỳ cơ bản.
  • 24. 14 Giá trị nghịch đảo của T0 là F0=1/T0 được gọi là tần số cơ bản của tiếng nói. F0 phụ thuộc vào giới tính và lứa tuổi của người phát âm; F0 của nữ thường cao hơn của nam, F0 của người trẻ thường cao hơn của người già. Thường với giọng của nam, F0 nằm trong khoảng từ 80-250Hz, với giọng của nữ, F0 trong khoảng 150-500Hz. Sự biến đổi của F0 có tính quyết định đến thanh điệu của từ cũng như ngữ điệu của câu. Hình 1.4. Dạng sóng âm (đồ thị trên) so với đường F0 (đồ thị dưới).
  • 25. 15 Chương 2 - TỔNG HỢP TIẾNG NÓI TỪ VĂN BẢN DỰA TRÊN MÔ HÌNH MARKOV ẨN 2.1. Giới thiệu Phần này trình bày tổng quan về tổng hợp tiếng nói (THTN) dựa trên mô hình Markov ẩn (Hidden Markov model – HMM). Một hệ thống THTN dựa trên mô hình HMM điển hình bao gồm hai phần: huấn luyện mô hình (training) và tổng hợp tiếng nói (synthesis), được thể hiện như trong hình 2.1. Trong phần huấn luyện, trước tiên các tham số phổ (ví dụ như các hệ số mel-cepstral) và tham số kích thích (ví dụ như tần số cơ bản F0) được trích xuất từ dữ liệu tiếng nói mẫu. Sau đó các tham số đã được trích xuất được mô hình hóa bằng các mô hình HMM phụ thuộc ngữ cảnh. Mô hình trường độ phụ thuộc ngữ cảnh cũng được tính toán trong giai đoạn này. Trong phần tổng hợp, văn bản đầu vào được cắt thành từng câu và mỗi câu được chuyển thành một chuỗi các nhãn âm vị phụ thuộc ngữ cảnh nhờ mô-đun phân tích văn bản. Sau đó, một HMM mức câu được tạo ra bằng cách ghép nối các HMM mức âm vị phụ thuộc ngữ cảnh lại với nhau. Các tham số tiếng nói (phổ, nguồn kích thích, trường độ) được sinh ra từ HMM mức câu bằng thuật toán tạo tham số dựa trên tiêu chuẩn xác suất cực đại. Cuối cùng, tín hiệu tiếng nói được tổng hợp trực tiếp từ các tham số phổ và nguồn kích thích sử dụng bộ lọc tổng hợp tiếng nói [7]. Hình 2.1. Tổng hợp tiếng nói dựa trên mô hình Markov ẩn 2.2. Framework phân tích/tổng hợp tiếng nói Các nghiên cứu về phân tích/tổng hợp tiếng nói đều dựa trên mô hình nguồn-bộ lọc mô phỏng cách phát âm của con người [3] (Hình 2.2). Trong mô hình này, tín hiệu tiếng nói được giả định là đầu ra của một hệ thống (còn gọi là bộ lọc) tuyến tính bất biến theo thời gian, hệ thống này bị kích thích bởi tín hiệu kích thích (còn gọi là
  • 26. 16 nguồn) bằng cách luân phiên thay đổi giữa một trong hai nguồn: xung tuần hoàn cho âm hữu thanh (voiced speech) và nhiễu trắng cho âm vô thanh (unvoiced speech). Tín hiệu kích thích ( ) e n mô phỏng cho luồng không khí ở dây thanh âm (bộ phận phát ra tiếng nói của thanh quản), trong khi đó bộ lọc ( ) h n sẽ mô phỏng hiệu ứng cộng hưởng của tuyến âm (vocal tract) trong quá trình phát âm của con người. Để tạo ra một tín hiệu tiếng nói giống với tiếng nói tự nhiên, nguồn kích thích và các thuộc tính của bộ lọc tuyến âm phải thay đổi theo thời gian. Hình 2.2. Mô hình nguồn-bộ lọc mô phỏng cách con người phát âm. Quá trình phân tích tiếng nói phải xem xét đến yếu tố: các tính chất của tín hiệu tiếng nói biến đổi chậm theo thời gian. Do đó, người ta thường giả định rằng các đặc tính chung của các tham số kích thích và tuyến âm không thay đổi trong khoảng thời gian rất ngắn từ 10 đến 40 ms. Trong thực tế, các khung tín hiệu dài 25 ms với độ dịch giữa 2 khung liên tiếp là 5 ms thường được sử dụng để trích xuất các tham số của tín hiệu tiếng nói, bao gồm tham số kích thích và tham số phổ. Các tham số kích thích là bao gồm: tiếng nói là hữu thanh hay vô thanh (voiced/unvoiced), và tần số cơ bản (F0) đối với tiếng nói hữu thanh. Các tham số phổ mô tả đáp ứng tần số của bộ lọc mô phỏng tuyến âm, thường là các hệ số mel-cepstral hoặc LSP (line spectral pair). Trong luận văn này, các hệ số mel-cepstral được trích xuất bằng kỹ thuật phân tích mel- cepstral. Để tổng hợp tiếng nói từ các tham số nguồn kích thích và tham số phổ, một bộ lọc tổng hợp phải được xây dựng dựa trên các hệ số phổ mel-cepstral. Ở đây, bộ lọc MLSA (Mel Log Spectrum Approximation) [3] được sử dụng để tổng hợp tín hiệu tiếng nói từ các hệ số mel-cepstra đã thu được. 2.3. Giai đoạn huấn luyện mô hình Phần này mô tả cách các tham số phổ, F0 và trường độ được mô hình hoá đồng thời trên một nền tảng hợp nhất của mô hình HMM theo tiêu chuẩn cực đại hoá xác suất (Maximum Likelihood).
  • 27. 17 2.3.1. Mô hình hoá phổ bằng HMM có phân bố xác suất liên tục a) HMM có phân bố xác suất liên tục Trong tổng hợp tiếng nói dựa trên mô hình HMM, các tham số phổ được biểu diễn bằng cách sử dụng các HMM giống như trong nhận dạng tiếng nói [3]. HMM là một máy trạng thái hữu hạn tạo ra một chuỗi các quan sát, tuy nhiên, các trạng thái của nó bị ẩn (tức là không thể quan sát được). Hiểu theo toán học, HMM là một quá trình ngẫu nhiên kép, trong đó trạng thái của HMM tại mỗi đơn vị thời gian thay đổi theo các xác suất chuyển đổi trạng thái, sau đó các quan sát được tạo ra thông qua hàm phân bố xác suất sinh quan sát ứng với mỗi trạng thái. • Một HMM  có N trạng thái được định nghĩa bởi một tập các tham số mô hình bao gồm: • Các xác suất trạng thái ban đầu 1 { }N i i  = = π , trong đó ( ) 1 i P q i  = = (2.1) là xác suất ở trạng thái i tại thời điểm đầu tiên. Các xác suất này thoả mãn ràng buộc: 1 1. N i i  = =  (2.2) • Các xác suất chuyển tiếp trạng thái , 1 { }N ij i j a = = A , trong đó ( ) 1 | ij t t a P q j q i + = = = (2.3) là xác suất chuyển từ trạng thái i sang trạng thái j với giả thuyết rằng các xác suất chuyển trạng thái tuân theo quá trình Markov bậc một (có nghĩa là xác suất ở trạng thái tại thời điểm tiếp theo chỉ phụ thuộc vào trạng thái hiện tại và không phụ thuộc vào các trạng thái trong quá khứ) và không phụ thuộc thời gian. Các xác suất này tuân theo ràng buộc sau: 1 1, 1 . N ij j a i N = =    (2.4) • Hàm phân bố xác suất sinh quan sát của trạng thái 1 { ( )} N j t j b = = B o , trong đó ( ) ( | ) j t t t b P q j = = o o (2.5) là xác suất sinh ra quan sát ot khi ở trạng thái j vào thời điểm t . Hàm phân bố xác suất sinh quan sát ( ) j t b o có thể là rời rạc hoặc liên tục tùy thuộc vào các quan sát nhận giá trị rời rạc hay liên tục. Để đơn giản về ký hiệu, các tham số của mô hình HMM  được biểu thị như sau: ( ) , ,  = A B π . (2.6)
  • 28. 18 Hình 2.3. Một HMM có 3 trạng thái (không bỏ qua trạng thái nào khi đi từ trái sang phải) sinh ra một chuỗi quan sát (chỉnh sửa từ [3]) Hình 2.3 cho thấy một HMM với 3 trạng thái có tô-pô không bỏ qua trạng thái nào khi đi từ trái sang phải. Đây là cấu hình HMM thường được sử dụng để mô hình hóa các chuỗi tham số tiếng nói của một đơn vị lời nói (ví dụ như âm vị) vì trong thực tế các tín hiệu tiếng nói có các thuộc tính biến đổi liên tiếp theo thời gian. Trong cấu trúc HMM này, chỉ số trạng thái hoặc tăng hoặc không đổi khi chỉ số thời gian tăng lên. Trong hình 2.3, HMM được giả định tạo ra chuỗi quan sát 1 2 ( , ,..., ) T = O o o o , trong đó có bốn quan sát đầu tiên được sinh ra từ trạng thái đầu tiên. Quan sát t ο là một vector tham số tiếng nói D-chiều thu được sau khi tham số hóa khung phân tích tại chỉ số thời gian t (ví dụ như vector tham số phổ gồm các hệ số mel-cepstral). Đối với việc mô hình hóa dữ liệu quan sát liên tục theo nhiều chiều, chúng ta sử dụng mô hình HMM với phân bố xác suất liên tục, trong đó hàm phân bố xác suất sinh quan sát của một trạng thái thường được biểu diễn bằng hỗn hợp các phân bố Gaussian đa biến như sau. ( ) 1 ( ) ; , , 1 , M j t jm t jm jm m b w j N = =    o o μ Σ N (2.7) trong đó M là số các thành phần Gaussian trong hỗn hợp; jm w , jm μ , và jm Σ là trọng số, vector trung bình D-chiều, và ma trận hiệp phương sai của thành phần Gaussian m của trạng thái j, tương ứng. Chức năng phân bố xác suất Gaussian (PDF) ( ) ; , t jm jm o μ Σ N được định nghĩa là. ( ) ( ) ( ) ( ) 1 1/2 /2 1 1 ; , exp . 2 2 T t jm jm t jm jm t jm D jm  −   = − − −     o μ Σ o μ Σ o μ Σ N (2.8) Khi các thành phần của vector thuộc tính D-chiều được giả định là không tương quan với nhau (giả định này thường sử dụng trong tổng hợp tiếng nói dựa trên mô hình HMM), jm Σ trở thành một ma trận đường chéo và phương trình trên được 12 a 23 a ) ( 1 t b o ) ( 2 t b o ) ( 3 t b o 1 o 2 o 3 o 4 o 5 o T o   ・ ・ 1 2 3 1  11 a 22 a 33 a
  • 29. 19 rút gọn như sau: ( ) ( ) 2 2 2 1 1 1 ; , exp 2 2 D ti jmi t jm jm jmi i jmi o    =   −   = −      o μ Σ N , (2.9) trong đó ti o là thành phần thứ i của t o , jmi  là thành phần thứ i của jm μ , và 2 jmi  là thành phần thứ i của ma trận đường chéo jm Σ . Đối với việc sử dụng HMM trong mô hình hóa các hiện tượng thực tế, cần giải quyết một cách hiệu quả ba vấn đề sau đây, có các giải pháp toán học được trình bày chi tiết trong [3]: • Vấn đề 1 (tính xác suất): cho một mô hình HMM  , làm thế nào để tính xác suất ( | ) P  O của chuỗi quan sát 1 2 ( , ,..., ) T = O o o o • Vấn đề 2 (xác định chuỗi trạng thái tối ưu): cho một mô hình HMM  , làm thế nào để xác định chuỗi trạng thái tối ưu nhất 1 2 ( , ,..., ) T q q q = q đã sinh ra chuỗi quan sát 1 2 ( , ,..., ) T = O o o o ? • Vấn đề 3 (tính các tham số mô hình): cho chuỗi quan sát = O 1 2 ( , ,..., ) T o o o , làm thế nào để xác định các tham số mô hình ( ) , ,  = A B π sao cho cực đại hóa xác xuất ( | ) P  O ? b) Huấn luyện HMM theo tiêu chuẩn xác suất cực đại (maximum likelihood) Không có lời giải cho vấn đề 3 (còn gọi là bài toán huấn luyện mô hình) để tìm ra tập hợp tham số mô hình ( ) , ,  = A B π sao cho cực đại hoá xác suất toàn cục của một chuỗi quan sát cho trước 1 2 ( , ,..., ) T = O o o o : ˆ arg max ( | ) arg max ( , | ) all P P      = = q O O q , (2.10) trong đó q biểu thị một chuỗi trạng thái có thể, đó là một biến ẩn. Tuy nhiên, một bộ tham số mô hình  cực đại hoá xác suất cục bộ ( | ) P  O có thể thu được bằng cách sử dụng một thủ tục lặp ví dụ như thuật toán cực đại hóa kỳ vọng (Expectation- Maximization (EM)) [3]. Thuật toán này là một kỹ thuật được dùng rộng rãi trong thống kê và học máy để giải bài toán tìm xác suất cực đại của một mô hình xác suất có các biến ẩn như các trạng thái HMM. 2.3.2. Mô hình hoá F0 bằng HMM có phân bố xác suất đa không gian Chúng ta mô hình hoá chuỗi tham số phổ có số chiều cố định dùng hàm phân bố xác suất Gauss liên tục. Tuy nhiên, rất khó để sử dụng phân bố xác suất rời rạc hoặc liên tục để mô hình hoá một tham số có số chiều biến đổi như tần số cơ bản (F0). Đường F0
  • 30. 20 được trích xuất từ tín hiệu tiếng nói bao gồm các quan sát có giá trị thực đối với các đoạn tiếng nói hữu thanh hoặc có giá trị không xác định đối với các đoạn tiếng nói vô thanh. Nói cách khác, chuỗi quan sát F0 bao gồm cả các giá trị liên tục (một chiều) thể hiện tiếng nói hữu thanh và các ký hiệu rời rạc (không chiều) biểu trưng cho tiếng nói vô thanh. Để mô hình hóa chuỗi quan sát có số chiều thay đổi, HMM dùng phân bố xác suất đa không gian (Multi-space Probability Distribution - MSD) đã được đề xuất và áp dụng cho mô hình hóa đường F0 trong tổng hợp tiếng nói dựa trên HMM [3]. Hình 2.4. Mô hình hóa đường F0 trên hai không gian [3]. Hình 2.4 minh hoạ việc mô hình hoá đường F0 sử dụng phân bố xác suất đa không gian, trong đó quan sát F0 được giả định là sinh ra từ không gian một chiều 1  cho các đoạn tiếng nói hữu thanh hoặc không gian không chiều 2  cho các đoạn tiếng nói vô thanh. Mỗi không gian g  có trọng số riêng của nó g w và đáp ứng được sự ràng buộc xác suất: 2 1 1 g g w = =  . (2.11) Không gian 1  có một hàm mật độ xác suất Gaussian một chiều 1( ) x N , trong khi không gian 2  chỉ có một điểm mẫu. Một quan sát F0 o bao gồm một biến ngẫu nhiên liên tục x và một tập các chỉ số không gian X , nghĩa là ( ) , , X = o x (2.12) trong đó   1 X = cho vùng hữu thanh và   0 X = cho vùng vô thanh. Xác suất quan sát o được xác định như sau: ( ) ( ) ( ) ( ) , g g g S b w V  = o o o N (2.13) với ( ) V = o x and ( ) S X = o . Chú ý rằng 2 ( ) 1  x N để đơn giản ký hiệu. Bằng cách sử dụng mô hình HMM trong đó phân bố xác suất sinh quan sát của trạng thái là một MSD đã được xác định trong phương trình (2.13) (từ đây được gọi là
  • 31. 21 MSD-HMM), các quan sát F0 đối với các miền hữu thanh và vô thanh có thể được mô hình hoá trong một mô hình thống nhất mà không có giả thuyết heuristic [7]. Hình 2.5 thể hiện cấu trúc của MSD-HMM cho việc mô hình hóa đường F0. Mỗi trạng thái có trọng số MSD (tức là trọng số hữu thanh/vô thanh) biểu diễn xác suất của âm hữu thanh và âm vô thanh, và một hàm phân bố xác suất liên tục cho các quan sát hữu thanh. Việc huấn luyện MSD-HMM theo tiêu chuẩn cực đại hoá xác suất sử dụng thuật toán EM tương tự như của HMM với hàm mật độ xác suất liên tục. Hình 2.5. MSD-HMM cho mô hình hóa đường F0 [3]. Tuy nhiên, nếu phổ và F0 được mô hình hóa riêng biệt thì các đoạn tiếng nói có thể sẽ không thống nhất giữa chúng. Để tránh vấn đề này, chúng được mô hình hóa một cách kết hợp bởi MSD-HMM đa luồng (multi-stream), trong đó phần phổ được mô hình hoá bởi phân bố xác suất liên tục và phần F0 được mô hình hoá bởi MSD (Hình 2.6). Trong hình, t c , p t X , và p t x lần lượt đại diện cho vector tham số phổ, một tập hợp các chỉ số không gian của tham số F0, và F0 tại thời điểm t , và 2  lần lượt đại diện cho các tham số delta và delta-delta. 2.3.3. Tính toán đặc trưng động Trong THTN dựa trên mô hình HMM, không chỉ tham số phổ và F0 (được gọi là các đặc trưng tĩnh) mà còn các thành phần delta và delta-delta tương ứng của chúng (được gọi là các đặc trưng động) được mô hình hoá theo HMM. Những đặc trưng này nắm bắt các thuộc tính động của quỹ đạo tham số âm thanh. Do đó, việc tích hợp các đặc trưng động vào vector đặc trưng của khung tín hiệu tiếng nói là rất cần thiết cho việc mô hình hóa và sinh ra các quỹ đạo tham số. Trong luận văn này đặc trưng động của tham số phổ được xác định như sau: ( ) 1 1 0.5 , t t t + −  = − c c c (2.14) 2 1 1 2 t t t t + −  = − + c c c c . (2.15)
  • 32. 22 Tương tự, đặc trưng động của tham số F0 được xác định như sau: ( ) 1 1 0.5 , p p p t t t  + − = − x x x (2.16) 2 1 1 2 p p p p t t t t  + − = − + x x x x . (2.16) Trong miền vô thanh , p t x , p t  x và 2 p t  x là ký hiệu rời rạc. Đối với các khung tín hiệu tại ranh giới giữa miền hữu thanh và vô thanh nơi đặc trưng động F0 không thể tính toán thì chúng cũng được xác định là ký hiệu rời rạc. Hình 2.6. Vector đặc trưng của khung tín hiệu [3]. 2.3.4. Mô hình hoá trường độ Trong THTN dựa trên mô hình HMM, nhịp điệu nhanh/chậm của tiếng nói tổng hợp được điều khiển bởi trường độ (hay độ dài) của các trạng thái HMM. Trường độ của một trạng thái HMM là số lượng khung tín hiệu tiếng nói liên tiếp thuộc về (hay sinh ra bởi) trạng thái đó. Vì chúng ta sử dụng một HMM có cấu trúc đi từ trái sang phải không bỏ qua trạng thái nào để mô hình hoá một âm vị, một trạng thái của HMM có thể được coi là mô hình của một phần của âm vị (sub-phoneme). Để điều khiển linh hoạt trường độ của âm vị được tổng hợp, độ dài của mỗi trạng thái của HMM cũng được mô hình hóa bởi phân bố Gauss [3]. 2.3.5. Mô hình hoá sự phụ thuộc ngữ cảnh và gom cụm ngữ cảnh Sự thể hiện của các tham số âm thanh như phổ, nguồn kích thích, và trường độ trong tiếng nói tự nhiên bị ảnh hưởng bởi các yếu tố ngữ âm, ngữ điệu và ngôn ngữ học. Các yếu tố làm ảnh hưởng đến các đặc trưng âm học của một âm vị được gọi là ngữ cảnh của âm vị đó. Để có được tiếng nói tổng hợp chất lượng cao thì cần biểu diễn được tập hợp rất lớn các ngữ cảnh khác nhau. Các ngữ cảnh được sử dụng rộng rãi cho tổng hợp tiếng nói bao gồm [3]:
  • 33. 23 • Các âm vị kế cận với âm vị đang xét. Thông thường, hai âm vị ở bên trái và bên phải của âm vị hiện tại được gọi là ngữ cảnh ngữ âm học. • Loại âm vị (phụ âm/nguyên âm/âm xát/âm bật, hữu thanh/vô thanh). • Vị trí của âm vị, âm tiết, từ, cụm từ trong các đơn vị ở mức cao hơn (ví dụ như vị trí của âm vị trong âm tiết). • Số lượng âm vị, âm tiết, từ, cụm từ trong các đơn vị ở mức cao hơn (ví dụ như số lượng âm vị trong âm tiết). • Vị trí âm tiết được nhấn trọng âm đối với các ngôn ngữ có trọng âm (ví dụ tiếng Anh), hoặc thanh điệu đối với các ngôn ngữ có thanh điệu (ví dụ tiếng Việt). • Vai trò ngôn ngữ học, ví dụ từ loại của từ là danh/động/tính/đại từ. Mỗi âm vị được gắn một nhãn tích hợp tất cả các thông tin ngữ cảnh liên quan đến nó, được gọi là nhãn ngữ cảnh đầy đủ (full-context label). Để xử lý độ phức tạp về ngữ cảnh, một mô hình HMM riêng biệt phải được sử dụng cho từng tổ hợp các ngữ cảnh có thể xảy ra, gọi là mô hình HMM phụ thuộc ngữ cảnh (context-dependent). Tuy nhiên, tổng số các tổ hợp có thể có của các yếu tố này tăng lên theo cấp số nhân với số lượng ngữ cảnh hiện có (khoảng 50). Lượng dữ liệu huấn luyện thường không đủ để tính toán một cách đáng tin cậy tất cả các mô hình HMM phụ thuộc ngữ cảnh vì rất hiếm khi có đủ dữ liệu để bao phủ tất cả các tổ hợp ngữ cảnh. Bên cạnh đó có sự biến đổi lớn về số lần xuất hiện của mỗi âm vị phụ thuộc ngữ cảnh. Để khắc phục vấn đề này, gom cụm (clustering) ngữ cảnh dùng cây quyết định được sử dụng phổ biến để nhóm các trạng thái HMM và chia sẻ các tham số mô hình giữa các trạng thái trong mỗi cụm [3]. Một ví dụ về việc phân cụm ngữ cảnh dựa trên cây quyết định được thể hiện trong hình 2.7. Cây quyết định là một cây nhị phân. Mỗi nút (trừ các nút lá) có một câu hỏi liên quan đến bối cảnh, chẳng hạn như R-silence? ("Là âm vị hiện tại ở bên phải R của silence?") hoặc L-vowel? ("Là âm vị hiện tại ở bên trái L của vowel?"), và hai nút con đại diện cho các câu trả lời "Có" và "Không" cho câu hỏi. Các nút lá có sự phân bố đầu ra của trạng thái. Bằng cách sử dụng cây quyết định dựa trên nhóm ngữ cảnh, các tham số mô hình của từng đơn vị tiếng nói đối với các ngữ cảnh nhập nhằng có thể đạt được, vì bất kỳ ngữ cảnh nào cũng đều đến được một trong các nút lá theo hướng đi xuống theo cấu trúc cây, bắt đầu từ nút gốc sau đó chọn nút tiếp theo tùy thuộc vào câu trả lời về ngữ cảnh hiện tại.
  • 34. 24 Hình 2.7. Một ví dụ về phân cụm ngữ cảnh dựa trên cây quyết định [3]. Quá trình phát triển cây dựa trên tiêu chí độ dài mô tả cực tiểu (minimum description length - MDL) [3], quá trình này thể hiện sự cân bằng giữa độ phức tạp của mô hình và độ tăng xác suất của dữ liệu huấn luyện, được tóm tắt như sau: • Tập hợp các mô hình HMM dựa vào ngữ cảnh với phân phối Gaussian đơn trên mỗi trạng thái được huấn luyện theo tiêu chí cực đại hoá xác suất như đã mô tả trong Phần 2.3.1(b). • Phân bố ước lượng của tất cả các trạng thái đã được nhóm được tập hợp lại và đặt tại nút gốc của cây, dữ liệu huấn luyện được tính toán với giả thiết rằng tất cả các trạng thái đã được gắn (ví dụ: các tham số mô hình được chia sẻ giữa các các trạng thái). • mỗi nút lá, khả năng dữ liệu huấn luyện cho phép tăng tối đa khi nút lá được tách thành hai nút bằng cách sử dụng câu hỏi. • Trong số tất cả các nút lá, nút đạt được độ dài mô tả cực tiểu của mô hình khi được tách thành hai nút bằng cách sử dụng câu hỏi tại bước 3. • Nút được chọn được chia thành hai nếu độ dài mô tả của mô hình sau khi tách nhỏ hơn với độ dài trước đó. Ngược lại, quá trình phát triển cây bị dừng lại. • Lặp lại các bước 3, 4, và 5 cho đến khi quá trình phát triển cây bị dừng lại. Cần lưu ý rằng, một cây được xây dựng cho từng chỉ số trạng thái để tạo ra cấu trúc chia sẻ tham số. Ngoài ra, các cây riêng biệt cũng được xây dựng cho các tham số phổ, kích thích, và trường độ bởi vì mỗi tham số sẽ có độ phụ thuộc vào ngữ cảnh của riêng nó.
  • 35. 25 2.4. Giai đoạn tổng hợp tiếng nói Trong giai đoạn tổng hợp, đầu tiên văn bản cần chuyển thành tiếng nói được chuyển thành một chuỗi các nhãn âm vị phụ thuộc vào ngữ cảnh bằng mô-đun phân tích văn bản. Dựa vào chuỗi nhãn này, một HMM mức câu được tạo ra bằng cách ghép nối các HMM mức âm vị tương ứng. Sau đó, độ dài của mỗi trạng thái trong HMM mức câu được tính toán để tối đa hóa xác suất của độ dài trạng thái của chuỗi trạng thái [3]. Dựa trên độ dài của các trạng thái thu được, chuỗi các hệ số mel-cepstral và giá trị F0 được sinh ra sao cho cực đại hoá xác suất đầu ra của chúng với HMM mức câu [3]. Cuối cùng, bộ lọc MLSA [3] được sử dụng để tổng hợp dạng sóng của tín hiệu tiếng nói từ chuỗi mel-cepstral và đường F0 đã có. Toàn bộ quá trình tổng hợp được minh họa trong Hình 2.8 2.4.1. Phân tích văn bản Nhiệm vụ của mô-đun phân tích văn bản là trích xuất thông tin ngữ cảnh và chuyển chúng thành một chuỗi các nhãn ngữ cảnh từ một văn bản đầu vào. Luận văn này sử dụng lại và chỉnh sửa các nhãn ngữ cảnh được cung cấp bởi bộ công cụ HTS cho phù hợp với tiếng Việt [3]. Hình 2.8. Sơ đồ khối của giai đoạn tổng hợp [3]. 2.4.2. Xác định trường độ trạng thái Cho trước chuỗi nhãn ngữ cảnh W , HMM mức câu ̂ (có cấu trúc từ trái sang phải và không bỏ qua trạng thái nào), và chiều dài mong muốn (theo đơn vị là khung tín hiệu) của tiếng nói tổng hợp T , thì xác suất của dãy trạng thái 1 2 ( , ,..., ) T q q q = q được tính như sau [3] Tải bản FULL (65 trang): bit.ly/2Ywib4t Dự phòng: fb.com/KhoTaiLieuAZ
  • 36. 26 1 ˆ ( | , ) ( ), K k k k P W p d  = =  q (2.18) trong đó ( ) k k p d là xác suất ở trạng thái k cho khung k d , K là số trạng thái trong HMM ̂ , và 1 . K k k d T = =  (2.19) Khi trường độ trạng thái được mô hình hoá bởi phân bố Gauss ( ) ( ) 2 2 2 2 1 ( ) ; , exp , 2 2 k k k k k k k k k d p d d        − = = −       N (2.20) trường độ trạng thái 1 { }K k k d = cực đại hóa (2.18) dưới sự ràng buộc của phương trình (2.19) được xác định như sau: 2 , 1 , k k k d k K    = +    (2.21) 2 1 1 / , K K k k k k T    = =   = −       (2.22) trong đó k  và 2 k  lần lượt là giá trị trung bình và phương sai của hàm mật độ xác suất của trường độ của trạng thái k (hình 2.9). Hình 2.9. Sinh trường độ trạng thái [7]. Cần lưu ý rằng tốc độ nói có thể được điều khiển bởi  thay vì T vì chúng có liên quan với nhau (phương trình 2.21). Để tổng hợp tiếng nói với tốc độ nói trung bình,  nên bằng 0 và phương trình cụ thể như sau: 1 K k k T  = =  . (2.23) Để tăng hoặc giảm tốc độ nói thì  phải có giá trị tương ứng là dương hoặc âm. 2.4.3. Ảnh hưởng của đặc trưng động trong sinh tham số tiếng nói Tải bản FULL (65 trang): bit.ly/2Ywib4t Dự phòng: fb.com/KhoTaiLieuAZ
  • 37. 27 Chuỗi trạng thái 1 2 ˆ ( , ,..., ) T q q q = q được sử dụng cho quá trình tổng hợp có thể dễ dàng được suy ra từ trường độ trạng thái được tổng hợp 1 { }K k k d = , từ đó một chuỗi vector đặc trưng ( ) 1 2 , , , T     = o o o o (T biểu thị phép chuyển vị ma trận) được tạo ra để tối đa hóa xác suất đầu ra̂ , tham khảo trong [3], ˆ ˆ ˆ argmax ( | , ) P  = o o o q . (2.24) Phần tiếp theo sẽ trình bày tóm tắt về sự ảnh hưởng của các đặc trưng động trong quá trình tạo tham số âm thanh. Để đơn giản hóa, chúng ta giả định rằng mỗi phân bố đầu ra của trạng thái là một phân bố Gauss đa chiều, cụ thể như sau: ( ) ( ) ; , k t t k k b = o o μ Σ N , (2.25) trong đó k μ và k Σ lần lượt là vector trung bình và ma trận hiệp phương sai của trạng thái thứ k . Từ phương trình (2.33) và (2.34), chúng ta có được như sau: ( ) ˆ ˆ ˆ argmax ; , q q = o o o μ Σ N , (2.26) trong đó ( ) 1 2 ˆ , , , T q q q q     = μ μ μ μ và ( ) 1 2 ˆ , , , T q q q q diag = Σ Σ Σ Σ là vector trung bình và ma trận hiệp phương sai liên quan đến chuỗi trạng thái q̂ . Nếu vector đặc trưng tại thời điểm t chỉ bao gồm các tham số tĩnh, tức là t t = o c thì chuỗi vector đặc trưng được sinh ra ô theo phương trình (2.26) sẽ là chuỗi vector trung bình q̂ μ do giả thiết phân bố Gauss (đường ngang màu đỏ trong Hình 2.10). Các quỹ đạo tham số bị gián đoạn (nhảy bậc tại các biên trạng thái HMM) như vậy là biểu diễn không tốt của tiếng nói tự nhiên. Nó sẽ làm suy giảm nghiêm trọng chất lượng lời nói tổng hợp do sự không liên tục xảy ra ở ranh giới các trạng thái. Hình 2.10. Quỹ đạo tham số tiếng nói sinh ra [3] (chỉ hiển thị một chiều của vector đặc trưng). Các tham số delta được hiển thị như là đại diện cho các đặc trưng động. Để tạo ra nhiều quĩ đạo tham số giống như tiếng nói thực thì mối quan hệ giữa các đặc trưng tĩnh và động được đưa vào làm ràng buộc cho bài toán tối đa hóa trong 97926655