03

588 views

Published on

aaaaaaaaaaaaaaaaaaaa

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
588
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
14
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

03

  1. 1. 5,1 GIỚI THIỆUTiêu chuẩn ISO / IEC 14496 Phần 2 [1] (MPEG-4 Visual) cải thiện về phổbiến MPEG-2 tiêu chuẩn cả về hiệu suất nén (nén tốt hơn cho cùng một hìnhảnh chất lượng) và tính linh hoạt (cho phép một phạm vi rộng lớn hơn nhiều củacác ứng dụng). Nó đạt được điều này trong hai chính cách, bằng cách sửdụng các thuật toán nén tiên tiến hơn và bằngcách cung cấp mộttập hợp rộng rãi của công cụ để mã hóa và thao tác các phương tiện truyềnthông kỹ thuật số. MPEG-4 Visual bao gồm cốt lõi mã hóa / giải mã video môhình cùng với một số công cụ bổ sungmã hóa. Các mô hình cốt lõi làdựa trên các mô hình nổi tiếng lai mã hóa DPCM / DCT(xem Chương 3) chứcnăng cơ bản của lõi được mở rộng bởi các công cụ hỗ trợ (trong số nhữngthứ khác) tăng cường nén hiệu quả, đáng tin cậy cho việc truyền dẫn, mã hóacủa hình dạng riêng biệt hoặc các đối tượng trong một hình ảnh cảnh, nén dựatrên lưới và hình ảnh động của các mô hình mặt hoặc cơ thể.Nó không chắc rằng bất kỳ ứng dụng sẽ yêu cầu tất cả các công cụ có sẵn trongMPEG-4 Visual khuôn khổ và tiêu chuẩn mô tả một loạt các hồ sơ, đề nghịbộ hoặc các nhóm của các công cụ cho các loại hình cụ thể của ứng dụng.Ví dụvề các cấu hình bao gồm Đơn giản (một thiết lập tối thiểu của các côngcụ cho các ứng dụng ít phức tạp), Core và Main (với các công cụ để mãhóa các đối tượng nhiều video tùy tiện hình), thời gian thực đơn giản(với cáccông cụ nâng cao cho Simple lỗi đàn hồi truyền với sự chậm trễ thấp) và nângcao (cung cấpđược cải thiện nén tại các chi phí phức tạp gia tăng).MPEG-4 Visual được thể hiện trong tiêu chuẩn ISO / IEC 14496-2, một tàiliệu rất chi tiết chạy Ning để hơn 500 trang. Phiên bản 1 được phát hànhvào năm 1998 và tiếp tục các công cụ và hồ sơ được thêm vào hai sửaổi các tiêu chuẩn lên đến đỉnh điểm trong phiên bản 2vào cuối năm 2001. Côngcụ khác và hồ sơ được quy hoạch để sửa đổi hoặc phiên bản trong tươnglai nhưngbộ công cụ, cấu trúc của MPEG-4 có nghĩa rằng bất kỳ phiên bản saunày của 14496-2 nên vẫntương thích ngược với Phiên bản 1.Chương này là một hướng dẫn để các công cụ và tính năng của MPEG-4Visual. Thực tế implemen-tations MPEG-4 Visual được dựa trên một hoặcnhiều các cấu hình quyđịnh trong tiêu chuẩn vàdo đó, chương này được tổ chức theo cấu hình. Sau khi một tổng quan vềtiêuchuẩn và phương pháp tiếp cận và tính năng, cấu hình cho mã hóa khunghình videohình chữ nhật được thảo luận (đơn giản nâng cao Đơn giảnvà nâng caothời gian thực đơn giản hồ sơ). Đây là những phổ biến nhấtcấu hình sử dụng tại thời điểm hiện tại và do đó họ được bảo hiểm trongmột sốchi tiết. Công cụ và cấu hình cho mã hóa của các đối tượng hình tùy ý được thảoluận tiếp theo (Core, chínhvà hồ sơ liên quan), tiếp theo là cấu hình cho khảnăng mở rộng mã hóa, mã hóa kết cấu vẫn còn và chất lượng cao (studio) mãhóavideo.
  2. 2. Ngoài các công cụ mã hóa của vật liệu video "tự nhiên" (thực thế giới), MPEG-4Visual định nghĩa một tập hợp các hồ sơ để mã hóa tổng hợp (máy tính tạo ra)các đối tượng hình ảnh như vậynhư mắt lưới 2D và 3D và các mặt hoạt hình và các mô hình cơ thể. Trọngtâm của cuốn sách này là rất nhiều về mã hóa video tự nhiên và do đó các cấuhình này chỉ được giới thiệu một thời gian ngắn. mã hóa công cụtrong Visual tiêu chuẩn MPEG-4 mà không có trong hồ sơ bất kỳ(chẳng hạnnhư Over- ghép chồng Bồithường Khối Motion, OBMC) (có lẽ contentiously!) khôngđược trình bày trongchương.5.2 TỔNG QUAN VỀ MPEG-4 Video Coding VISUAL (tự nhiên)5.2.1 Các tính năngMPEG-4 Visual nỗ lực để đáp ứng các yêu cầu của một loạt các hìnhảnhcommunication ứng dụng thông qua một phương pháp tiếp cận dựa trên bộ công cụ đểmã hóa thông tin thị giác. Một số các tính năng quan trọng màphân biệt MPEG-4 Visual từ trước tiêu chuẩn mã hóa hình ảnhbao gồm:1. Nén hiệu quả của tiến bộ và interlaced chuỗi video "tự nhiên" (néncủa chuỗi các khung hình video có hình chữ nhật). Cốt lõi của công cụnénđược dựa trên Tiêu chuẩn ITU-T H.263 và có thể ngoài thực hiện MPEG-1 và nén videoMPEG-2.Công cụ tùy chọn bổ sung nâng cao hơn nữa hiệu suất nén.2. Mã hóa của đối tượng video (hình khu vực bất thường của một cảnhquay video). Đây là một khái niệm mớidựa trên tiêu chuẩn video mã hóa và cho phép (ví dụ) mã hóa độc lập củanềntrướcvà nền tảng đối tượng trong một cảnh quay video.3. Hỗ trợ truyền qua mạng thực tế có hiệu lực. Lỗi công cụ khả năng phụchồi giúp một bộ giải mã để phục hồi từ các lỗi truyền dẫn và duy trì một kếtnối videothành công trong một lỗi dễ bị môi trường mạng và các công cụ mãhóa khả năng mở rộngcó thể giúp hỗ trợ linh hoạt truyền tại một loạtcác bitrate mã hóa.4. Mã hóa của kết cấu vẫn còn (dữ liệu hình ảnh). Điều này có nghĩa, ví dụ,vẫncòn hình ảnh có thể làmã hoá và truyền trong khuôn khổ tương tự như chuyển những dữliệuvideo. Texture các công cụ mã hóa cũng có thể hữu ích kếthợp với vẽ dựatrên hình ảnh động.5.Coding của các đối tượng động trực quan như mắt lưới đa giác 2D và3D, hoạthình khuôn mặt và hoạt hình cơ thể con người.6. Mã hóa cho các ứng dụng chuyên gia chẳng hạn như phòng thu video chất
  3. 3. lượng. Trong loại ứng dụng này, Chất lượng hình ảnh có lẽ là quan trọnghơn nén cao.5.2.2 Công cụ, các đối tượng, Hồ sơ và trình độBảng 5.1 MPEG-4 Visual cấu hình cho mã hóa video tự nhiênMPEG-4 trực quan hồ sơ cá nhân Các tính năng chínhĐơn giản Mã hóa phức tạp thấp của khung hình chữ nhậtnâng cao Mã hóa khung hình chữ nhật có hiệu quả cải thiện và hỗ trợ interlaced videoNâng cao Real-Time đơn giản Mã hóa khung hình chữ nhật thời gian thực trực tuyếnCore Mã hóa cơ bản của các đối tượng video hìnhtùy ýMain Mã hóa tính năng phong phú của các đối tượngvideoNâng cao mã hiệu quả Mã hóa hiệu quả cao của các đối tượng videoN-Bit Mã hóa của các đối tượng video với độ phângiải mẫu khác hơn 8 bitĐơn giản, khả năng mở rộng Khả năng mở rộng mã hóa các khung hình video hình chữ nhật Nâng cao khả năng mở rộng mã hóa của khung hình chữMỹ Granular Khả năng mở rộng nhật Khả năng mở rộng mã hóa các đối tượng video Khả năng mở rộng mã hóa của kết cấu vẫn cònKhả năng mở rộng Core Kết cấu vẫn còn khả năng mở rộng với hiệu quả cảikhả năng mở rộng Texture thiện và các tính năngdựa trên đối tượngKhả năng mở rộng Texture nâng cao Kết hợp các tính năng của Profiles Texture đơn giản, Core và nâng cao khả năng mở rộngnâng cao Core Mã hóa dựa trên đối tượng của chuỗi video chất lượng cao Đối tượng dựa trên mã hóa video chất lượng cao với cải thiệnnén hiệu quảĐơn giản StudioCore studioBảng 5.2 MPEG-4 Visual cấu hình cho mã hóa video tổng hợphoặc hybridMPEG-4 trực quan hồ sơ cá nhân Các tính năng chínhCơ bản hoạt hình Texture 2D lưới mã hóa vẫn còn kết cấuMặt chuyển động đơn giản Mô hình khuôn mặt của con người hoạt hìnhMặt đơn giản và Body Animation mặt hoạt hình và các mô hình cơ thểlai Kết hợp các tính năng đơn giản, Core, cơ bản hoạt hình Kết cấu và cấu hình khuôn mặt Animation đơn giảnMPEG-4 Visual cung cấp chức năng mã hóa thông qua một sự kết hợp các côngcụ, các đối tượng và hồ sơ.Một công cụ là một tập hợp các chức năng mãhóa để hỗ trợ một tính năng cụ thể (ví dụ, mã hóa video cơ bản,interlaced video,hình dạng mã hóa đối tượng, vv). Một đối tượng là một yếu tố video (ví dụ:một chuỗi các khung hình chữ nhật, một chuỗi các khu vực hình chữ tùy ý,mộthình ảnh vẫn còn) được mã hoá bằng cách sử dụng một hoặc nhiều công cụ. Vídụ, một đối tượng video đơn giản được mã hoá bằng cách sử dụng một giới hạntập hợp con của các công cụ cho các chuỗi video khung hình chữ nhật, một đốitượng cốt lõi video được mã hoá bằng cách sử dụng các công cụcho các đối tượng tùy tiện hình và vv. Một hồ sơ là một tập hợp của cácloạiđối tượng mà CODEC dự kiến sẽ có khả năng xử lý.
  4. 4. MPEG-4 hồ sơ hình ảnh để mã hóa những cảnh phim "tự nhiên" được liệtkê trong Bảng 5.1 và những phạm vi từ đơn giản (mã hóa của các khung hìnhvideo hình chữ nhật) thông qua hồ sơ cho đối tượng tùy ý hình và khả năng mởrộng mã hóa để cấu hình cho mãhóa video chất lượng studio.Bảng 5.2 liệt kê các cấu hình mã hóa tổng hợp, video (hoạt hình mắt lưới,khuônmặt / mô hình cơ thể) và hồ sơ cá nhân hybrid (kết hợp các tính năng mãhóa video tổng hợp và tự nhiên). nhữnghồ sơ này được không (hiện tại) được sử dụng để nén video tựnhiên và dođó, không đề cập chi tiết trong cuốn sách này.Hình 5,1 MPEG-4 Visual hồ sơ và đối tượng( tự xem nhé hình ko dịch đc)Hình 5.1 liệt kê mỗi MPEG-4 hồ sơ trực quan (cột bên trái) và đối tượng thị giácloại (hàng trên). Các mục bảng cho thấy các loại đối tượng được chứatrong mỗihồ sơ. Ví dụ, một bộ giải mã tương thích với hồ sơ đơn giản phải có khảnăng mã hóa và giải mã đơn giản đối tượng và hồ sơ Core CODEC phải có khảnăngmã hóa vàĐơn giản và Core giải mã đối tượngProfiles là một cơ chế quan trọng để khuyến khích khả năng tươngtácgiữa các codec từ các nhà sản xuất khác nhau. MPEG-4 isual tiêu chuẩn môtả một phạm vi đa dạng của mã hóa công cụ và nó không chắc rằng bấtcứ CODEC thương mại sẽ yêu cầuthực hiện của tất cả các công cụ. Thay vàođó, một nhà thiết kế bộ giải mã lựa chọn một hồ sơchứa đầy đủ các côngcụ cho mục tiêu ứng dụng. Ví dụ, một bộ giải mã cơ bản thực hiện trên một bộxử lý năng lượng thấp có thể sử dụng Hồ sơ đơn giản, một bộ giải ã cho cácứng dụng video có thể chọn nâng cao thời gian thực Đơn giản và như vậy. Đếnnay, một số hồ sơ đã có tác động trên thị trường hơn những người khác. Cácđơn giản và nâng cao cấu hình đơn giản là đặcbiệt phổ biếnvới các nhà sản xuất và người sử dụng trong khi cấu hình cho mãhóa của các đối tượng tùy ý hình đã rất hạn chế thương mại tác động (xemChương 8 để thảo luận thêm về tác động thương mại của MPEG-4 Cấu hình).Hồ sơ xác định một tập hợp con của mã hóa các công cụ và trìnhđộ xácđịnh các hạn chế trên các thông số của bitstream sự. Bảng 5.3 liệt kêcác trình độ cho các hồ sơ đơn giảndựa trên phổ biến (đơn giản, đơn giảnvà nâng cao nâng cao thời gian thực đơn giản) . Mỗi cấp nơi khó khăn về hiệusuất tối đa cần thiết để giải mã một chuỗi mã hóa MPEG-4. Ví dụ, một mul-timedia thiết bị đầu cuối với khả năng xử lý hạn chế và một số tiền nhỏ của bộnhớ chỉ có thểhỗ trợ Simple Profile - Cấp 0 bitstream giải mã. Cấp nơi định nghĩa hạn chế vàolượng bộ nhớ đệm, kích thước khung hình được giải mã và tỷ lệ chếbiến (macroblocks mỗi giây) và số lượng của các đối tượng video (trong trườnghợp này, một khung hình chữ nhật duy nhất).Một thiết bị đầu cuối cóthể đối phó với các thông số được đảm bảo là có khả năng thành công giảimã bất kỳ phù hợp Simple Profile Cấp 0 bitstream. Mức độ cao hơncủa hồ
  5. 5. sơ đơn giản yêu cầu một bộ giải mã để xử lý bốn đối tượng video SimpleProfile (ví dụ,lên đến bốn đối tượng hình chữ nhật bao gồm độ phân giải mànhình QCIF hoặc CIF)5.2.3 Video của đối tượng Một trong những đóng góp quan trọng của MPEG-4 Visual là một độngtháitừ quan điểm "truyền thống" của một video theo chuỗi nhưlà chỉ đơn thuần là một bộ sưu tập của khung hình chữ nhật củavideo. Thay vào đó, MPEG-4 Visual xử lý một chuỗi video như là một bộ sưutập của một hoặc nhiều đối tượng video.MPEG-4 Visual xác định một đốitượng video như là một thực thể linh hoạt mà người dùngđược phép truycập (tìm kiếm, trình duyệt) và thao tác (cắt và dán) [1]. Một đối tượng video(Võ) là một khu vực của cảnhvideo.chiếm một khu vực hình tùy tiện và có thể tồn tại cho một chiều dài tùy ý thờigian. một ví dụ của một VO tại một điểm cụ thể trong thời gian là một chiếc máybay đốitượng video (VOP).Định nghĩa này bao gồm các phương pháp tiếp cận truyền thống mã hóakhunghình hoàn chỉnh, trong đó VOP từng là một khung duy nhất của video và mộtchuỗi các khung hình thành một Võ (ví dụ,Hình 5.2 cho thấy một VO bao gồm ba VOPs hình chữ nhật). Tuy nhiên, việcgiới thiệu khái niệm VO cho phép tùy chọn linh hoạt hơn để mã hóa video. Hình5.3cho thấy một VO rằng bao gồm bất thường-các hình VOPs, mỗi một trong những tồn tại trong một khung và mỗi mã mộtcách riêng biệt (mã hóa dựa trên đối tượng).Một cảnh trong video (ví dụ như Hình 5.4) có thể được thực hiện của một đốitượng nền (VO3 trong ví dụ này) và một số đối tượng tiềncảnh riêngbiệt (VO1, VO2). Cách tiếp cận này có tiềm nănglinh hoạt hơn nhiều so với cấu trúc, cố định khung hình chữ nhật tiêuchuẩntrước đó. Các đối tượng riêng biệt có thể được mã hóa với chấtlượng hình ảnh và độ phân giải thời gian để phản ánhtầm quan trọng đến cảnh cuối cùng, các đối tượng từ nhiềunguồn (baogồm cả đối tượng tổng hợp và "tự nhiên") có thể được kếthợp trong một cảnh duy nhất và các thành phần và hành vi củacảnh có thể đượcanipulated bởi một người dùng cuối trong các ứng dụng tươngtác cao.Hình 5.5 cho thấymột cảnh quay video mới được hình thành bằng cách thêm VO1 từ5,4 hìnhmột VO2 mới và một Võ nền mới. Mỗi đối tượng được mãhoá một cáchriêng biệt bằng cách sử dụng MPEG-4 Visual (hợp của các đốitượng hình ảnh và âm thanh được giả định để được xử lý riêng, ví dụ bởi hệthốngMPEG-4 [2]).5,3 Coding hình chữ nhật khung hìnhMặc dù có các linh hoạt tiềm năng được cung cấp bởi các mã hóa dựa trênđối tượng, các ứng dụng phổ biến nhất của MPEG-4 Visual là để mã hóa khunghình đầy đủ của video.Các công cụ cần thiết để xử lý VOPs hình chữ nhật (thường là các khung hình video hoàn chỉnh) được nhóm lại với nhau trong các
  6. 6. cấu hình đơn giản, chương trình được gọi.Các công cụ và các đối tượng để mãhóa khung hình chữ nhật được hiển thị trong hình 5.6.Các công cụ cơ bản là tương tự như những người thông qua chuẩn video mã hóa trước đó, DCT-dựatrên mã hóa của macroblocks với dự đoán chuyển động bồi thường.Hồ sơ cánhân đơn giản dựa trên mô hình lai wellknownDPCM / DCT (xem Chương 3, Mục 3,6 ) với các công cụ bổ sung để nâng cao hiệu quả mã hóa và hiệu quảtruyền dẫn.Do sự phổ biến rộng rãi của hồ sơ đơn giản, cấu hình cao cấp chocác VOPs hình chữ nhật đã được phát triển. Hồ sơ cá nhân đơn giản nângcao cải thiện hiệu quả tiếp tục mã hóa và cho biết thêm hỗ trợ cho interlacedvideo và thời gian thực nâng cao hồ sơ cá nhân đơn giản bổ sung công cụ rấthữu ích cho thời gian thực các ứng dụng video.5.3.1 Đầu vào và đầu ra định dạng video Các đầu vào Visual một bộ mã hóa MPEG-4 và đầu ra của một bộ giải mãlàmột chuỗi video 04:02:00, 04:02:02 hoặc 4:04:04 tiến bộ hoặc xen kẽ địnhdạng (xem Chương 2). MPEG-4 Visual sử dụng bố trí lấy mẫu được hiển thịtrong Hình 2.11 cho khung tiến bộ lấy mẫu và phương pháp hiển thịtrong hình2.12 cho phân bổ luma và mẫu sắc độ cho từng cặp của các lĩnh vực trongmột chuỗi xen kẽ.5.3.2 Các đơn giản hồ sơ CODEC đó là tương thích với hồ sơ đơn giản nên có khả năng mã hóa vàgiảimã đối tượng video đơn giản bằng cách sử dụng các công cụ sau:1.I-VOP (Intra VOP được mã hóa hình chữ nhật, tiến bộ định dạng video);2. P-VOP (Inter-VOP hình chữ nhật được mã hóa, tiến bộ định dạng video);3.tiêu đề ngắn (chế độ cho khả năng tương thích với các codec H.263);4. hiệu quả các công cụ nén (vector chuyển động cho mỗi macroblock,vectơ chuyển động không hạn chế, dự đoán nội);5. hiệu quả các công cụ truyền dẫn (gói dữ liệu video, dữ liệu phânvùng,Mã Length biến đổi thuận nghịch).5.3.2.1 Các Bit Rate video Core Rất thấpĐơn giản của MPEG-4 Visual sử dụng một mô hình bộ giải mã được gọilàCore Bit Rate Rất thấp (VLBV) Video (DPCM / DCT lai mô hình được mô tảtrong Chương 3).Trong phổ biến với các tiêu chuẩn khác, kiến trúc củacác bộmã hóa và giải mã được không quy định ở định dạng MPEG-4Visual nhưng thực hiện thực tế sẽ yêu cầu để thực hiện các chức năngđượchiển thị trongHình 5.7 (mã hóa của VOPs nội) và hình 5.8 (mã hóacủa VOPs liên). Cáccông cụ cơ bản cần thiết để mã hóa và giải mã hình chữnhật I-VOPs vàP-VOPs được mô tả trong phần tiếp theo (Mục 3.6 của Chương3 cung cấpmột đi bộ qua chi tiết hơn về quá trình mã hóa và giải mã). Các côngcụtrong Core VLBV được dựa trên chuẩn H.263 và chế độ ngắn tiêuđề chophép khả năng tương thích trực tiếp (ở cấp độ khung hình) giữa các bộgiải mã hồ sơ MPEG-4 Simple và bộ giải mã cơ bản H.263.5.3.2.2 cơ bản mã hóa các công cụI-VOP
  7. 7. Một hình chữ nhật I-VOP là một khung hình của video được mã hóa trongchế độ nội (không có dự báo từ bất kỳ VOP được mã hóa khác).Các giaiđoạn mã hóa và giải mã được hiển thị trong hình 5.7DCT và IDCT: khối luma và mẫu sắc được chuyển đổi bằng cách sử dụngmột8 × 8 Chuyển tiếp DCT trong quá trình mã hóa và một 8 × 8 InverseDCT trongquá trình giải mã (xem Phần 3.4).Lượng tử: Các MPEG-4 Visual tiêu chuẩn quy định cụ thể các phươngpháp thay đổi tỷ lệ (ngược quantising) lượng tử biến đổi các hệ số trong bộ giảimã.Rescaling được điều khiển bởi một tham số quy mô quantiser,QP, có thể cógiá trị 1-31 (lớn hơn giá trị của QP sản xuất mộtquantiser bước kích thước và do đó cao hơn nén và istortion). Hai phươngpháp của rescaling được mô tả trong các tiêu chuẩn: Phương pháp 2(phươngpháp cơ bản) và phương pháp 1 (linh hoạt hơn nhưng cũng phức tạphơn). Phương pháp 2 nghịch đảo lượng tử hoạt động như sau. HệsốDC một macroblock Intra mã được thay đổi tỷ lệ: DC = DCQ.dc scaler(5.1)DCQis các hệ số lượng tử, DC là hệ số thay đổi tỷ lệ và dc scaler là một thamsố được xác định trong tiêu chuẩn.Trong chế độ tiêu đề ngắn (xemdưới đây),dc scaler là 8 (tức là tất cả các hệ số DC nội được thay đổi tỷ lệbởi một yếutố của 8), nếu không dc scaler được tính theo giá trị của QP(Bảng5.4).Tất cả các hệ số biến đổi khác (bao gồm cả AC và Inter DC)được thay đổi tỷlệ như sau: | F | = QP • (2 • | FQ | +1) (nếu QP là lẻ và FQ = 0) | F | = QP • (2 • | FQ | + 1) - 1 (nếu QP và FQ = 0) F = 0 (nếu FQ = 0) (5.2) FQ là hệ số lượng tử và F là hệ số thay đổi tỷ lệ.Các dấu hiệu của F được thực hiện tương tự như dấu hiệu của FQ. Chuyển tiếp lượng tử không được xác định bởi các tiêu chuẩnZig-zag quét: hệ số DCT lượng tử được sắp xếp lại trong một zig-zag quéttrướckhi để mã hóa (xem Phần 3.4).Mã hóa cuối-Run-Level: mảng của các hệ số sắp xếp lại tương ứng với mỗikhối được mã hoá để đại diện cho không hệ số hiệu quả.Mỗi hệ số kháckhông được mã hóa như là một bộ ba của (cuối cùng, chạy, mức độ), nơicuốicùng cho biết đây là hệ số khác không cuối cùng trong khối, chạy tínhiệu số trước các hệ số không và mức độ "cho thấy các hệ sốký tên và độ lớnEntropy mã hóa: Tiêu đề thông tin và (cuối cùng, chạy, mức độ) ba (xemPhần3.5) được đại diện bởi chiều dài thay đổi mã (VLCs).Các mã nàytương tựnhư mã Huffman và được định nghĩa trong tiêu chuẩn, dựa trênxác suất hệsố tính trướcMột mã I-VOP bao gồm một tiêu đề VOP, tiêu đề gói tùychọn video vàmacroblocks mã.Mỗi macroblock được mã hoá với một tiêuđề (xác địnhloại macroblock, xác định các khối trong macroblock chứa hệ
  8. 8. số mã, tín hiệu thay đổi trong tham số lượng tử, vv) tiếp theo là hệ số được mãhóacho mỗi 8 × 8 blockTrong bộ giải mã, trình tự của VLCs được giải mã để trích xuất chuyển đổihệsố lượng tử được thu nhỏ và biến đổi bởi một 8 × 8 IDCT để tái tạo lạiđược giảimã I-VOP (hình 5.7).P-VOPP-VOP được mã hoá với dự đoán của Inter từ trước đó mã hóa I-P-VOP(VOP tham chiếu). Các giai đoạn mã hóa và giải mã được hiển thị tronghình5.8.Chuyển động dự toán và bồi thường: Đề án bồi thường chuyển động cơbản là khối dựa trên bồi thường 16 × 16 macroblocks pixel (xem Chương 3).Bùđắp giữa các macroblock hiện tại và khu vực bồi thường trong cáchình ảnh thamchiếu (vector chuyển động) có thể có nửa điểm ảnh độ phân giải.Mẫu dựđoán tại các vị trí điểm ảnh phụ được tính bằng cách sử dụngnội suy song tuyếntính giữa các mẫu ở vị trí số nguyên-pixel.Các phương pháp dựtoán chuyển động (lựa chọn các vector chuyển động "tốt nhất")được để lại theoý của người thiết kế.Các khu vực phù hợp (hoặc dự đoán)được trừđi từ các macroblock hiện tại để sản xuất một macroblock còn lại(Motion-bù Dựđoán, MCP trong hình 5.8).Sau khi bồi thường chuyển động, các dữ liệu còn lại được chuyển đổi với DCT, lượng tử, sắp xếp lại, chạy cấp mã hóa và các dữ liệu ngẫu nhiênđược mãhóa.Các dư lượng tử được thay đổi tỷ lệ và ngược chuyển đổitrong bộ mãhóa để tái tạo lại một bản sao địa phương của MB giải mã(đối với dự đoán tiếptục bồi thường chuyển động).Một mã P-VOP bao gồm VOP tiêu đề, tiêu đềvideo gói tùy chọn và macroblocks mã mỗi cóchứa một tiêu đề (thời giannày bao gồm các vector chuyển động khác biệtđược mã hóa) và hệ số cònlại được mã hóa cho mỗi 8 × 8 block.Bộ giải mã hình thức dự đoán chuyển động bồi thường dựa trên các vectorchuyển động nhận được và bản sao của chính địa phương của VOP thamchiếu.Các dữ liệu còn lại được giải mã sẽ được thêm vào dự đoán để tái tạolại một macroblock giải mã (Motion-bù tái thiết, MCR trong hình 5.8).Macroblocks trong một P-VOP có thể được mã hóa trong chế độ Inter (vớidựđoán chuyển động bồi thường từ VOP tham chiếu) hoặc chế độ nội(không có dựđoán chuyển động bồi thường).Liên chế độ bình thường sẽcho hiệu quả tốtnhất mã hóa nhưng Intra chế độ có thể hữu ích trong các khu vực nơi có khôngphải là một trận đấu tốt trong một VOP trước đó,chẳng hạn như là một khuvực mới chưa được khám phá.Short Tiêu đềNgắn tiêu đề công cụ cung cấp khả năng tương thích giữa MPEG-4Visualvà ITU-T tiêu chuẩn video H.263 mã hóa. Một mã hóa I-P-VOP trong chếđộngắn tiêu đề có cú pháp giống hệt với hình ảnh I hoặc P-hình ảnh được mãhóa trong chế độ cơ bản của H.263. Điều này có nghĩa là MPEG-4 I-VOPhoặc P-VOP decodeable bởi một bộ giải mã H.263 và ngược lại. Trong chế độ tiêu đề ngắn, macroblocks trong VOP được tổ chức trongNhóm Blocks (gobs), bao gồm một hoặc nhiều hàng đầy đủ của macroblocks.Mỗi thủy thủ (tùy chọn) có thể bắt đầu với một điểm đánh dấu resynchronisation
  9. 9. (mã nhị phân có độ dài cố định cho phép một bộ giải mãđể resynchronise khilỗi gặp phải, xem Phần 5.3.2.45.3.2.3 Mã hóa hiệu quả Công cụCác công cụ sau đây, một phần của hồ sơ đơn giản, có thể cải thiện hiệu suấtnén.Họ chỉ được sử dụng khi chế độ tiêu đề ngắn không được kích hoạt.Bốn vector chuyển động cho mỗi macroblock chuyển động bồithường có xuhướng có hiệu quả hơn với các kích thước khối nhỏ hơn.Kíchthước khốimặc định bồi thường chuyển động là 16 × 16 mẫu (luma), 8 × 8 mẫu(sắc độ), kết quả trong một vector chuyển động cho mỗi macroblock.Công cụnày cung cấp cho các bộ mã hóa tùy chọn để lựa chọn một kích thước khốichuyển động nhỏ hơn đền bù, 8 × 8 mẫu (luma) và 4 × 4 mẫu (sắc độ) , chobốn vectơ chuyển động mỗi macroblock.Chế độ này có thể có hiệu quả hơngiảmthiểu năng lượng còn lại chuyển động bồi thường, đặc biệt là ở các khu vựcchuyển động phức tạp hoặc ở gần ranh giới của các đối tượng di chuyển.Có mộtchi phí gia tăng trong việc gửi bốn vectơ chuyển động thay vìmột, và do đó, cácbộ mã hóa có thể chọn để gửi một hoặc bốn vectơchuyển động trên một cơ sởmacroblock-by-macroblock (Hình 5,9).Vectors chuyển động không hạn chếTrong một số trường hợp, phù hợp nhất cho macroblock có thể là một khuvực 16 × 16 mở rộng bên ngoài ranhgiới của VOP tham chiếu.Hình 5,10 chothấy góc dưới bên trái của mộtVOP hiện nay (hình ảnh bên phải) và, trướcđây tham khảo VOP (bên tráiảnh).Bàn tay giữ cây cung di chuyển vào hìnhảnh trong các VOP hiện tại vàdo đó không phải là một trận đấu tốt chomacroblock đánh dấu bên trongVOP tham chiếu.Trong hình 5,11, mẫu trongVOP tham chiếu đã đượcngoại suy (đệm) vượt ra ngoài ranh giới của VOP.Một trận đấu tốt hơn chocác macroblock thu được bằng cách cho phép các vector chuyển động chỉvào khu vực này suy luận (macroblock đánh dấu tronghình 5,11 là phù hợp nhất trong trường hợp này).Vectors chuyển động không bịgiới hạn (UMV) công cụ cho phép vector chuyển động chỉ ở bên ngoài ranhgiới của VOPtham chiếu.Nếu một mẫu được chỉ định bởi vector chuyển động bên ngoàiVOP tham khảo, các mẫu góc gần nhất được sử dụng để thay thế.UMV chế độ có thể nâng cao hiệu quả bồi thường chuyển động , đặc biệt là khi cóđược các đối tượng di chuyển trong và ngoài của hình ảnh.Intra Dự đoánTần số thấp biến đổi hệ số của nước láng giềng trong mã 8 × 8 khối thường tương quan. Trong chế độ này, hệ số DC và (tùy chọn) hàng đầu tiên và cộtcủa hệ số AC 8 mã hóa nội × 8 khối được dự đoán từ các khối mã lân cận. Hình 5,12 cho thấy một macroblock mã trong chế độ nội khối vàcác hệsố DCT cho mỗi bốn 8 × 8 khối luma được thể hiện trong hình 5,13.Các hệsố DC (trên cùng bên trái) rõ ràng tương tự, nhưng nó ít rõ ràng cho dù có sựtương quan giữa hàng đầu tiênvà cột của các hệ số AC trong các khối.Hệ số DC của khối hiện tại (X trong hình 5,14) được dự đoán từ hệ số DCtrên (C) hoặc bên trái (A) trước đây, mã hoá 8 × 8 block.DC hệ số giá trịthay đổitỷ lệ các khối A, B và C xác định các phương pháp dự đoán DC .Nếu A, B, hoặc C đang ở bên ngoài ranh giới VOP hoặc ranh giới củacác gói dữ liệu video hiện
  10. 10. tại (xem phần sau), hoặc nếu họ khôngintracoded, DC giá trị hệ số của họ đượcgiả định là bằng 1024 (hệ sốgiữa DCmàu xám khối mẫu).Hướng dự đoán được xác định bởi: nếu | DCA-DCB | | DCB DCC | dự đoán từ khối C khác dự đoán từ khối AHướng của gradient DC nhỏ nhất được lựa chọn như hướng dự đoán chokhối X. dự đoán, PDC, được hình thành bằng cách chia các hệ số DC củakhối lân cận được lựa chọn bởi một yếu tố rộng và PDCis trừ hệ số thực tếDC lượng tử (QDCX) và (PQDCX) còn lại được mã hoá và truyềnAC dự đoán hệ số được thực hiện theo cách tương tự, với các hàng hoặccột đầu tiên của AC hệ số dự đoán theo hướng xác định hệ sốDC (Hình5,15).Ví dụ, nếu hướng dự đoán là từ khối A, cột đầu tiên của AC hệsố trong khối X được dự đoán từ cột đầu tiên của khối A. Nếu hướng dựđoánlà từ khối C, hàng đầu tiên của AC hệ số X được dự đoán từ hàng đầu tiêncủa C. dự đoán được thu nhỏ tùy thuộc vào kích thước bước quantiser của X và khối A hoặc C.5.3.2.4 Công cụ hiệu quả truyềnMột lỗi truyền dẫn như một lỗi bit hoặc mất gói tin có thể gây ramột bộ giảimã video để mất đồng bộ hóa với các chuỗi của VLCs giảimã. Điều nàycó thể gây ra các bộ giải mã để giải mã không chính xác, một sốhoặc tấtcả các thông tin sau khi xảy ra lỗi và điều này có nghĩa rằng một phầnhoặctất cả các VOP được giải mã sẽ bị bóp méo hoặc bị mất hoàn toàn (tứclàảnh hưởng của lỗi lây lan không gian thông qua VOP, ropagation lỗi khônggian ). Nếu VOPs tiếp theo được dự đoán từ VOP bị hư hỏng , vùng bị bópméo có thể được sử dụng như là một tài liệu tham khảo dự đoán, dẫn đếntuyêntruyền lỗi thời những trong VOPs sau (Hình 5,16).Khi một lỗi xảy ra, một bộ giải mã có thể tiếp tục giải mã chính xác khi đạtđến một điểm resynchronisation, thường là một mã nhị phân duy nhấtdecodeable chèn vào trong bitstream.Khi bộ giải mã phát hiện một lỗi (ví dụvì một VLC không hợp lệ được giải mã), một cơ chế phục hồi thích hợp đểquét bitstream cho đến khi một dấu hiệu resynchronisation được phát hiện.Trong chế độ tiêu đề ngắn, các dấu resynchronisation xảy ra vào lúc bắtđầu của mỗi VOP và (tùy chọn) tại bắt đầu của mỗi thủy thủ.Các công cụ sau đây được thiết kế để cải thiện hiệu suất trong quá trìnhtruyền dữ liệu video được mã hóa và đặc biệt hữu ích, nơi có một xác suất caocủa lỗi mạng [3]. Các công cụ có thể không được sử dụng trong chếđộtiêu đề ngắn.Video PacketMột VOP truyền bao gồm một hoặc nhiều gói dữ liệu video. Một gói dữ liệuvideo là tương tự như một phần trong MPEG-1, MPEG-2 hoặc H.264 (xemPhần 6) và bao gồm một điểm đánh dấu resynchronisation, lĩnh vực tiêu đềvà một loạt các macroblocks mã để raster scan (Hình 5,17). (Gây nhầm lẫn,MPEG-4 Visual tiêu chuẩn đôi khi đề cập đến các gói dữ liệu video như làlátcắt). Đánh dấu resynchronisation được theo sau bởi một số của số acroblock
  11. 11. tiếp theo, cho phép một bộ giải mã đến vị trí macroblock đầu tiêncủa góitin một cách chính xác. Sau này có các tham số lượng tử và một lá cờ, HEC (Tiêu đề mở rộng Code). Nếu HEC được thiết lập để 1, tiếp theo là một bảnsao của tiêu đề VOP hiện hành, tăng số lượng thông tin được truyền đi nhưng cho phép một bộ giải mã để khôi phục lại các tiêu đề VOPnếu các tiêuđề VOP đầu tiên bị hỏng bởi một lỗi.Các công cụ gói dữ liệu video có thể hỗ trợ khôi phục lỗi ở bộ giải mã theo nhiềucách, ví dụ:1. Khi một lỗi được phát hiện, các bộ giảimã có thể resynchronise tại bắtđầu của các gói dữ liệu video tiếp theo và do đó,các lỗi không tuyên truyềnvượt ra ngoài ranh giới của các gói dữ liệu video2. Nếu sử dụng, trường HEC cho phép một bộ giải mã để phục hồimột tiêuđề VOP bị mất từ các nơi khác trong VOP.3. Mã hóa tiên đoán (như khác biệt giữa các mã hóa của các tham sốlượngtử, dự đoán của các vectơ chuyển động và DC / AC dự đoán nội)không vượtqua ranh giới giữa các gói tin video. Điều này ngăn cản (ví dụ)một lỗi trong dữliệu vector chuyển động từ tuyên truyền đến một gói dữ liệuvideo.Dữ liệu phân vùngCác công cụ phân vùng dữ liệu cho phép một bộ mã hóa để tổ chức lại dữliệu được mã hóa trong một gói tin video để giảm tác động của lỗi truyềndẫn. Gói tin được phân chia thành hai phân vùng, (ngay sau khi tiêu đề góitin video) đầu tiên có chứa mã hóa chế độ thông tin cho mỗimacroblock cùng với DC hệ số của mỗikhối (macroblocks nội) hoặc vectơchuyển động (macroblocks liên). Các dữ liệucòn lại (AC hệ số và hệ số DCcủa macroblocks liên) được đặt trong phân vùngthứ hai một dấuresynchronisation.Các thông tin được gửi trong các phân vùng đầu tiên được coi là quan trọngnhất cho giải mã đầy đủ của các gói dữ liệu video. Nếu phân vùng đầu tiên bị thuhồi, nó thường là có thể cho các bộ giải mã để làm cho một nỗ lực xây dựnglại các gói tin hợp lý, thậm chí nếu phân vùng thứ 2 bị hư hỏnghoặc bịmất do lỗi truyền dẫn (s).Reversible VLCsMột tập hợp các tùy chọn của Mã Length thuận nghịch biến (RVLCs) có thểđượcsử dụng để mã hóa dữ liệu hệ số DCT. Như tên cho thấy, những mã này có thểđược một cách chính xác được giải mã ở cả hai hướng về phía trước và hướng ngược lại, làm cho nó có thể cho các bộ giải mã để giảm thiểu các khu vực hìnhảnh bị ảnh hưởng bởi lỗi.Một bộ giải mã 1 giải mã mỗi gói tin video trong hướng về phía trước, vànếu mộtlỗi được phát hiện (ví dụ như bởi vì cú pháp bitstream bị vi phạm),gói tinđược giải mã theo hướng ngược lại từ đánh dấu resynchronisation tiếp theo.Sử dụng phương pháp này, thiệt hại gây ra bởi một lỗi có thể bị giới hạn chỉmột macroblock, làm cho nó dễ dàng để che giấu errored khu vực . Hình 5,18minh họa việc sử dụng giải mã đàn hồi lỗi. Con số nàycho thấy một gói tin video sử dụng HEC, dữ liệu phân vùng và RVLCs. Máy báo lỗi xảy ra trong dữ liệu kết
  12. 12. cấu và bộ giải mã quét về phía trước và lạc hậu để phục hồi dữ liệu kết cấu ởhai bên của lỗi.5.3.3 Advanced Simple ProfileHồ sơ đơn giản, được giới thiệu trong phiên bản đầutiên của tiêu chuẩnMPEG-4 trực quan, nhanh chóng trở nên phổ biến với cácnhà phát triển cải thiện hiệu quả của nó so với tiêu chuẩn trước đó (chẳnghạn như MPEG-1 và MPEG-2) và dễ dàng tích hợp nó vào hiện tại các ứng dụngvideo sửdụng các khung hình video hình chữ nhật. Hồ sơ chi tiết đơn giản đượctích hợp vào một phiên bản sau của tiêu chuẩn với các côngcụ bổ sung để hỗtrợ cải thiện hiệu suất nén và mã hóa videointerlaced. Advanced Simple Profile CODEC phải có khả năng giải mã đốitượng đơn giản cũng nhưcác đối tượng đơn giản nâng cao có thể sử dụng cáccông cụ sau đâyngoài các công cụ đơn giản:1.B-VOP (bidirectionally dự đoán mã liên VOP);2. quý-pixel chuyển động bồi thường;3. bồi thường chuyển động toàn cầu;4. thay thế quantiser;5. interlace (các công cụ cho quá trình tiến hóa interlaced video).B-VOPB-VOP sử dụng dự báo hai chiều để nâng cao hiệu quả bồi thườngchuyểnđộng. Mỗi khối hoặc macroblock có thể được dự đoán sử dụng (a) chuyểntiếp dự đoán từ trước đó hoặc P-VOP, (b) ackwards dự đoán từtiếp theo hoặc P-VOP hoặc (c) trung bình của các dự đoán về phía trước và lạc hậu. Chế độnày thường cho hiệu quả tốt hơn mã hóa hơn so với dự đoán về phía trước cơbản, tuy nhiên, các bộ mã hóa phải lưu trữ nhiều khung hình trước khi mãhóa mỗi B-VOP làm tăng các yêu cầu bộ nhớ và sự chậm trễ mãhóa. Mỗi macroblock trong một B-VOPbồi thường chuyển động từ trước và / hoặc bên cạnh I-P-VOP trong mộttrong các cách sau đây (Hình 5,19).1. Chuyển tiếp dự đoán: Một MV duy nhất được truyền, MVF, đề cập đếntrướcđó, tôi hay P-VOP.2. Ngược dự đoán: Một MV duy nhất được truyền, MVB, đề cậpđếntương lai hoặc P-VOP.3. Hai chiều nội suy dự đoán: Hai MV được truyền, MVFand MVB, đề cậpđến trước đó và tương lai I-P-VOPs. Dự đoán chuyển động bồithườngcho các macroblock hiện tại được sảnxuất bởi interpolating giữa luma vàmẫu sắc độhai tài liệu tham khảo khu vực.4. Hai chiều trực tiếp dự đoán: vector chuyển động chỉ trước đây và trong tươnglai I-P-VOPs có nguồn gốc tựđộng từ các MV của các macroblockcùng trong tương lai I-P-VOP. Một đồngbằng MV sửa chữa các MV nàytự động tính được truyền.Ví dụ về chế độ trực tiếp (Hình 5,20)Trang trước tài liệu tham khảo VOP: I4, hiển thị thời gian = 2
  13. 13. B-VOP: B6, hiển thị thời gian hiện tại = 6VOP tài liệu tham khảo trong tương lai: P7, màn hình hiển thị thời gian = 7MV cho cùng một vị trí macroblock P7, MV7 = (+5, -10)TRB = hiển thị thời gian (B6) - hiển thị thời gian (I4) = 4TRD = hiển thị thời gian (P7) - hiển thị thời gian (I4) = 5MVD = 0 (không có vector đồng bằng)MVF = (TRB / TRD) MV = (+4, -8)MVB = (TRB-TRD/TRD), MV = (-1, +2)Quarter-Pixel chuyển động VectorsCác đơn giản hỗ trợ các vectơ chuyển động với độ chính xác một nửa-pixelvà công cụ này hỗ trợ các vectơ với độ chính xác tứ-pixel. Các tài liệu thamkhảo mẫu VOP được nội suy để nửa điểm ảnh vị trí và sau đó một lần nữađể quý-vị trí điểm ảnh trước khi chuyển động dự toán và bồi thường. Điều nàylàm tăng sự phức tạp của dự toán chuyển động, bồi thường và táithiết,nhưng có thể cung cấp một tăng hiệu suất mã hóa so với nửa-pixel bồithường (xem Chương 3).thay thế quantiserAn rescaling thay thế (nghịch đảo lượng tử) phương pháp được hỗ trợđơngiản nâng cao. Nội DC rescaling vẫn giữ nguyên (xem Phần 5.3.2)nhưng hệsố lượng tử khác có thể được thay đổi tỷ lệ sử dụng mộtmethod1 thaythế. Lượng tử hệ số FQ (u, v) được thay đổi tỷ lệ sản xuất hệ số F (u, v)(u, vare tọa độ của hệ số) như sau: F = 0 nếu FQ = 0F = [(2.FQ (u, v) + k) • Ww (u, v) • QP] / 16 nếu FQ = 0.(0 nội khối)K= 1 FQ (u, v)> 0, nonintra -1 Q (u, v) <0, nonintratrong nơi W là một ma trận các yếutố trọng, W0 macroblocks nội và W1macroblocks nonintra.Phương pháp2 rescaling (xem Phần 5.3.2.1), tất cả các hệ số (ngoài DC nội) được lượng tửhóa và thay đổi tỷ lệ với kích thước bước cùng quantiser.Rescaling Phươngpháp 1 cho phép một bộ mã hóa để thay đổi kích thước bước tùy thuộc vào vị trícủa các hệ số, sử dụng nước thải ma trận trọng.Ví dụ, hiệu suất chủquan tốt hơn có thể đạt được bằng cách tăng kích thước bước tần số hệsố cao và giảm thấp tần số hệ số.Bảng 5.5 cho thấy một ví dụ đơn giản củamột trọng lượng nước thải của ma trận.Chuyển động bồi thường toàn cầuMacroblocks trong các đối tượng cùng một đoạn video có thể trải nghiệmchuyểnđộng tương tự. Ví dụ, máy ảnh pan sẽ sản xuất rõ ràng chuyển độngtuyến tính
  14. 14. của toàn bộ khung cảnh, máy ảnh phóng to hoặc xoay sẽ tạo ra một chuyển động rõ ràng phức tạp hơn và macroblocks trong một đối tượng lớn có thể dichuyển trong cùng một hướng. Bồi thường chuyển độngtoàn cầu (GMC) chophép một bộ mã hóa để truyền tải một số ít chuyển động (cong vênh) các thôngsố mô tả toàn cầu mặc định chuyển động chotoàn bộ các VOP. GMC có thểcung cấp hiệu suất nén được cải thiện khi một số lượng đáng kể acroblocks trong chia sẻ VOP các đặc tính chuyểnđộng tương tự. Các thông số chuyển động toàn cầu được mã hóa trong tiêu đề VOP và bộ mã hóa lựa chọn hoặc GMC các thông số mặc địnhhoặc chuyển động một vector cá nhân cho các macroblock mỗiKhi công cụ GMC được sử dụng, bộ mã hóa gửi vectơ chuyển động toàncầu (GMVs) cho mỗi VOP cùng với vị trí của mỗi GMV trong VOP.Đối vớimỗi vị trí pixel trong VOP, một vector chuyển động cá nhân đượctính bằngcách nội suy giữa các GMVs và vị trí các điểm ảnh được chuyểnđộng bồi thường theo này suy vector (Hình 5,21).Cơ chế này cho phép bồi thường cho một loạt các loại chuyểnđộng quay(Hình 5,22), máy ảnh zoom (Hình 5,23) và cong vênh cũngnhư chuyển độngtịnh tiến hoặc tuyến tính.Việc sử dụng của GMC được kích hoạt bằng cách thiết lập tham số sprite chophép GMC trong tiêu đề lớp Object Video (VOL).VOPs trong các VOLsau đó cóthể được mã hóa như là S (GMC) VOPs (ma VOPs với GMC),như là một thaythế cho các phương pháp mã hóa bình thường (I-VOP,P-VOP hoặc B-VOP) .Thuật ngữ ma được sử dụng ở đây vì một loại đền bù chuyển động toàn cầu được áp dụng trong chế độ cũ của sprite mã hóa (một phần của hồ sơ chính ,xem Phần 5.4.2.2).InterlacedInterlaced video bao gồm hai lĩnh vực trên mỗi khung hình (xem Chương 2)lấymẫu tại các thời điểm khác nhau (thường là 50 Hz hoặc 60 Hz Tốc độ lấy mẫuthời gian).An VOP được interlaced chứa đường thay thế các mẫutừ hai lĩnh vực.Bởi vì các trường được lấy mẫu tại các thời điểm khác nhau,chuyển động ngang có thể làm giảm sự tương quan giữa các dòng củamẫu (ví dụ, trongkhuôn mặt di chuyển trong hình 5,24).Các bộ mã hóa cóthể chọn để mã hóa các macroblock Khung hình DCT chế độ, trong đó mỗi khối được chuyểnđổi như bình thường, hoặc trong chế độ trường DCT,trong đó các mẫu độ sáng từ Trường 1 được đặt trong tám dòng đầu của macroblock và các mẫu từField 2 trong tám dòng thấp hơn các macroblock trước khi tính toán DCT(Hình 5.25). Lĩnh vực DCT chế độ cho hiệu suất tốt hơn khi hai lĩnh vựcđượcdecorrelatedTrường Bồi thường trong chế độ chuyển động (tương tự như đến 16 ×8Chế độ chuyển động bồi thường trong các tiêuchuẩn MPEG-2), các mẫuthuộc hai lĩnh vực trong macroblock là chuyểnđộng bồi thường một cách riêng biệt để hai vectơ chuyển động được tạo racho các macroblock, một trong những người đầu tiênlĩnh vực và một cho phầnthứ hai. Các chế độtrực tiếp sử dụng B-VOPs (xem ở trên) sửa đổi để đối phóvới macroblocks có trường khối chuyển động tham chiếu bù. Hai phía trước và
  15. 15. hai vectơ chuyển động ngược được tạo ra,trong từng lĩnh vực trong hướng vềphía trước và lạc hậu. Nếu công cụinterlaced video được sử dụng kếthợp với mã hóa dựa trên đối tượng(xem Phần 5.4), quá trình padding cóthể được áp dụng riêng hai lĩnh vựccủa một macroblock ranh giới.5.3.4 Các chi tiết hồ sơ Thời gian đơn giảnCác ứng dụng streaming video cho các mạng như Internet yêu cầu nén tốtvàlỗi mạnh mẽ các công cụ mã hóa video có thể thích ứng với thay đổi điều kiệnmạng. các mã hóa và các công cụ khả năng phục hồi lỗi trong hồ sơ đơngiản là hữu ích chocác ứng dụng trực tuyến thời gian thực và nâng cao thời gianthực đơn giản (ARTS) loại đối tượng bổ sung công cụ hơn nữa để cải thiện lỗikhả năng phục hồi và tính linh hoạt mã hóa, (tài liệu tham khảo dự đoánnhiều) NEWPRED và năng động Nghị quyết chuyển đổi (còn được gọi là Nghịquyết Giảm Update). Một hồ sơ ARTS CODEC nên hỗ trợ các loại đốitượng đơn giản và ARTS.NEWPRED(Mới dự đoán ) NEWPRED công cụ cho phép một bộ mã hóa để lựa chọnmột tài liệu tham khảo dự đoán VOP từ bất kỳ một tập hợp các VOPs mã hóacho mỗi gói tin video. Mộttruyền lỗi không hoàn hảo được giấu sẽ có xuhướng tuyên truyền thời gian quatiếp theo VOPs dự đoán và NEWPRED cóthể được sử dụng để hạn chế tuyêntruyền thời gian như sau (Hình 5,26). Khiphát hiện một lỗi trong một VOP được giải mã (VOP1 trong hình5,26), bộ giảimã sẽ gửi một thông tin phản hồi tin nhắn đến các bộ mã hóa nhận dạng các góidữ liệuvideo errored. Bộ mã hóa chọn VOP tham khảo trước khi các góitin errored (VOP 0 trong ví dụ này) để mã hóa. sau VOP (khung hình 4). Điềunày có tác làm sạch lỗi và ngăn chặn thời gian tuyên truyền. Sử dụng NEWPRED theo cách này đòi hỏi cả hai bộ mã hóavà giải mã để lưu trữ nhiềuVOPs tái tạo để sử dụng như tài liệu tham khảo dự báo có thể xảy ra. Dựđoán từ một tài liệu tham khảo cũ VOP (4 VOPs trong quá khứ trong ví dụnày) có xu hướng làm giảm hiệu suất nén bởi vì sự tương quangiữa VOPs giảm với thời gian ngày càng tăng.Nghị quyết chuyển đổi độngNghị quyết chuyển đổi năng động (DRC), nếu không được gọi là Nghịquyết Giảm (RR) chế độ, cho phép một bộ mã hóa để mã hóa một VOPvới độphân giải không gian giảm. Điều này có thể là một công cụ hữu íchđể ngănchặn sự gia tăng đột ngột do bitrate mã (ví dụ) làm tăng chi tiết,nhanh chóngchuyển động trong khung cảnh. Thông thường, một sự thay đổi trong nộidung cảnh sẽ gây ra các bộ mã hóa để tạo ra một số lượng lớn các bit mãhóa, gây ra vấn đề cho một ứng dụng video truyền trên một kênh bitratehạn. Sửdụng công cụ DRC, VOP được mã hóa với một nửa bình thườngđộ phân giải ngang và dọc. Tại bộ giải mã, một macroblock còn lại trongmột VOP Nghị quyết Giảm được giải mã và upsampled (nội suy) để mỗi 8× 8 luma khối bao gồm một diện tích 16 × 16 mẫu. Các macroblockupsampled (tại bao phủ một diện tích 32 × 32 luma mẫu) là chuyển động bồi thường từ 32× khu vực tham khảo 32 mẫu(vector chuyển động các macroblock giải mãđược mở rộng bởi một hệ số 2) (Hình 5,27). Kết quả là VOP Nghị quyết Giảm được giải mã ở mộtnửa độ phân giải bình thường (vì vậy mà các chi tiết VOP
  16. 16. được giảm) với lợi ích mà VOP được mã hóa đòi hỏi các bit ít hơn để truyềntải hơn mộtVOP độ phân giải đầy đủ.5,4 MÃ VÙNG hình tùy ýMã hóa các đối tượng hình dạng bất kỳ (xem Phần 5.2.3) đòi hỏi một số phầnmở rộng dựa trên khối VLBV lõi CODEC [4].Mỗi VOP được mã hoá bằng cách sử dụng dự đoán chuyển động bồi thường và DCT-dựa trên mãhóa cònlại, với phần mở rộng để đối phó với các trường hợp đặc biệtđược giới thiệu theo địa giới đối tượng. Đặc biệt, nó là cần thiết để đối phó với mã hóa hìnhdạng, chuyển động bồi thường và kết cấu mã hóa video của các đốitượng hìnhtùy ý.Hình dạng mã hóa: hình dạng của một đối tượng video được xác địnhbởikhối Alpha, bao gồm một 16 × 16 pixel của cảnh video. Mỗi khối Alpha có thể được hoàn toàn bênngoài. video đối tượng (trong trườnghợp này không có gì cần phải được mã hoá), hoàn toàn nội bộ để các Võ (trongtrường hợp macroblock được mã hóa như trong hồ sơ đơn giản) hoặc nó cóthể vượt qua một ranh giới Võ. Trong trường hợp này, nó là cần thiếtđể xác định hình dạng của cạnhVõ trong Alpha Khối. Thông tin hình dạng đượcđịnh nghĩa bằng cách sử dụng các khái niệm về minh bạch, nơi mà mộtđiểm ảnh minh bạch không phải là một phần của VOP hiện tại, một điểmảnh đục là một phần của VOP và thay thế bất cứ điều gì bên dưới và điểmảnh bán minh bạch "là một phần của VOP và là một phần minh bạch. Các thông tin hình dạng có thể được định nghĩa là nhị phân (tất cả các pixelhoặc đục, 1, minh bạch, 0) hoặc màu xám quy mô (minh bạch của mộtđiểmảnh được xác định bởi một số từ 0, minh bạch, và 255, đục). Thông tin hìnhdạng nhị phân ranh giới macroblock được mã hóa như là một khối alpha nhịphân (BAB) sử dụngmã hóa số học và quy mô màu xám hình dạng thông tin được mã hoá bằng cách sử dụng chuyển động bồi thường và DCT-dựa trên mã hóa. Chuyển động bồi thường: Mỗi VOP có thể được mã hóa nhưlà một I-VOP(không có bồi thường chuyển động), P-VOP (chuyển động bồithường dự đoán từ một VOP qua) hoặc B-VOP(bidirection motion bồithường dự đoán). Pixel không trong suốt một macroblock ranh giới là chuyểnđộngbồi thường từ VOP tham chiếu thích hợp (s) và điểm ảnh ranh giới củamộttài liệu tham khảoVOP là "đệm" để các cạnh của khu vực tìm kiếm ước lượng chuyển độngvàocác vị trí điểm ảnh trong suốt với các dữ liệu. Kết cấu mã hóa:Motion-bồithường còn lại mẫu (kết cấu) trong khối nội bộ được mã hóa bằng cách sửdụng 8 × 8 DCT, lượng tử và chiều dài biến mã hóa đượcmô tả trong mục 5.3.2.1. Không minh bạch điểm ảnh trong một khối ranh giới được đệmthêm để cạnh của 8 × 8 block trước khi áp dụng các đốitượng DCT.Video mãhóa được hỗ trợ bởi Core và cấu hình chính, với cáccông cụ bổ sung tính hiệuquả mã nâng cao và cấu hình N-Bit (Hình 5,28).5.4.1 Các hồ sơ lõi Một Core CODEC hồ sơ phải có khả năng mã hóa và giải mã đối tượngvideo đơn giảnĐối tượng và Core. Một Võ lõi có thể sử dụng bất kỳ các công cụ đơn giản cộngvới những điều sau đây:
  17. 17. 1. B-VOP (được mô tả trong mục 5.3.3);2.alternate quantiser (được mô tả tại mục 5.3.3);3.object dựa trên mã hóa (Hình dạng nhị phân);4.P-VOP.Khả năng mở rộng thời gian Mã hóa khả năng mở rộng, mô tả chi tiết tại mục 5.5, cho phép một chuỗivideo được mã hóa và truyền như là hai hoặc nhiều hơn riêng biệt lớp cóthể được giải mã và kết hợp lại. cácCore hồ sơ hỗ trợ khả năng mở rộng thời gian sử dụng P-VOPs và bộ mãhóa bằng cách sử dụng công cụ này có thể truyền hai lớp mã hóa, mộtlớp cơ sở (decodeable như là một phiên bảnthấp tỷ lệ khung hình của videocảnh) và tăng cường một lớp thời gian có chứa chỉ P-VOPs. Một bộ giải mã cóthể tăng tỷ lệ khung hình của lớp cơ sở bằng cách thêm các khung hình đượcgiải mã từ các lớp tăng cường. Có lẽ các chức năng quan trọng nhất trong Hồsơ lõi là hỗ trợ mã hóa của đối tượng hình tùy ý, yêu cầu một số côngcụ mới. Mỗi macroblock vị trítrong hình ảnh được phân loại như là (1) đục (đầyđủ bên trong các VOP), (2) trong suốt (không phải là một phần của VOP) hoặc(3) trên ranh giới của VOP (Hình 5,29).Để cho biết hình dạng của các VOP bộ giải mã, thông tin mặt nạ alphađược gửicho mỗi macroblock. Trong Core Profile, thông tin nhị phân alpha được phép vàmỗi vị trí pixel trong VOP được định nghĩa là hoàn toàn mờ đục hoặc hoàn toànminh bạch. cácCore hồ sơ hỗ trợ mã hóa của alpha nhị phân thông tin và cung cấp công cụđể đối phó với các trường hợp đặc biệt của chuyển động và kết cấu mãhóa trongmacroblocks ranh giới.5.4.1.1 Hình dạng mã nhị phânĐối với mỗi macroblock trong hình ảnh, một loại mã Bab được truyền đi.Mã này cho biết MB là minh bạch (không phải là một phần các VOP hiệntại, do đó không có thêm dữ liệu được mã hóa), mờ đục (nội bộ để VOPhiệntại, do đó chuyển động và kết cấu được mã hóa như bình thường)hoặc MB ranhgiới (một phần của MB là đục và một phần là minh bạch).Hình 5,30 cho thấy mộtmáy bay đối tượng video và hình 5,31 là mặt nạ nhị phân tương ứng chỉ ra màđiểm ảnh là một phần của VOP (trắng) và điểm ảnh bên ngoài VOP (màuđen). Đối với một MB ranh giới (ví dụ như hình 5,32), nó là cần thiết để mãhóa một mặt nạ alpha nhị phânđể chỉ ra các điểm ảnh minh bạch và mờđục (hình 5,33Alpha mặt nạ nhị phân (BAB) cho mỗi macroblock ranh giới được mãhoábằng cách sử dụng mã hóa số học nhị phân dựa theo ngữ cảnh (CAE).Mộtđiểm ảnh BAB X giá trị được mã hóa, trong đó X là 0 hoặc 1. Đầu tiên, bốicảnh được tính cho các điểm ảnh hiện tại.Một mẫu ngữ cảnh xác định một khuvực của các điểm ảnh lân cận n trước đó đã được mã hoá (hàng xómkhônggian cho mã BABs nội, hàng xóm không gian và thời gian cho mãBABs liên).Cácgiá trị n của mỗi điểm ảnh BAB trong các hình thức bối cảnh một từ n-bit, bốicảnh cho điểm ảnh X. Có bối cảnh 2npossible và P(0), xác suất mà X là 0 cho
  18. 18. một bối cảnh cụ thể, được lưu trữ trong bộ mã hóa vàbộ giải mã cho từng bốicảnh n-bit có thể. Mỗi X mask điểm ảnhđược mã hoá như sau:1.Tính bối cảnh cho X.2. Tìm kiếm các mục có liên quan trong bảng xác suất P (0).3. Mã hóa X với một bộ mã hóa số học (xem Chương 3 cho một tổng quanvề mã hóa số học). Phạm vi phân là 0. . . P (0) nếu X là 0 (màuđen), P (0). .. 1,0 nếu X là 1 (màu trắng).Intra BAB EncodingTrong một BAB mã hóa trong nộibộ, mẫu ngữ cảnh cho pixel mặt nạ hiệnnay được hình thành từ 10 pixels khônggian lân cận đã được mã hóa trước đó, c0to c9in Hình 5,34. Bối cảnh được hìnhthành từc9c8c7c6c5c4c3c2c1c0 từ 10-bit. Mỗi bối cảnh năm 1024 có thểxác suất được liệt kê trong một bảng trong Visual tiêu chuẩn MPEG-4 là một sốnguyên trong khoảng từ 0 đến 65535 và xác suất thực tế của P bằngkhông (0) được bắt nguồn bằng cách chia số nguyên này bằng 65535.Các mẫu ngữ cảnh (hình 5,34) kéo dài 2 điểm ảnh theo chiều ngang vàtheochiều dọc từ vị trí của X. Nếu bất kỳ của các điểm ảnh là không xác định (ví dụnhư c2, c3and c7may là một phần của một BAB rằng đã khôngđược mãhoá, hoặc một số các điểm ảnh có thểthuộc về BABs trong suốt), không xác địnhCác điểm ảnh được thiết lập để giá trị của hàng xóm gần nhất trong vòngBAB hiện tại. Tùy thuộc vào hình dạng của mặt nạ nhị phân, mã hóa hiệu quảhơn có thể thu được bằng cách quét qua BAB trong thứ tự theo chiều dọc (chứkhông phải raster thứ tự) để mẫu bối cảnh được đặt trên của nó Bên. Việc lựachọn để quét cho mỗi BAB là báo hiệu trong bitstream.Liên BAB EncodingMẫu ngữ cảnh (hình 5,35) bao gồm chín vị trí pixel, trong VOP hiện (c0toc3) và năm trong một VOP tham chiếu (c4to C8). Vị trí của các điểm ảnh bốicảnh trung tâm trong VOP tham chiếu (c6) có thể được bù đắp từ X vị trí bởimột số nguyên mẫu vector, cho phép một BAB liên được mã hóa bằng cách sửdụng chuyển động bồi thường.Này hình dạng vector (MV) có thể được lựa chọn độc lập của bất kỳ kết cấu, chuyển động vector. Có chín pixels bốicảnh và như vậy tổng cộng 29= 512 xác suất P (0) được lưu trữ bởi các bộ mãhóa và giải mã.Những ví dụ này chỉ ra rằng tính minh bạch của các điểm ảnh X vị trí hiện tạibịảnh hưởng nặng nề bởi c6 (cùng một vị trí trong chuyển động bồi thườngtrướcđó BAB) hơn c0 (vị trí điểm ảnh trước đó để raster scan).Cũng nhưtrong mãhóa, chức năng quét của hiện tại (và trước đó) BAB có thể nằm ngang hoặcthẳng đứng.Một MVsis vector mã hóa cho mỗi ranh giới giữa các mã BAB. Đối vớiP-VOPs, VOP tham chiếu là trước đây tôi hay P-VOP và B-VOP, VOP tài liệu thamkhảo là các gần nhất tạm thời I-P-VOP.5.4.1.2 Chuyển động bồi thường mã các hình VOPs tùy tiện-Một P-VOP hoặc B-VOP được dự đoán từ một tài liệu tham khảoI-P-
  19. 19. VOP bằng cách sử dụng chuyển động bồi thường. Nó có thể cho mộtvector chuyển động để trỏ đến một khu vực tham khảo mở rộng bên ngoàicủakhu vực mờ đục của VOP tham chiếu, tức là một số các điểm ảnhtrong khuvực tham khảo có thể "Trong suốt". Hình 5,36 minh họa ba ví dụ. Sơ đồ bêntrái cho thấy một tài liệu tham khảo VOP (với các điểm ảnh mờ màu xám) và sơđồ bên phảicho thấy một VOP hiện tại bao gồm 9 macroblocks. MB1 là hoàntoàn mờ đục nhưng điểm MV của nó đến một khu vực trong tài liệu thamkhảo VOP có chứa các điểm ảnh trong suốt. MB2 là một ranh giới MB và mộtphần mờ đục của khu vực chuyển động bồi thường tham chiếu của nó là nhỏhơn so với phần mờ đục của MB2. MB3 cũng là mộtranh giới MB và một phầncủa khu vực tham chiếu của nó được đặt trong một MB hoàn toàn minhbạch trong VOP tham chiếu. Trong mỗi trườnghợp này, một số của các điểmảnh đục trong MB hiện nay là chuyển độngbồi thường từ các điểm ảnh trongsuốt trong VOP tham chiếu. Các giá trị của điểm ảnh trong suốt không được địnhnghĩa và vì vậy nó là cần thiết để đối phó với những trường hợp đặcbiệt. Điều này được thực hiện bởipadding vị trí điểm ảnh trong suốt trong ranhgiới và macroblocks minh bạch trongcác VOP tham chiếu.Padding của MBS ranh giớiĐiểm ảnh trong suốt trong mỗi MB ranh giới trong một VOP tham chiếuđược suyluận theo chiều ngang và theo chiều dọc từ điểm ảnh mờ như trong hình 5,37.1. Pixels đục ở rìa của BAB (tối màu xám trong hình 5,37) được suy luậntheochiều ngang để điền vào vị trí điểm ảnh trong suốt trong cùng mộthàng. Nếu hàng được bao bọc bởi các điểm ảnh đục ở bên cạnh chỉ có một, giátrị của điểm ảnh mờ gần nhất được sao chép tất cả các vị trí điểm ảnh trongsuốt. Nếu liên tiếp giáp hai bên của điểm ảnh mờ (ví dụ hàngđầu trongHình 5,37 (a)), vị trí điểm ảnh trong suốt được làm đầy với giá trị trungbìnhcủa hai điểm ảnh lân cận đục. Kết quả của padding ngang được thể hiệntrong hình 5,37 (b).2. Pixels đục (bao gồm cả những đầy giai đoạn đầu tiêncủa paddingngang) được ngoại suy theo chiều dọc để điền vào các vị trí điểmảnhtrong suốt còn lại. Cột của các điểm ảnh trong suốt với một người hàngxóm đục được làm đầy với giá trị của điểm ảnh đó và cột với hai nước lánggiềng đục (như trong hình 5,37 (c)) được làm đầy với giá trị trung bìnhcủa cácđiểm ảnh đục ở trên cùng và dưới cùng của cột.Ví dụHình 5,38 cho thấy một macroblock ranh giới từ một VOP với các điểm ảnh trongsuốt âm mưu đen. Các điểm ảnh mờ đục được suy luận theo chiều ngang (bước1) để sản xuất Hình 5,39 (lưu ý rằng năm vị trí điểm ảnh trong suốt có hai nướcláng giềng đục ngang). Kết quả của bước 1 sau đó là ngoại suy theo chiềudọc (bước 2) để sản xuất hình 5,40 cạnh điểm ảnh. MBS minh bạch luônđược đệm thêm sau khi tất cả các MBS ranh giới đãđược độn đầy đủ.Nếu MB trong suốt có nhiều hơn một MB biên giới láng giềng, các nước lánggiềng được chọn cho phép ngoại suy theo các nguyên tắc sau.Nếu MB bên trái
  20. 20. là một MB ranh giới, nó được chọn khác nếu MB trên cùng là một MB ranhgiới, nó được chọn khác nếu MB bên phải là một MB ranh giới, nóđược chọn, khác MB thấp hơn là lựa chọnCác MBS minh bạch không có hàng xóm không trong suốt được làm đầyvới các giá trị pixel 2N-1, trong đó N là số bit cho mỗi điểm ảnh.Nếu N là 8(trường hợp thông thường), các MBS được làm đầy với giá trị 128 pixel.5.4.1.3 Texture mã Macroblocks ranh giớiCác kết cấu trong một MB đục (các giá trị điểm ảnh trong một MB trong mãhóa hoặc chuyển động bồi thường còn lại trong một liên mã MB) được mã hóabởi quá trình thông thường của 8 × 8 DCT, lượng tử, chạy mức độ mã hóa vàmã hóa dữ liệu ngẫu nhiên (xem phần 5.3.2). MB ranh giới bao gồmmột phần của kết cấu điểm ảnh (bên trong ranh giới) và một phần không xác định, điểmảnh trong suốt (bên ngoài ranh giới). Trong một hồ sơ cá nhân cốt lõi đối tượng, mỗi 8 × 8 khối kết cấu trong một MB ranh giới được mã hoá bằng cách sử dụng một 8 × 8 DCT tiếp theo là mã hóa lượng tử,chạy cấp và mã hóa dữliệu ngẫu nhiên như bình thường (xem mục 7.2 cho một ví dụ). (DCT Shape-thích ứng, một phần của hồ sơ hiệu quả nâng caomã và mô tả tại mục 5.4.3 , cung cấp một phương pháp hiệu quả hơn mã hóa kết cấu ranh giới.)5.4.2 Các hồ sơ chínhCODEC hồ sơ chính hỗ trợ các đối tượng đơn giản và Core cộng với cácđối tượng Texture Khả năng mở rộng (xem Phần 5.6.1) và các đối tượngchính. Các đối tượng chính cho biết thêm các công cụ sau đây:1.xen kẽ (được mô tả trong mục 5.3.3);2. đối tượng dựa trên mã hóa với hình dạng màu xám (alpha máy bay );3. Sprite mã hóaTrong Core Profile, hình dạng đối tượng được quy định bởi một mặt nạalpha nhịphân như vậy mà mỗi vị trí pixel được đánh dấu là mờ hoặc trong suốt.Các hồsơ chính cho biết thêm hỗ trợ cho các mặt nạ màu xám hình dạng, trongđó mỗi vị trí điểm ảnh có thể thay đổi mức độ minh bạchđầy đủ trong suốt đếnmờ toàn bộ.Điều này là tương tựnhư khái niệm củaPlanes Alpha được sử dụng trong đồ họa máy tính và chophép các lớp phủ của nhiều đối tượng bán minh bạch trong một cảnh tái tạo (kếtxuất)Sprite mã hóa được thiết kế để hỗ trợ mã hóa hiệu quả của các đối tượngnền.Trong những cảnh quay video nhiều, nền không thay đổi đáng kể và những thay đổi nào xảy ra thường do chuyển động của camera. A ma là một đốitượng video (chẳng hạn như là nền tảng cảnh) được đầy đủ hoặc một phầntruyền vào lúc bắt đầu của một cảnh và sau đócó thể thay đổi theo nhữngcách nhất định hạn chế trong cảnh.5.4.2.1 xám Shape CodingHình dạng mã hóa nhị phân (được mô tả trong mục 5.4.1.1) có hạn chế nhấtđịnh trong việc thể hiện những cảnh video của nhiều đối tượng. Đối tượnghoặc khu vực trong một cảnh phim "tự nhiên" có thể là mờ (một phần trongsuốt), nhưng mã hóa nhị phân hình chỉ hỗ trợ hoàn toàn vùng trong suốt ("vôhình") hoặc hoàn toàn mờ đục. Nó thường rất khó hoặckhông hể đối tượng đoạn
  21. 21. video gọn gàng (kể từ ranh giới đối tượng có thểkhông chính xác tương ứngvới vị trí điểm ảnh), đặc biệt là khi phân đoạnđược thực hiện tự động hoặc bántự động.Ví dụ, các cạnh của các VOP được hiển thị trong hình 5,30 là không hoàn toàn"sạch" và điều này có thể dẫn đến các đồ tạo tác không mong muốnxung quanhcác cạnh VOP khi nó được trả lại với khác VOS.Xám hình dạng mã hóa cho phép kiểm soát linh hoạt hơn về tính minh bạchđối tượng.Một chiếc máy bay màu xám-alpha được mã hoá cho mỗimacroblock, trong đó mỗi vị trí điểm ảnh có một giá trị mặt nạ từ 0 đến 255,trong đó 0 chỉra rằng vị trí điểm ảnh là hoàn toàn minh bạch, 255 chỉ ra rằngnó là hoàn toàn mờ đục và các giá trị chỉ định một trung gianmức độ minhbạch.Một ví dụ về một mặt nạ màu xám quy mô lớn cho một MB ranhgiớiđược thể hiện trong hình 5,42.Minh bạch khoảng từ đầy đủ trongsuốt(pixels mặt nạ màu đen) để mặt nạ màu trắng đục (pixel).MB kếtxuất đượcthể hiện trong hình 5,43 và các cạnh của đối tượng mất dần (sosánh con số này với hình 5,32).Hình 5,44 là một cảnh xây dựng củamột Võ nền (hình chữ nhật) và hai nền trước VOS.Foreground VOS là giống hệt nhau ngoại trừ cho tính minh bạch của họ, Võ tay trái sử dụngmột mặt nạ alpha nhị phân và Võ bên phải có một mặt nạ alpha màuxám giúp Võ bên phải để pha trộn nhiều thuận lợi với các nền.Các ứng dụngkhác của mã hóa màu xám hình dạng bao gồm đại diện các đối tượngmờ, hoặc cố tình thay đổiđối tượng để làm cho họ bán trong suốt (ví dụnhư cảnh tổng hợp trong hình5,45).Màu xám quy mô mặt nạ alpha được mã hóa bằng cách sử dụng hai thànhphần, một mặt nạ hỗ trợ nhị phân chỉ ra những điểm ảnh là hoàn toàn minhbạch (bên ngoài để các Võ) và điểm ảnh bán hoặc hoàn toàn đục (nội bộđể các Võ), và một máy bay alpha màu xám quy mô.Hình 5,33 là mặtnạ hỗtrợ nhị phân cho mặt nạ alpha màu xám quy mô hình 5,42. Các mặt nạ hỗtrợ nhị phân được mã hoá trong cùng một cách như là một BAB (xemPhần 5.4.1.1). Alpha màu xám quy mô máy bay (cho biết mức độ minhbạch của các điểm ảnh bên) được mã hoá một cách riêng biệt trong cùng mộtcách như là kết cấu đối tượng(tức là mỗi 8 × 8 block trong mặt phẳng alphađược chuyển đổi bằng cáchsử dụng các DCT, lượng tử sắp xếp lại,chạycấp vàentropy mã hoá).Bộ giải mã tái cấu trúc máy bay quy mô alphamàu xám(mà có thể không được trùng với mặt phẳng alpha ban đầu dosự biến dạnglượng tử) và hỗ trợ mặt nạ nhị phân. Nếu mặt nạ hỗ trợ nhị phân chỉ ra rằng mộtđiểm ảnh bên ngoài Võ, alpha màu xám quy mô tương ứng giá trị máy bayđược thiết lập để không. Bằng cách này, ranh giới đối tượng chínhxác được bảo quản (kể từ mặt nạ hỗ trợ nhị phân được mã hóa Ít hao tổn) trongkhi giải mã máy bay màu xám quy mô alpha (và do đó các thông tin minhbạch) có thể không giống hệt nhau.ban đầu.Tăng tính linh hoạt được cung cấp bởi mã hóa thang màu xám hìnhdạngalpha đạt được với chi phí hiệu quả nén giảm.Hình dạng mã hóa nhịphânđòi hỏi việc truyền tải BABs cho mỗi MB ranh giới và ngoài ra, màu xámquymô hình mã hóa đòi hỏi việc truyền tải dữ liệu của màu xám quy mô máybay alpha cho mỗi MB là bán trong suốt
  22. 22. 5.4.2.2 tĩnh Sprite CodingBa khung hình từ một chuỗi video được hiển thị trong hình 5,46. Rõ ràng, nềntảng không thay đổi trong trình tự (vị trí camera cố định). Các nền (Hình 5,47) cóđược mã hóa như là một ma tĩnh. Một sprite tĩnh được xử lý như là mộthình ảnh kết cấu có thể di chuyển hoặc làm cong ở một số phương hạn chế,để bù đắp cho những thay đổi của máy ảnhnhư pan, luân chuyển, độ nghiêngvà phóng to. Trong một kịch bản điển hình, một ma có thể là lớn hơnnhiềuso với khu vực có thể nhìn thấy của cảnh. Khi thay đổi quan điểm "của máyảnh, mã hóa truyền các tham số chỉ ra làm thế nào ma nên được di chuyển và biến dạng để tạo lại các khu vực thích hợp cóthể nhìn thấy trong các giải mãcảnh. Hình 5,48 cho thấy một ma nền (khu vực rộng lớn) và khu vực xem máyảnh ở ba điểm khác nhau trong thời gian trong một chuỗi video. Khitrìnhtự tiến triển, sprite được di chuyển, luân chuyển và biến dạng để thay đổi vùnghiển thịmột cách thích hợp. Một sprite có thể có hình dạng bất ỳ (hình 5,48) hoặccó thể là hình chữ nhật.Việc sử dụng mã hóa ma tĩnh được chỉ định bằng cách thiết lập ma chophép để tĩnh trong một VOL tiêu đề, sau đó mã hóa tĩnh sprite được sửdụng trong suốt VOP. VOPđầu tiên trong một tĩnh sprite VOL là một I-VOP và điều này được theo sau bởi một loạt cácS-VOPs (tĩnh Sprite VOPs). GhiSprite tĩnh S-VOP được mã hoá khác nhau từ một khoản chuyển độngtoàncầu S (GMC) VOP (được mô tả trong mục 5.3.3) Có hai phương pháp truyềntải và thao tác sprites, một cơ bản ma (gửi toàn bộ của nó vào đầu của mộtchuỗi) vàmột độ trễ thấp ma (cập nhật từng phần trong chuỗi).VOP đầu tiên (I-VOP) chứa toàn bộ sprite, mã hóa trong cùng mộtcáchnhư là một bình thường VOP-I. Sprite có thể được lớn hơn kích thước hiểnthị nhìn thấy được (để thích ứng với chuyển động của camera trong quá trìnhtự). Tại bộ giải mã, sprite được đặt trong một bộ đệm Sprite và không được ngay lập tức hiển thị. Tất cả VOPs hơn nữa trong các VOL làS-VOPs. An S-VOP chứa lên đến bốn thông số cong vênh được sử dụngđể di chuyển và (tùychọn) dọc các nội dung của bộ đệm Sprite để sản xuấtmàn hình nền mong muốn. Số lượng các thông số cong vênh mỗi S-VOP(lên đếnbốn) được lựa chọn trong tiêu đề VOL và xác định tính linh hoạt củaviệc chuyểnđổi bộ đệm Sprite. Một thông số duy nhất cho mỗi S-VOP chophép dịch tuyếntính (tức là một vector chuyển động duy nhất cho toàn bộma), hai hoặc ba thôngsố cho phép chuyển đổi affine của sprite (ví dụ nhưluân chuyển, biến dạng) và bốn thông số cho phép một quan điểm chuyển đổiThấp độ trễ spriteTruyền tải một sprite toàn bộ trong chế độ Sprite cơ bản khi bắt đầu củamột VOL có thể giới thiệu độ trễ đáng kể bởi vì các sprite có thể lớn hơnnhiều so với chế độ hiển thị cá nhân VOP.The Sprite Low-Latency cho phépmộtbộ mã hóa để gửi ban đầu có kích thước tối thiểu và / hoặc thấp -chấtlượng phiên bản của sprite và sau đó cập nhật nó trong quá trình truyềncácVOL. Việc đầu tiên I-VOP chứa một phần hoặc tất cả các sprite (tùychọn mã hóa làm giảm chất lượng để tiết kiệm băng thông) cùngvới chiều cao và chiều rộng của toànbộ sprite.
  23. 23. Mỗi tiếp theo S-VOP có thể chứa các thông số cong vênh (như trong Spritecơbản chế độ) và một hoặc nhiều ma miếng.A ma mảnh bao gồm một khuvực hình chữ nhật của sprite và chứa dữ liệu macroblock (a) xây dựngmột phần của ma đã không trước đây đã được giải mã (phần "tĩnh-ma-đốitượng") hoặc (b) cải thiện chất lượng của phầncủa ma trước đó đã đượcgiảimã (tĩnh-ma-update piece).Macroblocks trong phần "tĩnh-ma-đối tượngđược mãhóa như macroblocks nội (bao gồm cả thông tin hình dạng nếuma không phải làhình chữ nhật). Macroblocks trong một mảnh tĩnh-ma-cập nhật "được mãhóa như macroblocks liên bằng cách sử dụng dự đoán chuyển tiếp từ nộidung trước đây của bộ đệm ma (nhưng không có vectơ chuyển động hoặc cácthông tin hình dạng).Các hồ sơ ACE là một siêu hồ sơ cá nhân Core hỗ trợ mã hóa video của các đốitượng màu xám-alpha có hiệu quả nén cao.Ngoài ra cho các đốitượng đơn giản và Core, nó bao gồm các đối tượng ACE có thêm các côngcụ sau đây:1. quarterpel chuyển động bồi thường (mục 5.3.3);2. GMC (mục 5.3.3);3. xen kẽ (mục 5.3.3);4. màu xám hình dạng mã hóa (mục 5.4.2);5. hình dạng, thích nghi DCT.Các hình thích ứng với DCT (SA-DCT) được dựa trên bộ được xác địnhtrước các chức năng cơ sở DCT một chiều và cho phép một khu vực tùy ýcủamột khối được hiệu quả chuyển đổi và nén. SA-DCT là chỉ áp dụng đối với 8 × 8khối trong vòng một BAB ranh giới có chứa một hoặc nhiều điểm ảnh trongsuốt. Chuyển tiếp SA-DCT bao gồm các bước sau đây(Hình 5,55):1.dịch chuyển đục X giá trị còn lại trên 8 × 8 block.2. Áp dụng một DCT 1D mỗi cột (số điểm trong các biến đổi phù hợpvớisố lượng các giá trị mờ đục trong mỗi cột).3. Thay đổi hệ số Y kết quả trung gian bên trái của khối.4. Áp dụng một DCT 1D mỗi hàng (phù hợp với số lượng giá trị trong mỗi hàng).Các hệ số cuối cùng (Z) lượng tử, ngoằn ngoèo quét và mã hóa. Bộ giải mã đảongược quá trình (sử dụng các thông tin hình dạng giải mã từ BAB)để tái tạolại 8 × 8 khối mẫu. SA-DCT là phức tạp hơn bình thường 8 × 8DCT, nhưng cóthể cải thiện mã hóa hiệu quả cho MBS ranh giới.5.4.4 Các hồ sơ cá nhân N-bitHồ sơ cá nhân N-bit chứa các đối tượng đơn giản và Core cộng với công cụ N-bit. Điều này hỗ trợ mã hóa độ sáng và sắc độ dữ liệu có chứa từ bốn đếnmười hai bit cho mỗi mẫu (thay vì hạn chế thông thường đến tám bitcho mỗimẫu). Ứng dụng có thể có của hồ sơ cá nhân N-bit bao gồm mã hóa video chomàn hình với độ sâu màu thấp (khả năng hiển thị giới hạn có nghĩa là ít hơntám bit được yêu cầu để đại diện cho mỗi mẫu) hoặc các ứng dụng màn hìnhhiển thị chất lượng cao (màn hình hiển thị có màu chiềusâu hơn tám bit cho mỗimẫu và độ trung thực cao mã hoá được mong muốn).
  24. 24. 5,5 Scalable Video CodingKhả năng mở rộng mã hóa dữ liệu video cho phép một bộ giải mã để giảimã một phần lựa chọn duy nhất của bitstream được mã hóa. Các dòng mãhóa được sắp xếp trong một số lớp, bao gồm một lớp cơ sở và một hoặcnhiều lớp tăng cường (hình 5,57). Trong hình này, bộ giải mã A chỉ nhậnđược các lớp cơ sở và có thể giải mã một phiên bản chất lượng cơ bảncủacảnh video, trong khi bộ giải mã B nhận được tất cả các lớp và giải mãmột phiênbản chất lượng cao của khung cảnh. Này có một số ứng dụng, ví dụ, một bộ giảimã phức tạp thấp chỉ có thể có khả năng giải mã các lớp cơ sở, một bitstream tỷlệ thấp có thể được trích xuất để truyền trên một đoạn mạng với công suất hạn chế, và lớp cơ sở một lỗi nhạy cảm có thể được truyềnvới ưu tiên cao hơn sovới các lớp tăng cường.MPEG-4 Visual hỗ trợ một số chế độ khả năng mở rộng mã hóa.Khả năng mởrộng không gian cho phép một VOP (hình chữ nhật) được mã hóa vàomột hệthống các độ phân giải không gian.Giải mã các lớp cơ sở sản xuấtmột phiênbản có độ phân giải thấp của các lớp VOP và giải mã tăng cường tiếp sảnxuất dần dần cao hơn độ phân giải hình ảnh.Khả năng mở rộng thời gian cung cấp một lớp cơ sở thấp tỉ lệ khung hình và lớp tăng cường (s) xâydựng lên đến một tỷ lệ khung hình cao hơn.Tiêu chuẩn nàycũng hỗ trợ khả năngmở rộng chất lượng, trong đó các lớp tăng cường cải thiện chất lượng hìnhảnh của VOP khả năng mở rộng và phức tạp, trong đócác lớp kế tiếp là dần dầnphức tạp hơn để giải mã. Khả năng mở rộng mưa tốt (FGS) cho phép chấtlượng của chuỗi được tăng lên theo từng bước nhỏ. Một ứng dụng choFGS làstreaming video trên một kết nối mạng, trong đó nó có thể hữu íchđể mởrộng các dòng video được mã hóa để phù hợp với tốc độ bit có sẵnnhư là chặtchẽ nhất có thể.5.5.1 không gian Khả năng mở rộngCác lớp cơ sở có chứa một phiên bản giảm độ phân giải của mỗi khunghình được mã hóa. Giải mã các lớp cơ sở mình sản xuất một chuỗi đầu rađộphân giải thấp và giải mã các lớp cơ bản với lớp tăng cường (s) tạo ramột đầu ra độ phân giải cao hơn. Các bước sau đây được yêu cầuđể mã hóa một chuỗi video thành hai lớp không gian:1.Subsample mỗi khung hình video đầu vào (hình 5,58) (hoặc video đốitượng) theo chiều ngang và theo chiều dọc (Hình 5,59).2. Mã hóa các khung hình có độ phân giải giảm để tạo thành các lớp cơ sở.3. Giải mã các lớp cơ sở và lên mẫu với độ phân giải gốc để tạo thànhmộtkhung dự đoán (Hình 5,60).4. Trừ các khung hình đầy đủ độ phân giải từ khung hìnhnày dự đoán (Hình5,61).5. Mã hóa sự khác biệt (còn lại) để tạo thành các lớp nâng cao.Một bộ giải mã giải mã duy nhất lớp chỉ có các lớp cơ sở để sản xuấtmộtchuỗi sản lượng giảm độ phân giải. Một bộ giải mã hai lớp có thể tái tạolạimột chuỗi có độ phân giải đầy đủ như sau:1. Giải mã các lớp cơ sở và lên mẫu với độ phân giải gốc.2. Giải mã các lớp nâng cao.
  25. 25. 3. Thêm còn lại được giải mã từ các lớp tăng cường lớp cơ sở giải mã để tạothành khung hình đầu ra.Một I-VOP trong một lớp nâng cao được mã hóa mà không có bấtkỳ dựđoán không gian, tức là như một khung hoàn chỉnh hoặc đối tượng ở độphân giải nâng cao.Trong một lớp tăng cường P-VOP, giải mã, lên lấy mẫucơsở lớp VOP (tại vị trí tương tự trong thời gian) được sử dụng như là một dựđoán mà không có bất kỳ bồi thường chuyển động.Sự khác biệt giữadự báovà khung đầu vào được mã hóa bằng cách sử dụng các công cụkết cấu mãhóa, tức là không có vector chuyển động được truyền cho một nâng cao P-VOP. Một lớp tăng cường B-VOP được dự đoán từ hai hướng.Diction lạchậu trước khi được hình thành, giải mã VOP lên lấy mẫulớp cơ sở (tại vị trítương tự trong thời gian), mà không cần bất cứ khoản bồi thường chuyểnđộng (và do đó mà không có bất kỳ MV).Các dự đoánvề phía trước được hìnhthành bởi các VOP trước trong lớp nâng cao(thậm chí nếu điều này bản thân nólà một B-VOP), với dự đoán chuyển động bồi thường (và do đó MV).Nếu VOP có hình dạng tùy ý (nhị phân), một lớp cơ sở và tăng cường lớp BABđược yêu cầu cho mỗi MB.Các cơ sở lớp BAB được mã hóa như bìnhthường, dựa vào hình dạng và kích thước của đối tượng lớp cơ sở.Một BAB trong một lớp nâng cao P-VOP được mã hoá bằng cách sử dụng dựđoán từ một phiên bản lên lấy mẫu của lớp cơ sở BAB.Một BAB trong mộtlớp tăng cường B-VOP có thể được mã hoá trong cùng một cách, hoặc sửdụng dự đoán về phía trước từ VOP nâng cao trước đó (như mô tảtrongmục 5.4.1.1).5.5.2 Temporal Khả năng mở rộngCác lớp cơ sở của một chuỗi khả năng mở rộng thời gian được mã hóa ởtốc độkhung hình thấp video và một lớp tăng cường thời gian bao gồm I-Pvà / hoặc B-VOPs có thể được giải mã cùng với các lớp cơ sở để cung cấp một tỷ lệ khunghình tăng . Tăng cường VOPs lớp được dự đoán bằngcách sử dụng chuyểnđộng bồi thường dự đoán theo các quy tắc sau. Một nâng cao I-VOP được mãhóa mà không có bất kỳ dự đoán. một tăng cường P-VOP được dự đoántừ (i) VOP nâng cao trước đó, (ii) VOPtrước lớp cơ sở hoặc (iii) cơ sở VOPlớp tiếp theo (Hình 5,62). một tăng cường B-VOP được dự đoán từ (i) trước tăngcường và VOPs cơ sở lớp trước đó, (ii) tăng cường trước và VOPscơ sở lớptiếp theo hoặc (iii) các cơ sở VOPs lớp trước và sau (hình 5,63).5.5.3 Khả năng mở rộng Granular MỹKhả năng mở rộng Granular Mỹ (FGS) [5] là một phương pháp mã hóa mộtchuỗi như là một lớp cơ sở và lớp nâng cao. Các lớp tăng cường có thểđược rútngắn trong hoặc sau khi mã hóa (giảm bitrate và chất lượng giải mã)để cung cấp cho điều khiển linh hoạt cao hơn bitrate truyền. FGS có thể hữuích cho các ứng dụng video trực tuyến, trong đó băng thông truyềndẫn sẵn cóthể không được biết trước. Trong một kịch bản điển hình, trìnhtự được mãhoá như là một lớp cơ sở và một lớp tăng cường chất lượngcao. Khi nhận đượcyêu cầu để gửi chuỗi một bitrate cụ thể, các máy chủ streaming truyềncác lớp cơ sở và một phiên bản rút ngắn của các lớp tăng cường. Số lượng cắtngắn được lựa chọn để phù hợp với bitrate truyền dẫn có sẵn, do
  26. 26. đó tối đa hóa chất lượngcủa chuỗi được giải mã mà không cần phải mãhóa lại các video clip.Mã hóaHình 5,64 cho thấy một sơ đồ khối đơn giản của một bộ mã hóa FGS (bồithường chuyển động không được hiển thị). Trong tầng cơ sở, kết cấu (saukhi chuyển động bồi thường) được chuyển đổi với DCT về phía trước,lượngtử và mã hóa. Các hệ số lượng tử thu nhỏ lại (nghịch đảo lượng tử) và các hệsố quy mô lại được trừ vào các hệ số DCTunquantised để cung cấp cho một tậphợp các hệ số khác biệt. Các hệ sốkhác nhau cho mỗi khối được mã hóa như làmột loạt các bitplanes. Đầu tiên, các hệ số còn lại được sắp xếp lại bằng cáchsử dụng 1 ngoằn ngoèo quét. Các bit thứ tự cao nhất mỗi hệ số (số không hoặcnhững người)được mã hóa đầu tiên (bitplane MS) theo sau bởi các bit caonhất để tiếp theo và như vậy cho đến khi các bit LS đã được mã hóa.Ví dụMột khối hệ số còn lại được hiển thị trong hình 5,65 (hệ số không được hiểnthị bằng không). Các hệ số được sắp xếp lại trong một máy quétngoằn ngoèo đểsản xuất các danh sách sau đây:+13, -11, 0, 0, 17, 0, 0, 0, -3, 0, 0. . . .Các các bitplanes tương ứng với tầm quan trọng của mỗi hệ số còn lạiđược thểhiện trong Bảng 5.6. Trong trường hợp này, chiếc máy bay caonhất có chứa các bit khác không là máy bay 4 (bởi vì mức độ cao nhất là 17).Bitplane Mỗi chứa một loạt các số không và những người thân. Nhữngngười được mã hóa (chạy, EOP) EOP chỉ cuối của bitplane và mỗicặp(chạy, EOP) được truyền như là một mã chiều dài thay đổi. Bất cứkhi nàocác bit MS hệ số được mã hóa, nó là ngay lập tức theo sau trongbitstream bởi một bit dấu. Bảng 5.7 liệt kê các giá trị mã hóa cho mỗibitplane. Bitplane 4 chứa bốn số không, tiếp theo là một 1. Đây là các bitkháckhông cuối cùng và được mã hóa như là (4, EOP). Điều này cũng bitMS+17 của các hệ số và các dấu hiệu của hệ số này được mã hóaVí dụ này minh họa việc xử lý của một khối.Thủ tục mã hóa cho mộtkhunghoàn chỉnh như sau:1. Tìm vị trí bit của bất kỳ hệ số chênh lệch cao nhất trong khung (MSB).2. Mã hóa mỗi bitplane như mô tả ở trên, bắt đầu với máy bay có chứa cácMSB.Mỗi bitplane mã hóa hoàn toàn trước một mã số bắt đầu, làm cho nó đơn giảnđể cắt bitstream bằng cách gửi một số giới hạn của bitplanes mã hóa.Giải mãCác bộ giải mã giải mã các lớp cơ sở và tăng cường lớp (có thể đượccắtngắn). Các hệ số khác nhau được dựng lại từ các bitplanes giải mã, thêmvào các hệ số lớp cơ sở và ngược chuyển đổi để sản xuất các trình tự nângcao được giải mã (hình 5,66).
  27. 27. Nếu các lớp nâng cao đã được cắt ngắn, sau đó tính chính xác của các hệsố khác nhau được giảm. Ví dụ, giả định rằng các lớp nâng cao được môtả trongví dụ trên được cắt ngắn sau khi bitplane 3. Các bit MS (dấu hiệu)của ba kháckhông hệ số được giải mã (Bảng 5.8), nếu (undecoded) bitplanes cònlại đượclấp đầy với các số không sau đó danh sách các giá trị đầu ra trở thành:+8, -8, 0, 0, 16, 0. . . .Tùy chọn nâng cao để FGS mã hóa bao gồm tăng cường chọn lọc (trongđó máybay bit của MBS chọn là bit-chuyển trước khi mã hóa, để cung cấp chohọ một ưu tiên cao hơn và xác suất cao hơn được bao gồm trongmộtbitstream cắt ngắn) và trọng lượng tần số (trong tần số thấp có ý nghĩa trựcquan-hệ số DCT được chuyển lên trước khi mã hóa, một lần nữa để cung cấpcho họ ưu tiên cao hơn trong bitstream cắt ngắn).5.5.4 Khả năng mở rộng hồ sơ đơn giảnKhả năng mở rộng đơn giản hồ sơ cá nhân hỗ trợ đối tượng Khả năng mởrộng đơn giản và đơn giản. Khả năng mở rộng đơn giảnđối tượng chứa các công cụ sau đây:1. I-VOP, P-VOP, 4MV, MV không hạn chế và Dự đoán nội;2. Video của gói tin, dữ liệu phân vùng và VLCs thuận nghịch;3. B-VOP;4.Rectangular Temporal Khả năng mở rộng (nâng cao lớp 1) (mục 5.5.2);Khả năng mở rộng không gian 5.Rectangular (1 lớp nâng cao) (mục 5.5.1).Hai công cụ hỗ trợ mã hóa khả năng mở rộng của hình chữ nhật VOS.5.5.5 Các lõi Khả năng mở rộngHồ sơ cá nhân Khả năng mở rộng lõi bao gồm các đối tượng đơn giản,đơngiản và Core Khả năng mở rộng, cộng với các đối tượng cốt lõi Khả năng mởrộng các tính năng mà các công cụ sau đây, trong từng trườnghợp với hai lớp tăng cường cho mỗi đối tượng:1. Khả năng mở rộng tạm thời hình chữ nhật (mục 5.5.2);Khả năng mở rộng không gian 2.Rectangular (mục 5.5.1);3. Khả năng mở rộng không gian dựa trên đối tượng (mục 5.5.1)..5.6 Khả năng mở rộng Fine Granular Hồ SơFGS hồ sơ cá nhân bao gồm các đối tượng đơn giản đơn giảnvà nângcao cộng với các đối tượng FGS mà vincludes những công cụ này:1. B-VOP, Interlace và các công cụ Quantiser thay thế;2. FGS không gian Khả năng mở rộng;3. FGS Temporal Khả năng mở rộng.Khả năng mở rộng không gian, FGS sử dụng các kỹ thuật mã hóa và giảimã được mô tả trong mục 5.5.3 để mã hóa mỗi khung hình là một lớp cơsở vàmột lớp tăng cường FGS. Khả năng mở rộng tạm thời FGS kết hợpFGS (mục 5.5.3) với khả năng mở rộng thời gian (mục 5.5.2). một khungtăngcường lớp được mã hóa bằng cách sử dụng chuyển tiếp hoặc dự

×