Compression Mpeg2 PG

MPEG1 et MPEG2

A partir du milieu des annes 80, la vido sous une forme numrique commenait simplanter dans les milieux professionnels : la normalisation suivait son cours et lesindustriels dveloppaient des matriels pour la production Les images taient de qualitmais cette mutation se heurtait un obstacle majeur qui bloquait son volution vers desapplications pour le grand public : les dbits ncessaires taient trs importants (au minimum166 Mb/s pour la vido seule). Aprs la phase de production en numrique, la diffusion enanalogique (par le canal de la tlvision, hertzienne, cble ou par satellite, ou parlintermdiaire de la cassette VHS pr-enregistre) restait alors de mise.Atteindre le grand public tait une ncessit. Rduire le volume de ces donnes numriquesdevenait une obligation pour pouvoir utiliser les canaux de diffusion (hertzien, rpteursatellite dont la capacit ne dpasse pas une quarantaine de Mb/s) ou les supports destockage (bande magntique, supports informatiques) existant ou venir. Ctait aussi lasolution pour favoriser la multiplication des programmes : au lieu dun unique programme enanalogique, un canal hertzien ou un rpteur satellite allait pouvoir en accueillir jusqu unedizaine en numrique.La rvolution a t importante et rapide. En une vingtaine dannes, le numrique est devenuune ralit dans tous les secteurs de laudiovisuel, y compris grand public. Camscope,rcepteurs satellites , DVD sont aujourdhui prsents dans ma majorit des foyers. Les rsultats sont spectaculaires. Avec les dernires volutions des normes, le dbitnumrique ncessaire pour une diffusion de tlvision vers le grand public ne dpasse pasaujourdhui quelques Mb/s, tout au plus 6 ou 8 Mb/s pour les programmes les plus exigeants.Ces valeurs sont comparer au chiffre de 166 Mb/s correspondant un signal non compress(voir chapitre suivant). Cela reprsente une rduction des donnes de plus de 95% ! Lestechnologies de compression sont aujourdhui utilises tous les stades de la production et dela diffusion.

Ce document prsente les principes et les technologies qui sont mises en uvre dans lesnormes MPEG et plus prcisment MPEG-1 et MPEG-2. MPEG-4 fait lobjet dun secondtexte. Seule la problmatique de la vido y est voque, mais il est vident que laudio estgalement soumis des technologies similaires, avec cependant des contraintes de dbits bienmoindres il est vrai.

MSH Paris nord - Plate forme Arts, Sciences, Technologies Philippe GASSER Juin 2005 1 / 20

1- A lorigine, la vido numrique non compresse :

Adopte depuis 1982, la norme CCIR 601 (rfrence officiellement aujourdhui sous lestermes aujourdhui ITU-R BT.601) dfinit lchelon mondial les paramtres de la vidonumrique. La numrisation est ralise partir dun signal en composantes1. Une imagenumrique au format 4/3 est compose de 720 pixels sur 576 lignes actives (pour la zone 625lignes / 50 Hz). Tous les pixels contiennent des informations de luminance. Par contre, unpixel sur deux ne contient pas d'information couleur. La terminologie 4.2.2. (utilise parfoisabusivement comme synonyme CCIR 601) indique que les frquences dchantillonnage,celle de la luminance (13,5 MHz) et celles des deux composantes de chrominance (6,75MHz) sont dans le mme rapport que les chiffres quatre, deux et deux. Avec unequantification sur 10 bits, le dbit pour une image complte est de 270 Mb/s (216 Mb/s sur 8bits). Si on ne numrise que la partie visible de l'image, le dbit est de 166 Mb/s (sur 8 bits).

Les trois formats dimage.

Sappuyant sur la perception rduite de lil humain pour les dtails fins lorsquils sont encouleur, les ingnieurs ont dvelopps des dclinaisons de la norme 4.2.2.. Le 4.2.2. a donnnaissance deux dclinaisons : le 4.1.1 et le 4.2.0. La diffrence entre elles concerneuniquement l'chantillonnage de la chrominance. Dans le 4.1.1, un pixel sur 4 seulement surchaque ligne contient des informations couleur. Dans le 4.2.0, le nombre total de pixelscontenant des informations couleurs est identique au 4.1.1. mais la rpartition est diffrente :une ligne contient des informations couleurs un pixel sur deux (comme pour le 4.2.2) mais la

1 Une image vido en couleur est compose partir de trois couleurs fondamentales, le rouge, le vert, le bleu (RVB dans lalittrature technique). Pour diffrentes raisons (de compatibilit et doccupation spectrale notamment), ces signaux RVB neconvenaient pas pour les applications de diffusion et denregistrement (nous sommes au dbut des annes 80, ne loublionspas !) Afin de satisfaire ces exigences, les signaux de base RVB ont t recomposs sous une autre forme, savoir unsignal de luminance Y (reprsentant limage en noir et blanc et qui est dfini par lgalit Y = 0,30R + 0,59V + 0,11B) etdeux signaux contenant les informations de couleur Dr et Db (tels que Dr = R-Y et Db=B-Y). La bande passante de laluminance est de 6 MHz environ, celle des signaux Dr et Db a t limite 1,5 MHz (la sensibilit de lil aux dtails encouleur est moins grande).Cette reprsentation est dite composante spare . Elle est utilise dans de trs nombreuses applications professionnelles etest lorigine de la majorit des formats numriques (mme grand public comme le DV).


suivante ne contient que les informations de luminance. Le 4.2.0. est donc un signal 4.2.2.ayant deux fois moins dinformations couleurs dans le sens vertical.

En conclusion, les trois formats offrent donc la mme dfinition pour la luminance maisdiffrent par la quantit et la rpartition des informations couleurs. Lutilisation du 4.1.1. et4.2.0. est dj en soi une premire tape dans le cadre de la rduction des donnes, car ellepermet dj une diminution du dbit par rapport au 4.2.2. Le dbit (identique pour les deuxformats) est en effet gal 124 Mb/s contre 166 Mb/s pour le 4.2.2.Tous ces formats numriques conservent le rythme et la structure classique des images vido, savoir 25 images par secondes (30 pour les amricains et quelques autres pays) rparties endeux trames entrelaces, soit au total 625 lignes (pour lEurope) dont 576 utiles (c'est--direrellement affiches lcran). Tous les chiffres indiqus correspondent des images detlvision standard, c'est--dire des images dont la largeur et la hauteur sont dans un rapport4/3. Les grands principes qui viennent dtre voqus ont t repris avec lavnement de latlvision au format 16/9, puis aujourdhui avec larrive prochaine de la haute dfinition. Ladfinition des images changeant, les dbits sont aussi diffrents et qui plus est beaucoup plusimportants.

Plus de vingt ans aprs sa naissance, la norme 4.2.2. reste toujours la rfrence en matire detlvision numrique professionnelle. Les normes 4.1.1. et 4.2.0. sont employes dans de trsnombreux matriels audiovisuels : magntoscopes et camscopes (y compris grand public),DVD, tlvision numrique (satellite, TNT).

Formats(en 625 lignes)

Rsolutionhorizontale

de laluminance

Rsolutionverticale dela luminance

Rsolutionhorizontale

de lachrominance

Rsolutionverticale de

lachrominance(nombre de

lignes Db Dr)

Dbits brutsvido (partie

utile delimage)

4.2.2 720 576 360 576 166 Mb/s4.1.1. 720 576 180 576 124 Mb/s4.2.0. 720 576 360 288 124 Mb/s

Tableau comparatif des 3 formats :

Lutilisation du 4.2.0. ou du 4.1.1. par rapport au 4.2.2. tait une premire tape mais ellerestait quand mme trs insuffisante (on pourrait mme dire insignifiante) compte tenu dudfi relever. Dautres technologies sappuyant sur les contenus mme des images ont donct dveloppes.


2- Les principes de bases de la compression :

Dans la norme CCIR 601, puis ensuite dans les deux dclinaisons que sont le 4.1.1 et le 4.2.0,chaque pixel est cod indpendamment des autres. Lide la base de tous les systmes decompression vido (mais aussi audio) est dexploiter les redondances qui existentnaturellement dans des images vido, voire de les liminer pour rduire la quantit et le dbitdinformations transmettre.Ces redondances sont de quatre ordres : Les redondances spatiales : dans les grandes plages uniformes lintrieur d'une image, il

existe de nombreuses similitudes entre des points voisins. Les redondances temporelles : dans une squence vido, les diffrences entre deux

images successives sont minimes. On ne va coder que les diffrences entre des imagessuccessives et ne transmettre que les changements.

Les redondances subjectives : il est inutile de coder les dtails fins que lil ne voit pas. Les redondances statistiques : on utilise des traitements purement informatiques qui

exploitent par exemple les similitudes dans les suites de valeurs numriques.

Ne pas transmettre un lment dj transmis

Ne pas transmettre ce que lon ne voit pas ouce que lon nentend pas.

Rduire voire supprimer toutes ces redondances va permettre des rductions qui peuvent treimportantes, mais certaines de ces oprations ne sont pas sans dommages : elles provoquentdes dgradations dans limage avec apparitions dartefacts plus ou moins visibles. Plus le tauxde compression est lev, plus les volumes des fichiers sont petits (ou en dautres termes, dansle cadre dune diffusion, plus le dbit est faible) mais plus limage est affecte par des dfautsvisibles et inversement. Tout est question de dosage : les taux de compression qui sontappliqus sont variables selon le domaine dapplication vis et selon la position du mdiadans la chane de ralisation. Pour la production (secteur professionnel), les taux decompression restent trs faibles, limage devant conserver toutes ses qualits intrinsques.Pour la diffusion (tlvisuelle, DVD) destination du grand public, des taux decompression plus importants sont recherchs avec pour objectif une simplification desimages jusqu la limite de lapparition des dfauts , notion toute relative il va de soi et quiest, qui plus est, variable en fonction du contenu mme des images.

Sans compression, un DVD simple face nepourrait contenir que 30 secondes de vido : unspot publicitaire !

Dans le cadre des processus de rduction des donnes, on distinguera les compressions avecpertes (lossy) et les compressions sans pertes (lossless). Les compressions avec pertes utilisentdes algorithmes qui suppriment des informations qui existent mais qui sont invisibles ou nondiscernables pour lil ou inaudibles pour loreille humaine (par exemple, masques pardautres sons). Ce sont des oprations irrversibles, la perte des informations tant dfinitive,mais les taux de compressions obtenus sont importants.


Dans le cadre des compressions sans pertes, on supprime les informations redondantes et onprocde au r-agencement des donnes qui restent. Dans cette catgorie, on inclue galementles compressions de type informatique . Ce sont des oprations rversibles : une foisdcod, le signal retrouve ses qualits dorigine mais les taux de compression sont beaucoupplus faibles. Dans la majorit des cas, les technologies de compression ne sappuient pas sur un seul etunique procd mais reposent sur des successions doprations lmentaires (qui pourront trelosseless et lossy) et qui mises bout bout procurent un taux de compression global important.Les coupes sont drastiques mais lil sy accommode. Les rsultats sont variables enfonction de la nature mme des images. Les squences vido comportant de nombreux objetsen mouvement (retransmissions sportives par exemple) ncessitent des dbits plus importantsque celles qui ne comportent que des lments statiques (journaux tlviss).

Des groupes de travail se sont constitus pour tester et dvelopper ces technologies. Legroupe MPEG (Moving Picture Experts Group) est lun dentre eux. Il est issu des deuxinstances de normalisation que sont l'ISO et la IEC (International Standards Organisation etInternational Electrotechnical Commission). Ce groupe a en charge l'tablissement destandards internationaux pour la vido et l'audio numrique. C'est une uvre de longuehaleine puisque les premiers travaux ont commencs la fin des annes 80, il y a plus de 15ans.


3- Lexploitation des redondances spatiales dans limage. Les traitements intra-image :

Une image seule contient beaucoup de redondances, a fortiori si elle prsente des zonesuniformes plus ou moins grandes : il y a alors de fortes corrlations entre des pixels voisins. Aloppos, une image avec beaucoup de dtails contient assez peu de redondances. Si uneimage tait uniquement constitue de bruits erratiques, il serait pratiquement impossible de larduire. Le traitement repose sur un dcoupage de limage en blocs de 8 sur 8 pixels puis unerduction des donnes en trois tapes successives :

- Une opration mathmatique : la transformation en cosinus discrte DCT (pour Discretecosinus transform)Pour permettre un codage plus efficace, cette opration mathmatique va raliser unerorganisation de linformation, savoir une transposition de limage depuis le domainespatial vers le domaine frquentiel transformant ainsi des chantillons damplitude encoefficients. Ces coefficients sont reprsentatifs de la frquence des signaux vido etreprsentent donc la quantit de dtails.

La DCT existe, on la mme rencontre !

Au final, chaque bloc de 8 sur 8 pixels de limage originelle est reprsent par un tableau de64 cases (8 colonnes sur 8 lignes) : ces coefficients sont classs en ordre croissant dans lamatrice, les valeurs situes en haut gauche reprsentant les basses frquences de latransforme (la premire valeur indiquant la valeur moyenne de tous les pixels du bloc), puisles valeurs reprsentant les dtails fins (et donc les frquences les plus leves) tant placs lautre extrmit de matrice. Si limage comporte peu de dtails (un ciel bleu par exemple)beaucoup de ces coefficients seront faibles voire nuls. A ce stade, il ny a pas encore de compression de donnes : lopration est totalementrversible et sans perte : on pourrait encore reconstituer limage dorigine !

- La quantification :Ces coefficients sont ensuite quantifis, mais avec une prcision qui sera pondre en fonctionde la position des coefficients dans les blocs et donc de la finesse des dtails (prcisiondcroissante quand la frquence augmente). La sensibilit de lil humain est variable enfonction des frquences et de leur positionnement par rapport lhorizontale. Pour laquantification des grandes plages presque uniformes, on adoptera un codage avec uneprcision maximum (on affectera un plus grand nombre de bits) ce qui vitera lapparition de mplats ou deffets de pixlisation dans les zones de limage originale qui comportaient desubtils dgrads pour lesquels lil est particulirement sensible. Pour les dtails fins (leshautes frquences spatiales), lil est beaucoup plus tolrant et il ny peroit pas lesdiffrences dintensit. Les coefficients correspondant ces dtails pourront tre cods avecpeu de bits. De nombreux coefficients non significatifs verront aussi leur valeur ramene zro. Cela correspond llimination pure et simple des dtails les plus fins de limage. Letaux de compression total (et donc la taille du fichier) obtenu pour une image dpenddirectement de la prcision de la quantification que lon applique. (Table dequantification). Cest ltape qui rgle le compromis entre le dbit et la qualit de limage. Sur


limage dcompresse, la structure en forme de blocs peut redevenir visible lorsque les tauxde compression sont importants (ce dfaut est dailleurs appel effet de blocs).La quantification est une phase primordiale. A ce niveau, la rduction des donnes estimportante mais dfinitive : les informations supprimes sont irrmdiablement perdues.

Avec MPEG, l image vido est dcoupe en blocs de 8 x 8 pixels.

- La lecture des donnes :Les donnes sont ensuite lues et srialises. Les matrices sont exploites, non pas ligne parligne, mais en zigzag ce qui permet de commencer par les coefficients correspondant auxbasses frquences de la matrice et de regrouper tous les lments nuls les uns derrire lesautres et doptimiser leur compression.Un compactage du flux binaire utilisant les proprits statistiques du signal est ensuiteralis selon deux procds :

- codage longueur courante (RLC) : au lieu de coder indpendamment chaque zro, onmet un code indiquant le nombre de valeurs nulles.

- codage longueur variable (VLC) de type Huffman : on calcule les frquencesd'apparition de chaque octet et on les recode en fonction de leur frquenced'occurrence. En sappuyant sur un dictionnaire (ce qui signifie une analysepralable de la suite des lments transmettre), on affecte aux suites les pluscourantes des codes binaires courts et aux occurrences rares des mots plus longs(systme identique dans son principe au code morse qui affecte un simple point pour lalettre E trs courante- et deux traits deux points pour la lettre Z dun emploi moinscourant).

En terme de compression, lefficacit de ces deux dernires oprations est relativementmodeste.


4- Lexploitation des redondances temporelles. La compression inter-images :

Dans une squence vido, la diffrence entre une image et la suivante est relativement faible,sauf lors dun changement de plan. Un objet en mouvement lcran va occuper unemplacement diffrent, mais il va conserver sensiblement le mme aspect. Lide de base estla suivante : partir dune image intgralement code et transmise, on ne va ensuitetransmettre pour les images suivantes que les informations de mouvement des diffrentslments, ce qui correspond en fait ne transmettre que les diffrences entre des imagessuccessives. Cette mthode de traitement tant tablie par rfrence une image codeintgralement, il est ncessaire que des images compltes soient diffuses intervalle rgulier.Ce point sera abord dans le chapitre suivant.

La position dun bloc de pixels variant peu dune image lautre, tout (ou presque) macroblocdans limage en cours peut tre dduit par translation partir dun macrobloc identique danslimage prcdente. Par opposition aux oprations de rductions des redondances spatiales quisappuyaient sur un dcoupage de limage en blocs de 8 x8 pixels, la compression inter-imagesappuie sur un dcoupage de limage en macroblocs, entit de 16 x 16 pixels (soit 4 blocs ence qui concerne la luminance voir encadr).A lencodage :

- pour chaque macrobloc de limage en cours, on recherche dans limage prcdente unmacrobloc identique ou le plus ressemblant (bloc matching), ce qui va permettre ladtermination dun vecteur de mouvement indiquant le dplacement ralis entre lesdeux images. Ce vecteur sapplique sur toutes les composantes (luminance etchrominance) du macrobloc.

- on calcule ensuite les ventuelles diffrences pixel par pixel (si elles existent) entre lescontenus des deux macroblocs, et on code spatialement cette image diffrentielle enutilisant les mthodes dcrites prcdemment pour le traitement des redondancesspatiales : DCT, quantification, srialisation, RLC et VLC.

- Seuls les rsultats de ces deux oprations, le vecteur de mouvement et le calcul sur ladiffrence de constitution des deux macroblocs sont transmis dans le flux binaire etutiliss par le dcodeur. A la rception du flux, ce dernier pourra reconstruire uneimage complte partir de ces deux lments et du contenu de limage prcdentequil aura dj dcode et affiche.

Estimation de mouvement

La recherche dun macrobloc identique ou semblable peut ne pas aboutir (dans la cas dunchangement de plan par exemple) : dans ce cas, le macrobloc sera recod intgralement enintra.


La mthode et les critres de ressemblance, lespace de recherche des macroblocs danslimage en cours et plus gnralement les technologies utilises pour lencodage ne sont pasindiqus dans la norme MPEG. Les fabricants dencodeurs sont libres dadopter la mthodede leur choix. Seul le rsultat final compte, la dtermination du vecteur de dplacement et duterme derreurs. Ce sont ces deux lments et seulement eux qui seront transmis dans le fluxet utiliss par le dcodeur.Les macroblocs peuvent tre dfinis, soit partir des images prcdentes, soit partir desimages prcdentes et suivantes (ce qui ncessitera un r-ordonnancement de lordre desimages lmission !). Ce point est abord dans le chapitre suivant.

Ces technologies labores pour MPEG-1 puis pour MPEG-2 seront reprises dans la normeMPEG-4 mais elles seront affines et gagneront en efficacit.

5- La squence MPEG. Les diffrents types dimages :

Redondances intra-images, redondances inter-images autant de caractristiques des imagesanimes qui ont entran les modes de traitement et de compression qui viennent dtredcrits. Plus concrtement, au sein dune squence MPEG cela a abouti une hirarchisationdes images. Une squence vido la norme MPEG-2 peut tre compose de trois typesdimages :

- les images Intra (I)- les images Prdites (P)- les images bidirectionnelles (B)

Toutes ces images ne sont pas traites et compresses de la mme faon. Les images Intra (I)sont codes intgralement, uniquement daprs leurs propres caractristiques, sans aucunerfrence aux images voisines. Cest la redondance spatiale qui est exploite. Les images Isont des images rfrences partir desquelles est ralis le dcodage. Cest pourquoichaque changement de plan doit commencer par une image I. Elles permettent un accsinstantan en lecture. En diffusion, on place une image I toutes les 12 images. Ce sont lesimages les moins compresses, donc les plus volumineuses.Les images P sont prdites partir des images I ou P prcdentes en sappuyant exclusivementsur les technologies lies lestimation et la compensation des mouvements. Leur volume informatique est approximativement la moiti de celui des images I.Les images B sont galement des images prdites, mais elles prsentent la particularit depouvoir tre interpoles partir dimages I ou P passes et /ou futures. Il faut noter que ledcodage dune image B nest possible que si les images I et P qui lui servent de rfrence(notamment les images futures) sont disponibles. Cest pour cette raison que lordre desimages est modifi pour la diffusion et le dcodage. Dans le dcodeur, les images I et P djdcodes sont stockes provisoirement dans des mmoires tampons, le temps de dcoderet de calculer les images P et B suivantes Ce nest quau moment de laffichage que lesimages sont replaces dans leur ordre normal . La prdiction bi-directionnelle est si efficaceque le volume des images B nest que le quart de celui des images I. Les images B nepropagent pas les erreurs puisquelles ne sont jamais utilises comme rfrences.

En rsum, seules les images I sont de vritables images. Les images P et B ne sont en fait quedes reconstitutions partir dlments issus des autres images. Elles ne conviennent pas pourle montage.


Le poids relatif des images I, P et B.

On appelle GOP (Group of Picture) la squences lmentaire compose dimages I, P et /ouB. Un GOP commence toujours par une image I, puis par des images P et B et se termineavec limage prcdant limage I suivante. La longueur du GOP peut tre variable, mais lavaleur la plus courante en diffusion (tlvision ou DVD) est de 12. Dans ce cas, il comprend,outre limage I de dpart, 3 images P et 8 images B. En production, le GOP peut ntre que de1 : la squence nest alors compose que dimages I, permettant de ce fait le montage limage prs. Des GOP de 2 (images I et B seulement) sont galement possibles sur certainscamscopes.

Le GOP en diffusion

Pourquoi les images I sont elles indispensables intervalle rgulier ? En diffusion, il y a doncenviron deux images I par seconde dans le flux. Ce sont les seules images dans le flux trecodes intgralement, en fonction de leurs seuls lments constitutifs et indpendamment desimages voisines. Les images I doivent apparatre intervalle rgulier

- pour viter quen cas de problme dans la transmission, une erreur ne se perptueindfiniment

- en diffusion (tlvision ou DVD), pour permettre aux utilisateurs de se connecter tout moment et non pas uniquement au dmarrage de la squence (accs alatoire)

- de permettre la lecture avant ou arrire rapide (le dcodeur ne dcodant alors que lesimages I et non pas lensemble des images).

Plus la distance entre deux images I et entre deux images P est grande et plus la compressionest forte (il y a dans ce cas un nombre trs important dimages B, celles qui sont les pluscompresses et qui prsentent donc le plus faible volume). Ceci offre lavantage de permettreun dbit plus faible mais gnre deux inconvnients : une distance importante entre deuximages P implique un plus grand dlai dans les phases de codage et dcodage ; une distanceimportante entre deux images I apporte une restriction pour laccs instantan (zapping) en un


point quelconque dune squence (mais est ce vraiment important pour le tlspectateurlambda ?).

A qualit constante, une squence vido encode avec un GOP de 1 (c'est--dire constitu uniquement dimages I) ncessitera un dbit 2 3 fois pluslev que la mme squence encode avec un GOP de 12 (le modle utilisen diffusion ou pour le DVD avec des images I, P B).


6- Profils et niveaux avec MPEG-2

MPEG-1, la premire norme qui fut dveloppe, puis MPEG-2 labore par la suite,sappuient sur les mmes principes de base. Nanmoins les champs dapplications viss nesont pas les mmes. A une premire norme mono-usage la qualit trs modeste a suivi unenorme multi-applications, avec des niveaux qualitatifs qui peuvent tre levs.

MPEG-1 avait pour cible les applications et le stockage de vidos sur les disques CD de lapremire gnration, c'est dire avec un dbit ne dpassant pas 1,5 Mb/s 2. L'image est en4.2.0. avec une dfinition totale pour la luminance de 288 x 352 pixels. Par rapport uneimage classique de tlvision (720 x 576), cela signifie en clair que lon ne prend en comptequune trame sur deux (on saffranchit de lentrelacement) et quun pixel sur deuxhorizontalement. En dautres termes, la dfinition est divise par deux dans le sens horizontalet par deux dans le sens vertical. La qualit de l'image est souvent comparable celle obtenue la lecture d'une cassette VHS. Ce standard a t approuv en novembre 1992.

A loppos, MPEG-2 nest pas un format simple et rigide. Il offre un ensemble dlments quisadaptent un large ventail dapplications : diffusion tl, DVD, post production, hautedfinition Les dbits sont diffrents pour lacquisition, le montage et la distribution.MPEG-2 gre lentrelacement.MPEG-2 ne constitue pas une norme unique mais une sorte de bote outils, une famille denormes dont on choisit les paramtres finaux en fonction des besoins. Afin de rendre la normepolyvalente (en terme dapplications vises mais aussi au niveau des fonctionnalits possibles)on a dfini pour MPEG-2 une srie de profils et de niveaux (profiles et levels en anglais). Les profils correspondent une approche qualitative : ils regroupent les outils de codage et lesalgorithmes les plus appropris pour diverses situations dutilisation : diffusion, production...Les profils dfinissent ainsi les types dimages qui seront utiliss (Images I, P, B), lesprocds de codage employ Les dcodeurs n'auront pas implmenter tous les outils de lanorme mais seulement ceux destins l'usage vis. Chaque profil comporte ensuite diffrents niveaux. Ils apportent une approche quantitative,dcrivant diffrents paliers de performance pour un profil donn et correspondant autant dedegrs de complexit dans la mise en oeuvre. Les niveaux imposent des contraintes certainsparamtres cls du flux. Ils vont par exemple spcifier les limites suprieures pour la dfinitiondes images, le nombre d'image par seconde, les gammes de dbits utilisables Chaque profiloffre une compatibilit ascendante, c'est--dire quun profil donn est capable de reconnatre etdexploiter tous les profils de niveau infrieur.Les couples Profile / Level sont conus pour faciliter linteroprabilit entre des applicationsqui peuvent tre utilises pour gnrer un flux compatible.

Six profils et quatre niveaux ont t dfinis. Sur les 24 combinaisons possibles, seules 12 ontt juges utiles et ralisables. Celle actuellement retenue pour la diffusion numrique et pourle DVD est Main Profil / Main Level not MP @ ML . Limage est au format 720 x576 en 4.2.0. avec un dbit maximum de 15 Mb/s. La squence vido est compose des troistypes dimages I, P, et B avec un GOP de 12. Autour de ce couple phare universellementadopt, dautres formats ont t imagins : formats infrieurs avec le low level qui offreune dfinition limite 352 x 288 (cest le format du MPEG-1) ou le simple profile quinutilise que des images I et P (pas de prdiction bi-directionnelle) ou formats suprieurs aveclintroduction de la haute dfinition et des formats dimages atteignant 1920 x 1152 en 4.2.0ou en.4.2.2. Tous les usages imagins autour de MPEG-2 ne verront sans doute pas le jour. Il2dbit obtenu avec un lecteur de CD ROM de base. Aujourd'hui, les lecteurs peuvent tourner beaucoup plus vite(X40) et donc fournir des dbits beaucoup plus importants.


en est ainsi pour la haute dfinition qui lorsquelle apparatra trs prochainement en Francesappuiera, compte tenu des volutions technologiques, non pas sur MPEG-2 mais sur lanorme MPEG-4.

Tableau des profils et des niveaux

Le duo MP @ ML tait inexploitable en post-production pour diffrentes raisons. Toutdabord, le codage dun signal source en 4.2.0. nest pas satisfaisant puisque les informationsde chrominance sont deux fois moindres quen 4.2.2. Ensuite parce que la structure mme dela squence vido avec son GOP de 12 interdit toute possibilit de montage avec une prcisionsuffisante. Enfin, le dbit maximum de 15 Mb/s savre insuffisant pour ce type dapplication.Un profil spcifique pour les applications en studio a donc t dvelopp ultrieurement afinde rpondre aux exigences dun environnement de post-production. Sous lappellation 4.2.2.P@ML, il sappuie sur une structure dimage en 4.2.2. avec un dbit pouvant atteindre 50 Mb/set un GOP qui peut tre limit 1 (uniquement des images I) ou deux (images I et B commedans lancien format SX de SONY). La rsolution verticale atteint 608 lignes (au lieu de 576)permettant le codage de donnes auxiliaires.

Le mot anglais scalable qui apparat dans la tableau des profils et des niveaux dsigne lapossibilit de fournir et de transmettre dans un mme signal un ensemble dlmentscorrespondant diffrents niveaux de qualit et qui pourront tre exploits diffremment enfonction des conditions de transmission ou du type de terminal utilis par lusager. Un mmeflux pourra comprendre des donnes principales utilisables par un dcodeur bon march (quirestituera alors une image de base) et des donnes complmentaires qui seront utilises (avecles donnes de base) par un dcodeur plus performant pour offrir une meilleure image. DansMPEG-2, deux profils prsentant cette particularit : le SNR Scalable Profile et le Spatially Scalable Profile permettent ainsi ce codage hirarchique en deux couchesfavorisant, pour le premier, la rduction du rapport signal bruit, et pour le secondlaugmentation de la rsolution spatiale. Ces deux profils nont quasiment pas t mis enuvre, mais le principe a t repris (et devrait tre tendu) dans la nouvelle norme MPEG-4.


7- Dbit fixe ou dbit variable : En terme de complexit des images, le contenu dune squence vido ou dun film estrarement homogne sur toute sa dure. MPEG-2 peut utiliser deux modes de fonctionnement : dbit constant ou CBR (Constant Bit Rate) ou dbit variable ou VBR (Variable Bit Rate).Comme les noms lindiquent, dans le premier cas, le dbit restera toujours constant, alors quedans le second cas il sera variable en fonction des caractristiques des images : des imagescomplexes ncessitant des dbits levs et vice et versa. A un encodage dbit constantcorrespondra une qualit des images qui sera variable, et inversement, un dbit variablecorrespondant des images de qualit constante. Le dbit variable permet galement unemeilleure optimisation de lespace ou du volume en fonction de la complexit des images : unDVD encod dbit variable sera gnralement moins volumineux quencod dbit fixe.

8- MPEG-2 en diffusion : les usages Les programmes de tlvision diffuss en numrique aujourdhui, quils le soient par satellite,rseaux cbles urbains, ADSL et mme terrestre (TNT), du moins pour ce qui concerne lespremiers programmes gratuits sappuient tous sur la norme MPEG-2 et plus prcismentsur le couple niveau / profil : Main Level / Main Profile. Ceci signifie une image en 720 x 576en 4.2.0. avec un dbit qui ne dpassera pas selon la norme 15 Mb/s. En ralit, ce dbitmaximum nest jamais atteint dans les applications courantes. Il ne serait dailleurs pas utilede choisir cette valeur maximum, lvolution des technologies de compression permettantaujourdhui dobtenir des images de qualit pour des dbits largement en de (sans toutefoisatteindre des dbits trop faibles qui engendreraient des dfauts trop visibles sur les images).On la dj mentionn, pour une qualit dimage donne, le taux de compression qui doit treappliqu dpend directement du contenu mme des images, de leur richesse au niveau desdtails ou des objets en mouvement. La retransmission dune preuve sportive ncessitera undbit beaucoup plus lev que la diffusion dune mission politique en plateau. Les quelquesexemples prsents dans le tableau ci-dessous prcisent quelques valeurs relles mesurespour diffrents types de programmes. Ils ont t relevs au mois de mars 2005 sur le sitehttp://www.planetecsat.com/debits.php et concernent des programmes qui sont diffuss parTPS dans le cadre de son bouquet satellite.On la dj indiqu galement, la dfinition normale dune image numrique est de 720points (dans le sens horizontal) sur 576 lignes (verticalement donc). Comme ce tableau lemontre galement, certains programmes sont diffuss avec une dfinition horizontale rduiteafin dconomiser la bande passante, le rcepteur se chargeant ensuite la rception de recomposer limage dans le format normal de 720 x 576. Ceci se traduit aussi par desdgradations qui peuvent devenir visibles lcran. On pourra retrouver sur ce mme site lesvaleurs des autres programmes proposs par ce mme diffuseur ainsi que celles utilises parCANALSAT et par la TNT

Type deprogramme

Dbitscomprisentre :

Valeurmaximum

Valeurmoyenne

Dfinition desimages

M6 Boutique Emission enstudio 1 et 3 Mb/s 4,3 Mb/s 1,6 Mb/s 480 x 576

LCI information 1,5 et 4 Mb/s 5,4 Mb/s 2,4 Mb/s 544 x 576

TPS Star films 2,5 et 6,5Mb/s 8,3 Mb/s 4,3 Mb/s 720 x 576

Eurosport2 sport 3 et 8 Mb/s 8,8 Mb/s 4,8 Mb/s 720 x 576Ce tableau illustre quelques uns des choix qui ont adopts en terme de dbit et de dfinition dimages parce diffuseur pour quatre de ses chanes avec des thmatiques bien cibles.


Le DVD, formidable succs aussi lchelon mondial, sappuie galement sur la normeMPEG-2. Pour la vido, le dbit de doit pas dpasser 9,8 Mb/s. Il peut tre fixe ou variable.La qualit tant vante de limage DVD tient la possibilit dutiliser une technique decompression multipasses . Dans une premire phase, lquipement dencodage procde un examen prcis de la vido, et dans un deuxime temps effectue lencodage au formatMPEG-2 en sappuyant sur les relevs raliss dans la premire phase. Cette technique permetdoptimiser la qualit des images en fonction de leur contenu prcis : dtails, mouvementsrapides et nest pas soumise aux contraintes du temps rel. A dbit gal, elle offre desrsultats qualitatifs suprieurs ceux issus dun encodage en une seule passe. Le codage endeux passes permet de rduite le dbit (et donc le volume informatique du fichier) mais il estinapplicable pour la tlvision en direct.


Conclusion :

MPEG-2 a t un formidable succs dans le monde entier : des millions de dcodeurs ou delecteurs de DVD sappuyant sur cette norme sont aujourdhui en service. Une des idesmajeures qui a prvalue lors des dveloppements de MPEG-2 tait de ne pas bloquerlvolution de la technologie au fil des annes et donc de continuer amliorer la qualitfinale des images, malgr le ncessaire blocage des technologies au niveau des dcodeurs(notamment les lecteurs DVD) qui une fois installs au domicile des utilisateurs ne sont plusgure upgradables . MPEG-2 (comme dailleurs MPEG-4, on le verra dans un autre texte)ne dfinit pas les technologies utilisables pour lencodage, mais seulement la smantique dudcodage. En clair peu importe la mthode utilise pour encoder les images, seul le rsultatcompte : le flux binaire produit devant tre compatible avec la totalit des rcepteurs. Celalaisse bien entendu toute latitude aux industriels pour amliorer leurs technologies decompression et dvelopper de nouveaux encodeurs plus performants. Cette politique a tpayante, puisque entre 1994 et 2002, et qualit dimage gale, le dbit ncessaire a t divispar un facteur de trois.

Source RIAM

Mais on estime aujourdhui que les volutions de MPEG-2 ont atteint leur limite et quil nestplus gure possible de russir lamliorer. MPEG-4 va lui succder. Cest une normercente, performante, volutive et prometteuse au niveau de ses potentiels. La premireapplication grande chelle devrait se concrtiser en France la fin de cette anne 2005 avecle tlvision numrique terrestre qui sappuiera sur MPEG-4 pour les chanes payantes (maissur aussi sur MPEG-2 pour les chanes gratuites !). Les nouvelles gnrations de DVD enhaute dfinition utiliseront, non seulement le vieillissant MPEG-2, mais galement lesnouveaux codecs H264 (MPEG-4 Part10) et VC1 (Microsoft).

Philippe GASSER


Encadrs

Quelques grandes dates de lhistoire du numrique :

1982 Adoption de la norme CCIR 601 qui dfinit lesparamtres de la vido numrique lchelonmondial (4.2.2.)

1988 Premiers travaux du groupe MPEG (MovingPicture Experts Group) pour dfinir les standardsde la vido numrique.

1992 Approbation de la norme MPEG-11993 Premires spcifications pour le format DV1994 Approbation de la norme MPEG-21994 Premier bouquet de TV numrique par satellite

aux USA1995 Premiers camscopes au format DV1996 Lancement en France du premier bouquet de

tlvision par satellite en dfinition standard lanorme MPEG-2.

1997 Premiers lecteurs de DVD Vido en France1998 Diffusion des premiers programmes en haute

dfinition aux USA utilisant la norme MPEG-2(dbits environ 18 Mb/s)

1998 Approbation de la premire version de la normeMPEG-4

2001 Formation dune quipe commune (JVT) entrelISO et lITU pour dvelopper un nouveauformat de compression pour MPEG-4 dnommAdvanced Video Coding (AVC)

2003 Ce systme de codage est officiellement intgrdans les normes MPEG-4 sous deux noms : H264et MPEG-4 Part10

2004 Tlvision numrique par ADSLMars 2005 Mise en service de la Tlvision numrique

terrestre (TNT). Elle sappuie sur la normeMPEG-2 pour les programmes gratuits.

Fin 2005 ? Utilisation de MPEG-4 pour la compression desprogrammes payants dans le cadre de latlvision numrique terrestre en France.


Structure hirarchique des lments dans MPEG le GOP : groupe dimages commenant par une image de type I qui permet un

accs alatoire. En diffusion, le GOP est souvent de 12 : il comprend, outrelimage I de dpart, 3 images P et 8 images B. En production, le GOP est de 1 :une squence nest compose que dimages I, permettant de ce fait le montage limage prs.

limage : elle est constitue de 720 points sur 576 lignes les tranches (slices dans la littrature anglaise) : ensemble compos par un nombre

entier de macroblocs aligns de gauche droite sans recouvrement. Ils sontdestins la gestion des erreurs au moment du dcodage des images et notamment la resynchronisation du dcodeur en cours dimage.

les macroblocs : matrice constitue partir de lassociation de blocs. Unmacrobloc comprend 4 blocs de luminance (soit un pav de 16 sur 16 pixels).Cest llment de base pour lestimation de mouvement.

le bloc : partie de limage de 8 sur 8 pixels. Cette matrice est llment de basepour le codage avec la DCT.

Quelques dfauts lis la compression : Effet de blocs : apparition d'une structure carre sur une partie de l'image, sans corrlation

avec le contenu normal de l'image. Souvent confondus avec les pixels, ce sont les blocsde 8 x 8 pixels de la compression, les mmes qui apparaissent avec une cassettenumrique lors de l'avance ou du retour acclr. Ce dfaut est d un taux decompression trop lev.

Effet de blurring (de blurred signifiant flou, troubl) provoquant une rduction desdtails, avec des contours moins nets et des tranes (smearing). Ce dfaut affecte latotalit de l'image. Il est gnralement li une rduction de la bande passante et /ou undbit trop faible.

Edge busyness (Effet de halo) : distorsion se produisant temporairement sur les contoursdes objets (bruit dynamique)

Mosquito noise (effet "moustique") bruit sur les transitions sur des objets en mouvement.Ce dfaut est caus par des erreur de quantification entre deux pixels voisins. Il y a alors


apparition de petits points noirs ou blancs qui "miroitent" autour de l'objet comme desmoustiques.

Bruit de quantification : il provoque un effet de neige ou de vitre salle et n'est pasuniforme sur toute l'image. Ce dfaut est li un problme de conversion A/D sur uneportion de l'image.

Leffet de falaise : Les consquences sur les images des perturbations pouvant survenir lors dune transmissionsur un rseau ou pour un enregistrement sont diffrentes selon que lopration se droule enanalogique ou en numrique.En analogique, lorsque les conditions de transfert se dgradent, la qualit des images saltreau fur et mesure mais elles restent visibles y compris les dfauts. Le rapport signal /bruit diminue et cela se matrialise lcran par un effet de neige devenant de plus en plusperceptible. En numrique, les consquences sont toutes autres. Si la transmission estcorrecte, limage est restitue avec sa qualit dorigine. Quand des dfauts viennent altrerlgrement la liaison, des mcanismes de correction derreurs restituent les informationsperturbes et limage est reconstruite avec une qualit proche de loriginal. Quand elle estfortement perturbe, les images disparaissent brutalement ds que les dispositifs decorrections derreurs ne peuvent plus intervenir. Ce fonctionnement en tout ou rien (do lenom deffet de falaise) est indpendant de la qualit intrinsque des images qui peuventprsenter par ailleurs des dfauts, crs notamment pendant la compression.

Quelles diffrences entre le format DV et le MPEG-2Le format DV est plutt un format de prise de vue (camscopes et lecteurs enregistreursfonctionnant avec une cassette spcifique normalise) alors que le MPEG-2 est une norme decompression utilisable pour la diffusion (satellite, terrestre, rseaux urbains, DVD) ou pour laproduction. Nous limiterons le comparatif la vido standard (format 4/3).Si ces deux formats possdent de nombreux points communs (ils sappuient sur destechnologies de compression identiques base de DCT avec une quantification sur lescoefficients issus de la transformation), ils offrent galement de nombreuses diffrences.

en termes de dbit en premier lieu : pour le DV, deux dbits uniquement sontpossibles : 25 Mb/s pour les matriels grand public et 50 Mb/s pour les matrielsprofessionnels. A ces deux chiffres fixes, MPEG-2 oppose une large gamme devaleurs (de quelques Mb/s jusqu 100 Mb/s) et des dbits qui peuvent tre fixes ouvariables.


en termes de format source pour les images ensuite : le MPEG-2 MP @ ML sappuiesur le 4.2.0. (le 4.2.2 pouvant tre galement utilis pour la production et la HD) alorsque le format DV est disponible (pour les pays en 50 Hz) en 4.2.0. (DV pour le grandpublic et DVCAM pour les professionnels) ou 4.1.1. (DVCPRO galement pour lesprofessionnels).

en termes de nature des images pour terminer, puisque le format MPEG offrediffrentes possibilits de squencement (images I seules, images I et B, images I, P etB) alors que le format DV sappuie exclusivement sur des images I, avec cependantune petite particularit puisquen fonction de la dtection ou non de mouvements danslimage, le codage seffectue sparment sur les deux trames (prdiction entre les deuxtrames et utilisation de blocs de 4 x 8 ) ou sur lensemble de limage (blocs de 8x8).


Documents

Compression Mpeg2 PG