2.2 Kompressionsverfahren für...

Preview:

Citation preview

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-39

2.2 Kompressionsverfahren fürStandbilder

2.2.1 Fax-Kompression

Standards in der Telekommunikation werden von derInternational Telecommunications Union (ITU-T) entwik-kelt (früher: CCITT = Commitée Consultatif Internationalde Téléphonie et Télégraphie).

Der Standard für verlustlose Kompression von Faksimi-le-Anwendungen war einer der ersten Standards zurBildkompression.

Bilder werden von Faxalgorithmen der Gruppe 3 als bi-tonal betrachtet, d.h. jedes Pixel kann entwederschwarz oder weiß sein. So kann jedes Pixel mit einemBit repräsentiert werden. In jedem bitonalen Bild gibt esin der Regel größere Bitfolgen (Runs), die entwedervollkommen schwarz oder vollkommen weiß sind.

Beispiel:

Lauflängencodierung: 4w 3s 1w 1s 2w 1s

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-40

Fax-Standards der ITU (vormals CCITT)

Standard T.4 erstmals verabschiedet 1980, überarbeitet1984 und 1988 (Fax Gruppe 3) für fehleranfällige Lei-tungen, insbesondere Telefonleitungen.

A4-Dokumente in schwarz/ weiß.

100 dots per inch (DPPI) oder 3,85 Zeilen/mmvertikal

1728 Pixels pro Zeile

Ziel:Übertragung einer Seite in einer Minute bei 4800 bit/s

Standard T.6 erstmals verabschiedet 1984 (Fax Gruppe4) für fehlerfreie Leitungen oder digitale Speicherung.

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-41

Standards für die Fax-Kompression

Fax Gruppe 3, ITU-T Recommendation T.4:

Kodierungsansatz 1: Modified Huffman Code (MH)

• Bild wird als Folge von Pixel-Zeilen betrachtet.

• Für jede Zeile wird eine Lauflängencodierung ermittelt.

• Die (Lauflänge,Wert)-Beschreibung wird dann Huff-man-kodiert, mit standardisierter, festgeschriebenerTabelle

• Dabei werden schwarze und weiße Runs mit separa-ten Huffman-Codes behandelt, da die Auftrittswahr-scheinlichkeiten der Lauflängen recht unterschiedlichsind.

• Zur Fehlererkennung wird nach jeder Zeile ein EOL(end-of-line=)-Codewort eingefügt. Dies ermöglichtdas Wiederaufsetzen nach Bitübertragungsfehlern.

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-42

Fax-Kompression

Kodierungsansatz 2: Modified Read (MR) Code

• Pixelwerte der vorangehenden Zeile werden für dieVorhersage der aktuellen Zeile verwendet.

• Anschließend wird eine Lauflängencodierung und einstatischer Huffman-Code wie bei MH eingesetzt.

• Auch hier wird ein EOL-Codewort verwendet.

Die Kodierungsansätze MH und MR werden regelmäßigabgewechselt, um die Fortpflanzung von Fehlern zuvermeiden.

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-43

Huffman-Tabelle für Fax Gruppe 3 (Ausschnitt)

White runlength

Code word Black runlength

Code word

0 00110101 0 00001101111 000111 1 0102 0111 2 113 1000 3 104 1011 4 0115 1100 5 00116 1110 6 00107 1111 7 000118 10011 8 0001019 10100 9 00010010 00111 10 000010011 01000 11 000010112 001000 12 000011113 000011 13 0000010014 110100 14 0000011115 110101 15 00001100016 101010 16 000001011117 101011 17 000001100018 0100111 18 000000100019 0001100 19 0000110011120 0001000 20 00001101000

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-44

Fax Gruppe 4

ITU-T Rec. T.6

Kodierungstechnik: Modified Modified Read Code(MMR)

• Vereinfachung des MR-Codes; es werden keine Feh-lererkennungsmechanismen mehr eingesetzt, um dieKompressionsrate zu erhöhen.

Kompressionsraten:

Geschäftsdokumente

Gruppe 3: 20:1

Gruppe 4: 50:1

Für Fotos u.ä. ist die Kompressionsrate schlecht, weildort nur kurze Lauflängen vorkommen. Eine adaptivearithmetische Codierung wäre beispielsweise bessergeeignet.

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-45

2.2.2 Block Truncation Coding (BTC)

Ein einfaches Verfahren für Graustufen-Bilder. Mannimmt an, daß jedes Pixel im Original mit einem Grau-wert von 0 (schwarz) bis 255 (weiß) beschrieben ist.

Algorithmus BTC

1. Zerlege das Bild in Blöcke der Größe n x m Pixel

2. Berechne Mittelwert und Standardabweichung derPixelwerte für jeden Block

∑ ∑= =

=n

i

m

j

jiYnm 1 1

,1µ

∑ ∑= =

−=n

i

m

j

jiYnm 1

2

1

,21 µσ

mit Yi,j = Helligkeit (Graustufe) des Pixels.

3. Weise dem Block eine Bitmatrix der Größe n x mnach folgender Regel zu:

=sonst

Yfalls

B

ji

ji

0

1 ,

,

µ

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-46

4. Berechne zwei Graustufenwerte für den Block, a fürden Wert der dunkleren Pixel, b für den Wert derhelleren Pixel:

qpa σµ −=

pqb σµ +=

p ist dabei die Anzahl der Pixel, die heller als derMittelwert µ sind, q die Anzahl der dunkleren Pixel.

5. Ausgabe: (Bitmatrix, a, b) für jeden Block

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-47

Dekompression bei BTC

Für jeden Block werden die Graustufen der einzelnenPixel wie folgt berechnet:

=

=sonstb

BfallsaY

jiji

� 1'

,,

Beispiel für die Kompressionsrate

Blockgröße: 4x4Original (Grauwerte) 1 Byte pro Pixelcodierte Darstellung: Bitmatrix mit 16 Bits + 2x8 Bits

für a und b

Ö Reduktion von 16 Bytes auf 4 Bytes

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-48

2.2.3 Color Cell Compression

Ein Verfahren zur Kompression von Farbbildern. ImPrinzip könnte man BTC für jeden der drei FarbkanäleRGB getrennt anwenden. Aber CCC liefert qualitativbessere Ergebnisse.

Algorithmus CCC

1. Zerlege das Bild in Blöcke der Größe m x n Pixels.

2. Berechne für jedes Farbpixel die Helligkeit gemäß:

Y = 0.3Pred + 0.59Pgreen + 0.11Pblue

Y=0 entspricht weiß, Y=1 entspricht schwarz

3. Für c = red, green, blue berechne die mittlerenFarbwerte der Pixel gemäß

∑∑≤

==µµ jiji Y

jicY

cjicc Pp

bPq

a,,

,,,, 1

, 1

p ist die Anzahl der Pixel, die heller als der Mittelwertsind, q die Anzahl der dunkleren Pixel.

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-49

4. Weise dem Block eine Bitmatrix der Größe n x mnach folgender Regel zu:

=sonst

Yfalls

B

ji

ji

0

1 ,

,

µ

5. Die Werte a = (ared, agreen, ablue) undb = (bred, bgreen, bblue) werden in eine Farbtabelle ab-gebildet, gemäß einem Nähe-Maß. Es ergeben sichdie Werte a’ und b’ als Indizes der Farbtabelle (ColorLooking Table, CLUT).

6. Ausgabe: (Bitmatrix, a’, b’) für jeden Block

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-50

Dekompression bei CCC

Die Dekompression funktioniert für jeden Block wie folgt:

PCLUT a falls B

CLUT b sonsti j

i j

'[ ' ]

[ ' ],

,

==

1

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-51

Funktionsweise von CCC

a'

b'

RGB

...CCC

CLUT

RGB

RGB

RGB

RGB

RGB

RGB

RGB

RGBRGB RGB RGB

RGB

RGB

RGB

RGB

RGB

RGB

RGB

RGBRGB

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-52

Extended Color Cell Compression (XCCC)

Eine Erweiterung von CCC zur weiteren Verbesserungder Kompressionsrate.

IdeeHierarchie von Blockgrößen. Man versucht zunächst, ei-nen großen Block mit CCC zu codieren. Wenn die Ab-weichung der tatsächlichen Farbwerte im Block von a‘oder b‘ größer ist als ein vorgegebener Schwellenwert,wird der Block in vier Teilblöcke zerlegt. Der Algorithmusarbeitet rekursiv.

3 a b 64 bit

3 a b 64 bit

3 a b 64 bit

2 a b 16 bit

a b 16 bit

a b 16 bit

a b 16 bit

1 2

34 5

67

1 2 3

4 5 6 7

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-53

JPEG

Die Joint Photographic Experts Group (Komitee derISO) hat einen sehr effizienten Kompressionsalgorith-mus entwickelt, der nach ihr benannt ist. JPEG hat bei-spielsweise im WWW eine sehr weite Verbreitung ge-funden.

Kompression in vier Schritten:

1. Bildaufbereitung

2. Diskrete Cosinus-Transformation (DCT)

3. Quantisierung

4. Entropie-Kodierung

Der DCT-basierte Kodierungsprozeß

8 x 8 blocks

Source Image Data

DCT-Based Encoder

FDCT Quantizer EntropyEncoder

CompressedImage Data

TableSpeci-fication

TableSpeci-fication

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-54

JPEG "Baseline" Mode

Ein Kompressionsverfahren auf der Basis einer Trans-formation aus der Zeitdomäne in die Frequenzdomäne

BildtransformationFDCT (Forward Discrete Cosine Transformation). Sehrähnlich der Fourier-Transformation. Wird auf jedenBlock von 8x8 Pixeln einzeln angewendet.

Svu =

14

C C sx u y v

u v yxyx ==∑∑ + +

0

7

0

7 2 116

2 116

cos( )

cos( )π π

mit

C Cu v, = 1

2 für u, v = 0;C Cu v, = 1 sonst

64 mal anwenden, ergibt 64 Koeffizienten in der Fre-quenzdomäne

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-55

Quantisierung

Anzahl der Quantisierungsstufen je DCT-Koeffizient ein-zeln einstellbar (Q-Faktor). Dies geschieht durch Anga-be einer Quantisierungstabelle.

Entropiekodierung

1. DC-Koeffizient sehr wichtig (Grundfarbton). Codie-rung durch Differenzbildung zu vorherigem DC-Koeffizienten.

2. AC-Koeffizienten, Abarbeitung in „Zick-Zack“-Reihenfolge, Lauflängenkodierung

3. Huffman-Codierung

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-56

Quantisierung und Entropie-Codierung

entropyencoder

AC63 AC1

DCi = DCi - DCi-1

quant.

DCT

coeff.

DCi DCi-1zig-zagreordering

Das Zickzack-Auslesen der Koeffizienten ist besser alsein zeilenweises Auslesen. Grund: Nach der Quantisie-rung kommen in der rechten unteren Dreiecksmatrixviele gleiche Werte nacheinander vor, darunter vieleNullen (Amplituden mit zunehmender Frequenz ent-sprechen schärfer werdenden Kanten). Die Zickzack-Anordnung maximiert die Lauflängen für die anschlie-ßende Entropie-Codierung (Lauflängencodierung, ge-folgt von Huffman-Codierung)

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-57

JPEG Decoder

Reconstructed Image Data

DCT-Based Decoder

IDCTDe-quantizer

EntropyDecoder

CompressedImage Data

TableSpeci-fication

TableSpeci-fication

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-58

Verschiedene Modi in JPEG

JPEG Sequential Mode

JPEG Progressive Mode

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-59

Quantisierungsfaktor und Bildqualität

Bildbeispiel 1

Schloß, Original

Schloß, Q=6

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-60

Schloß, Q=12

Schloß, Q=20

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-61

Bildbeispiel 2

Blumen, Original

Blumen, Q=6

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-62

Blumen, Q=12

Blumen, Q=20

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-63

2.2.4 Bildkompression mit Fraktalen

Theorie der Fraktale = Theorie der Selbstähnlichkeit .Mathematisch beschreibbar.

Beispiel: Küstenlinie einer Insel

Idee für die Bildkompression:

• Häufig ist ein Ausschnitt aus einem Bild einem ande-ren Ausschnitt ähnlich. Genauer: Er kann unter An-wendung von einfachen mathematischen Operationenaus dem anderen Ausschnitt errechnet werden(Translation, Rotation, Skalierung)

• Codierung: Ausgabe des ersten Bildausschnitts sowiefür die ähnlichen Bildausschnitte Ausgabe der Trans-formationsoperationen.

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-64

Bildkompression mit Fraktalen

Beispiel

Ave

rage

& S

ubsa

mpl

ing

originalblock

transformedblock

Offset

Rot

ate

Contrast

Literatur:

M.F. Barnsley, L.P. Hurd:Bildkompression mit FraktalenVieweg-Verlag, 1996

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-65

2.3 Kompressionsverfahren für Video

2.3.1 MPEG

Moving Picture Experts Group (Komitee der ISO).MPEG konzentriert sich nicht nur auf Videodaten, son-dern behandelt auch die damit verbundenen Audioströ-me. Ziel von MPEG-I: ein Videosignal soll samt Audiobei annehmbarer Qualität mit 1,5 Mbit/s komprimiertwerden. (Datenrate einer T1-Verbindung in den USA).

Ähnlich wie JPEG sollte MPEG ein möglichst allgemei-ner Standard werden, der viele Anwendungen unter-stützt:

• Generalität

• Flexibilität

• Effizienz

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-66

Entwurfsziele des MPEG-1-Videokompressionsalgorithmus

• Wahlfreier Zugriff innerhalb von 1/2 Sekunde ohne si-gnifikanten Qualitätsverlust

• schnelle Vorwärts-/Rückwärtssuche

• Bildfolge kann rückwärts abgespielt werden

• gute Editierbarkeit

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-67

MPEG - Videokodierung

Vier Frame-Typen in MPEG-1:

I-Frame (Intra Picture)Intra-codiertes Vollbild, sehr ähnlich dem JPEG-Standbild, codiert mit DCT, Quantisierung, Lauflängeund Huffman

P-Bild (Predicted Picture)Bezug auf vorherige I- und P-Bilder.Delta-Codierung, DPCM-kodierte MakroblöckeBewegungsvektoren möglich

B-Bild (Interpolated Picture)"bidirectionally predictive coded pictures", Bezug auchzu nachfolgenden Bildernauch Interpolation zwischen Makroblöcken möglich

D-Bild"DC coded picture", nur DC-Koeffizienten der Blöcke(linke obere Ecke der Koeffizienten-Matrix) für schnellenVorlauf

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-68

„Group of Pictures“ in MPEG

Die Folge von I, P und B-Bildern ist nicht standardisiert,sondern kann von der Anwendung bestimmt werden. Solassen sich Bildqualität und Kompressionsrate anwen-dungsabhängig wählen.

IB

B

PB

B

I

P

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-69

MPEG-Encoder

videoin DCT quantizer entropy

inverse quantizer

IDCT

intra/inter

previouspicture store

motion comp. predictor

futurepicture store

motionestimator

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-70

MPEG-Decoder

bit

stream

buffer entropydecoder

inversequantizer

IDCT

videoout

motioncompens.predictor

previouspicture store

futurepicture store

motionvectors

picturetype

motion vectors

inter/intra

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-71

Zeitliche Redundanz und Bewegungsvektoren

"Motion Compensated Interpolation"

A

B

C

previous frame

current frame

future frame

block-matching technique

1. block B = block A2. block B = block C3. block B = (block A+ block C) / 2

Der Suchradius (search range) kann bei der MPEG-Codierung als Parameter eingestellt werden. Je größerder Suchradius, desto besser das Kompressionspoten-tial, aber desto länger auch die Laufzeit.

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-72

MPEG-1 “Constraint Parameter Set“

Im Prinzip ist der MPEG-Standard sehr flexibel, wasaber die Implementierung standardkonformer Decodererschwert. Deshalb wurde ein „Constraint ParameterSet“ standardisiert. Jeder MPEG-Encoder und -Decodermuß diesen Einschränkungen entsprechend operierenkönnen, auch Hardwareimplementierungen.

horizontal size <= 720 pixelsvertical size <= 576 pixelstotal number of macro-blocks/picture

<= 396

total number of macroblocks/s <= 396*25 = 330*30picture rate <= 30 frames/sbit rate <= 1.86 Mbits/sdecoder buffer <= 376832 bits

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-73

MPEG-2

MPEG-2 erweitert MPEG-1 für höhere Bandbreiten undbesser Bildqualität, bis hin zu HDTV. Es wurde gemein-sam von ISO und ITU entwickelt (H.262).

Erstmals sieht MPEG-2 auch skalierbare Datenströmevor, die zur Bedienung von Empfängern verschiedenerLeistungsklassen effizient eingesetzt werden können.

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-74

MPEG-2 Video-Profil

Simple pro-

file

no B frames

not scalable

Main profile

B frames

not scalable

SNR scalable

profile

B frames

SNR scalable

Spatially

scalable pro-

file

B frames

SNR scalable

High profile

B frames

spatial or

SNR scalable

High level

1920x1152x60

≤80 Mbits/s ≤100 Mbits/s

High-1440 level

1440x1152x60

≤60 Mbits/s ≤60 Mbits/s ≤80 Mbits/s

Main level

720x576x30

≤15 Mbits/s ≤15 Mbits/s ≤15 Mbits/s ≤20 Mbits/s

Low level

352x288x30

≤4 Mbits/s ≤4 Mbits/s

Skalierbare Codierung = Codierung in Schichten (layers)base layer: niedrigste Qualitätenhancement layers: Nachbesserung der QualitätSNR scaling: enhancement layer enthält bei-

spielsweise Chroma-Daten in hö-herer Auflösung

Spatial scaling: Erhöhung der Pixeldichte

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-75

MPEG-4

Ursprünglich planten ISO und ITU einen StandardMPEG-3 für HDTV-Qualität bei sehr hohen Datenraten.Dieser wurde inzwischen in MPEG-2 integriert und somithinfällig.

Für MPEG-4 war zunächst an Video für sehr niedrigeBandbreiten gedacht (z.B. Multimedia für Mobilfunk). In-zwischen wird nach einer radikalen Kehrtwendung imNormungsgremium an einer Einzelobjekt-Codierung ge-arbeitet. Das Bild wird in einzelne Objekte segmentiert.Für jedes Objekt kann die Codierungstechnik getrenntgewählt werden. Die objektorientierte Codierung eröffnetzugleich völlig neue Möglichkeiten zur Weiterverarbei-tung beim Empfänger.

Die Verabschiedung von MPEG-4 als InternationalStandard wird für Ende 1998 erwartet.

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-76

2.3.2 ITU Recommendation H.261

Auch bekannt als „p*64kbit/s“

• Ein Verfahren zur Videokodierung für audiovisuelleDienste bei einer Bitübertragungsrate von p x 64 Kbit/s

• Gedacht für ISDN

• Für den Parameter p gilt:

• p ist aus [1,30]

• p klein (p=1, p=2): Bildtelefon (schlechte Qualität)

• p groß (ab p=6): auch Videokonferenz (mittlereQualität)

• heute gebräuchlich: p=2, p=6

• Intraframe-Coding: DCT-basiert (wie JPEG)

• Interframe-Coding: DPCM-basiert

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-77

Videocodierung in H.261

Die fundamentalen Ideen sind denen in JPEG undMPEG gleich. H.261 ist weniger flexibel, dafür aberleichter standardkonform implementierbar.

Es werden genau drei Komponenten codiert, nämlich Y,Cb und Cr, jeweils blockweise mit 8x8 Pixels pro Block.Die Helligkeit Y wird mit voller Auflösung codiert, diebeiden Chroma-Komponenten jeweils mit halber Auflö-sung in horizontaler und vertikaler Richtung (4:2:0-Modell).

Es gibt nur zwei Bildformate:

CIF (Common Intermediate Format): 352x 288

QCIF (Quarter CIF): 176x144

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-78

Die wichtigsten Parameter von H.261

Die beiden Bildformate

CIF(Breite x Höhe)

QCIF(Breite x Höhe)

Y 352 x 288 176 x 144Cb 176 x 144 88 x 72Cr 176 x 144 88 x 72

Die Hierarchie der Blockstrukturen

Strukturelement Beschreibungpicture one video picture (frame)group of blocks 33 macro blocksmacro block 16 x 16 Y, 8 x 8 Cb, Cr

block 8 x 8 pixels (coding unit forDCT)

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-79

Die Funktionsweise eines H.261-Encoders

CIF or QCIF

block, MB,GOB

block = 8 x 8 pixelsMB = 6 blocksGOB = 3 x 11 MBs

8x8 DCT quantizer entropy

comp.data

inversequantizer

IDCT

motioncompensation

motion vector1 vector/MB

loopfilter

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-80

Status von H.261

Implementierungen in Hardware und Software verfüg-bar. Fast alle Bildtelefon-Hersteller haben inzwischenproprietäre Lösungen aufgegeben und auf H.261 umge-stellt. PC-Lösungen sind auf dem Vormarsch.

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-81

2.4 Audio-Kompression

2.4.1 Grundlagen digitaler Audioströme

Audiosignale sind analoge Wellenverläufe. Die charak-teristischen Eigenschaften werden im wesentlichen vonder Frequenz (Tonhöhe) und von der Amplitude (Laut-stärke) bestimmt.

Vor der weiteren Verarbeitung im Rechner müssen dieanalogen Wellenverläufe in digitale Signale transfor-miert werden. Dies geschieht durch Abtastung .

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-82

Abtastung

Der zum Abtastzeitpunkt vorliegende Momentan-Wertdes Analogsignals wird der Analog-Digital-Umsetzungunterworfen. Praktisch wichtig ist vor allem die periodi-sche Abtastung.

Abtasttheorem von Shannon und Raabe (1939)

Zur fehlerfreien Rekonstruktion des Signalverlaufs derabgetasteten Analogsignale ist eine Mindestabtast-häufigkeit (Abtastfrequenz fA) erforderlich (bei periodi-schem Abtastzyklus).

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-83

Abtasttheorem

Eine Signalfunktion, die nur Frequenzen im Frequenz-band B (bandgegrenztes Signal) enthält, wobei B gleich-zeitig die höchste Signalfrequenz ist, wird durch ihre dis-kreten Amplitudenwerte im Zeitabstand

t0 = 1

2B

vollständig bestimmt.

Andere Formulierung:Die Abtastfrequenz fA muß doppelt so hoch sein wie diehöchste im abzutastenden Signal vorkommende Fre-quenz fS

fA = 2 fS

Abtastung und Quantisierung sind voneinander unab-hängig zu betrachten. Eine exakte Rekonstruktion desZeitverlaufs (bzw. des Frequenzspektrums) sagt nichtsüber den Fehlergrad bei der Signalwertdiskretisierung(Quantisierung) aus.

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-84

Verschiedene Abtastfrequenzen

i n p u tw a v e fo rm

( a ) S am p l in g ra te is m u ch h ig h e r th a n s ig n a l f re q u en c y

in p u tw a v e fo r m

c lo c k

c lo c k

sa m p le do u tp u t

sa m p le do u tp u t

(b ) S a m p ling r a te is l o w e r tha n s ig n a l f re qu e n c y

in p u tw a v e fo r m

c lo c k

sa m p le do u tp u t

(c ) S a m p l in g ra te i s a t t h e N yq u is t l im it

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-85

Quantisierung

Der gesamte Wertebereich des Analogsignals wird ineine endliche Anzahl von Intervallen Quantisierungsin-tervallen) eingeteilt, denen jeweils ein fester diskreterWert zugeordnet wird. Da alle in ein Quantisierungsin-tervall fallenden Analogwerte demselben diskretenWert zugeordnet werden, entsteht ein Quantisierungs-fehler.

obere Entscheidungsgrenze

Quantisierungs-intervallgröße a

untere Entscheidungsgrenze

a

a/2

a/2

Quantisierungintervall für die Zuordnung eines diskretenWertes zu allen zwischen + a/2 und - a/2 liegendenWerten einer Analogdarstellung.Rückwandlung:Beim Empfänger wird ein Analogwert rückgewonnen(Digital-Analog-Umsetzung), der dem in der Mitte desQuantisierungsintervalls liegenden Analogwert ent-spricht.Maximaler Quantisierungsfehler: a/2

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-86

Codierung

Die Quantisierungsintervalle werden durch die Zuord-nung eines - im Prinzip frei wählbaren - (Binär-) Codesgekennzeichnet und unterschieden. Anstelle des ur-sprünglichen Analogsignals wird die - mit dem Quanti-sierungsfehler behaftete - digitale Darstellung übertra-gen.

Im einfachsten Fall wird ein reiner Binärcode Darstel-lung als Binärzahl) als Codierung des diskreten Digital-wertes gewählt.

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-87

2.4.2 Pulse Code Modulation

Die Zusammenfassung der Schritte

AbtastungQuantisierungCodierung

und die Darstellung der gewonnenen Codewörter als di-gitale Basisbandsignale am Ausgang des PCM-A/D-Umsetzers ist Grundlage der in großem Umfang einge-setzen PCM-Technik .

Die A/D-Umsetzung (Abtastung/Quantisierung) und Co-dierung sowie die Rückkonvertierung erfolgt im soge-nannten CODEC (Codierer/ Decodierer) .

Analog-signale

CODEC

PCM-SignaleAnalog-signale

CODEC

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-88

PCM-Fernspechkanal

Ausgangspunkt: Analoger CCITT-FernsprechkanalFrequenzlage 300-3400 HzBandbreite 3100 Hz

Abtastfrequenz: fA = 8 kHz

Abtastperiode: TA = 1/ fA = 1/8000 Hz =125µs

Die vom CCITT gewählte Abtastfrequenz ist höher alsnach Shannon-Abtasttheorem erforderlich: 3400Hz obe-re Bandgrenze ergibt 6800 Hz Abtastfrequenz.Für die höhere Abtastfrequenz gibt es technische Grün-de (Filtereinfluß, Kanaltrennung usw.).

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-89

Frequenzspektrum eines Signals

Bandbegrenztes SignalSignale können ein „natürlich“ begrenztes - kontinuierli-ches - Frequenzspektrum umfassen oder durch techni-sche Mittel auf einen Ausschnitt ihres Spektrums be-grenzt werden (Filter).

2000 4000 6000 8000 10000 12000

10

20

30

40

0

Energie (dezibel)

Frequenzen (Hz)3100 Hz

300 Hz 3400 Hz

Kontinuierliches Frequenzspektrum der menschlichenStimme und Bandbreite des CCITT-Standardtelefonka-nals.

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-90

Amplitudenquantisierung

Die Zahl der benötigten Quantisierungsintervalle wirdbei der akustischen Sprachkommunikation (Fernspre-chen) durch den Grad der Silbenverständlichkeit beimEmpfänger bestimmt.

Mit „Sicherheitszuschlag“ wurden vom CCITT 256Quantisierungsintervalle genormt.

Bei binärer Codierung ergibt dies 8 Bits pro Abtastung.

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-91

Die Übertragungsgeschwindigkeit (Bitrate) für einen di-gitalisierten PCM-Fensprechkanal ist demnach

Bitrate = Abtastfrequenz x Codewortlängekbit/s = 8000/s x 8 bit

= 64 kbit/s

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-92

Ungleichförmige Quantisierung

Bei gleichförmiger Quantisierung sind alle Intervallegleich groß und vom Momentanwert des Signals unab-hängig. Quantisierungsfehler machen sich bei gleich-förmiger Quantisierung bei kleinen Signalwerten sehrstark bemerkbar (Quantisierungsrauschen).

Bei ungleichförmiger Quantisierung sind die Quantisie-rungsintervalle bei großer Signalamplitude größer undbei kleiner Amplitude kleiner.

Die ungleichförmige Intervallgröße wird durch einendem Quantisierer vorgeschalteten (Signal-) Kompressorerzielt. Auf der Empfangsseite wird in inverser Funktionein Expander eingesetzt. Er dient zur Wiederherstellungder ursprünglichen Größenverteilung der Signale (Dy-namik der Signale).

Als Kompressionskennlinien werden logarithmischeKennlinien verwendet, die schaltungstechnisch durch li-neare Teilstücke approximiert werden.

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-93

13-Segment-Kompressorkennlinie

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-94

Delta-ModulationStatt der Absolutwerte der Amplitude werden die Wert-differenzen codiert.

15

14

13

12

11

10 9 8

7

6

5

4

3

2

1 0

Signal ändertsich zu schnell;Kodierung kommt nichtnach

Aufeinander-folgendeAbtast-werte ändernsich immer um +/- 1

Dig

italis

ieru

ngss

tufe

1 0 1 1 1 1 0 0 0 0 0 0 0 1 1 1 1

Abtast-intervall

Zeit

Bitstrom

Codierung:

1 = steigendes Signal

0 = fallendes Signal

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-95

Differentielle PCM (DPCM)

Differenz zweier PCM-Werte wird codiert. Ergibt kleinereWerte, geringere Bitrate, aber Quantisierungsfehler beischnellen Signalschwankungen.

Adaptive DPCM (ADPCM)

Die Quantisierungstabelle ändert sich mit den tatsächli-chen Signalschwankungen. Der Empfänger kann dieseTabellenänderung dynamisch nachvollziehen. Bei klei-nen Signalschwankungen wird mit weniger bit/s übertra-gen als bei großen Signalschwankungen. Dadurch kannbeispielsweise eine Kompression von 1,4 Mbit/s auf 0,2Mbit/s bei vergleichbarer Qualität möglich werden.

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-96

Gebräuchliche Sampling-Parameter

8 kHz Telefon-Standard, µ-law encoding, SUN Audio32 kHz Digital Radio, NICAM, (DAT)44,1 kHz CD48 kHz Digital Audio Tape (DAT)

Sampling-Breite:

8 bit 256 Amplituden-Stufen (Sprache)16 bit 65536 Amplituden-Stufen (HiFi)

A U D IOIN

L ow -P a ssF ilte r C o m p u te r D /A L o w -P a ss

F ilte rA U D IO

O U T

E x te rn a l M e m o ry

A /D

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-97

Beispiel für Audio-Parameter

Signal: 20 kHz Bandbreite (HiFi)Sampling Rate: 44,1 kHzSampling Breite: 15 bit

Datenrate:

mono 0,7 M bit/sstereo 1,4 M bit/s

Das ist die Datenrate des CD-Players!

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-98

Beispiel für eine Audio-Codierung

Puls-Code-Modulation (PCM)üblich: nichtlineare QuantisierungA/D Wandler: 13 (14) bitAbbildung auf 8 bit mit logarithmischer Kennlinie: A-law(µ-law)

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-99

2.4.3 Psycho-akustische Modelle

"Irrelevanzreduktion"

Ausnutzung des Auflösungsvermögens des menschli-chen Ohres

Verdeckungseffekt

• Mithörschwelle, frequenz- und pegelabhängig

80 dB

60

40

20

0

LT

f T

0,020,05

0,10,2

0,51 2 5 10 20 kHz

f = 0,25m 4 kHz1

1, 2

Daten, die das Ohr sowieso nicht hören würde, werdenschon an der Quelle herausgefiltert.

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-

100

Beispiel: MPEG Audio

Merkmale

Kompression auf 32, 64, 96, 128 oder 192 kBit/s

Audiokanäle:

• Mono oder

• 2 unabhängige Kanäle oder

• "Joint Stereo"

Verfahren

• Abtastrate 32 kHz, 44,1 kHz oder 48 kHz

• 16 Bits pro Abtastwert

• Verzögerung durch Codieren und Decodieren höch-stens 80 ms bei 128 kbit/s

• psychoakustisches Modell steuert die Quantisie-rung

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-

101

Zwei Verfahren in MPEG-Audio

MUSICAM ASPEC

Masking Pattern UniversalSubband Integrated CodingAnd Multiplexing

Advanced spectralEntropy Coding

Institut für RundfunktechnikMünchen

FhG Erlangen

Teilbandcodierung dynamische Frequenz-bänder (überlappend)Entropiecodierung(Huffman)

einfacher Aufbau sehr gute Ergebnisse beiniedrigen Bitraten

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-

102

Funktionsweise eines MPEG-Audio-Encodersund -Decoders

Digital AudioSignal (PCM)

Time/Frequency

Quantizer and Coding

FramePacking

Psychoacoustic Model

ISO/MPEG/AUDIO Bitstream

Mapping

Digital AudioSignal (PCM)

ISO/MPEG/AUDIO Bitstream

FrameUnpacking

ReconstructionFrequency/ T i m eMapping

Multimedia

Technik

Prof. Dr. W.

Effelsberg

Kompressionsverfahren Kapitelnummer 2-

103

Drei Schichten in MPEG Audio

I Teilbandcodierung mit 32 Bändern nach MUSICAM

• hohe DatenrateII Teilbandcodierung nach MUSICAM,

aufwendigeres psycho-akustisches Modellbessere Bestimmung der Skalierungsfaktoren

• mittlere DatenrateIII Transformationscodierung mit max. 512 dynami-

schen Fenstern und Entropiecodierung nachASPEC

• niedrigste Datenrate

Recommended