ATRAC: Adaptive Transform Acoustic Coding dla MiniDisc


ATRAC: Adaptive Transform Acoustic Coding for MiniDisc
Copyright © By Kyoya Tsutsui,Hiroshi Suzuki,Osamu Shimoyoshi,Mito Sonohara,Kenzo Akagiri,Robert M. Heddle
For original English text, go to: http://www.minidisc.org/aes_atrac.html

Sony Corporate Research Laboratories
07.06.35 Kitashinagawa, Shinagawa-ku, Tokio 141 Japonia

Przedruk z 93. Audio Engineering Society konwencji w San Francisco, 1992 października 04/1

Abstrakcyjny
ATRAC jest kodowania dźwięku system oparty na zasadzie psychoakustyki. Sygnał wejściowy jest podzielona na trzy podpasm, które są następnie przekształcane w dziedzinie częstotliwości za pomocą zmiennej długości bloku. Przekształcają współczynniki są grupowane w celu odzwierciedlenia niejednolite zespołów ludzkiego układu słuchowego, a następnie kwantyzacji na podstawie dynamicznego wrażliwości i charakterystyki maskujących. ATRAC kompresuje kompaktowe płyty audio do około 1/5 pierwotnej szybkości przesyłania danych praktycznie bez utraty jakości dźwięku.
1 Wstęp
Ostatnio nastąpił wzrost popytu dla przenośnego nagrywalnych nośników wysokiej jakości cyfrowego dźwięku. System został opracowany MiniDisc, aby sprostać temu zapotrzebowaniu. MiniDisc opiera się na 64 mm optycznego lub magneto-optycznej dysk, który ma około 1/5 do przechowywania danych pojemności standardowej płyty kompaktowej. Pomimo zmniejszonej pojemności, konieczne było, że MiniDisc utrzymać wysoką jakość dźwięku i czas odtwarzania 74 minut. ATRAC (Adaptive Transform Acoustic Coding) System kompresji danych został do nich zaprojektowane, aby spełnić następujące kryteria:

Kompresja 16-bitowa 44,1 kHz audio stereo do mniej niż 1/5 pierwotnej szybkości przesyłania danych z minimalnym obniżenia jakości dźwięku.
Proste i tanie wdrożenie sprzęt nadaje się do przenośnych odtwarzaczy oraz nagrywarek.

Kiedy cyfrowych danych audio jest skompresowany, nie jest zwykle pewna ilość szumu kwantyzacji wprowadzone do sygnału. Celem wielu systemów audio kodujących [1-6] jest kontrola czasu częstotliwości podziału tego hałasu w taki sposób, aby uczynić ją niesłyszalny dla ludzkiego ucha. Jeśli jest to całkowicie udany, zrekonstruowany sygnał będzie nie do odróżnienia od oryginału.

W ogóle, audio kodery działać przez rozkład sygnału na zbiór jednostek, z których każdy odpowiada w pewnym zakresie w czasie i częstotliwości. Korzystając z tego czasu, częstotliwości podziału, sygnał jest analizowany według psychoakustyki zasad. Analiza ta wskazuje, które jednostki są niezbędne i muszą być zakodowane z dużą precyzją, a które jednostki są mniej wrażliwe i może tolerować szum kwantyzacji bez pogorszenia jakości postrzeganej dźwięku. Na podstawie tych informacji, dostępne bity są przeznaczone na czas częstotliwości jednostek. W widmowe współczynniki w każdej jednostce są następnie kwantyzacji przy użyciu przeznaczonych bitów. W dekoderze, skwantowane Widma przebudowany według alokacji bitów a następnie syntetyzowana w sygnał dźwiękowy.

System ATRAC działa jak wyżej, z kilkoma ulepszeniami. ATRAC korzysta psychoakustyką nie tylko w bitowego algorytmu alokacji, ale także w czasie częstotliwości podziału. Za pomocą kombinacji kodowania podpasma i przekształcić kodowanie techniki, sygnał wejściowy jest analizowany w niejednolite podziały częstotliwości, które podkreślają ważne niskiej częstotliwości regionów. Ponadto, ATRAC korzysta długość bloku transformacji, który dostosowuje się do sygnału wejściowego. Zapewnia to wydajne kodowanie stacjonarnych fragmentów bez utraty rozdzielczości czasowej podczas przemijających fragmentów.

Niniejszy artykuł rozpoczyna się od przeglądu odpowiednich zasad psychoakustyki. Koder ATRAC jest następnie określane są w kategoriach czasu, częstotliwości podziału, kwantowanie współczynników widmowych i alokacji bitów. Wreszcie dekodera ATRAC jest opisana.
2 Psychoakustyką
2.1 Equi-głośności Krzywe

Czułość ucha zmienia się wraz z częstotliwością. Ucho jest najbardziej wrażliwe na częstotliwości w okolicach 4 kHz, poziom ciśnienia akustycznego, które są tylko wykrywalne w 4 kHz nie są wykrywalne przy innych częstotliwościach. Ogólnie rzecz biorąc, dwa tony o jednakowej mocy ale częstotliwość innego nie zabrzmi tak samo głośno. Postrzegane głośności dźwięku może być wyrażona w sones, gdzie 1 son jest zdefiniowany jako głośności o 40 ton dB dla 1 kHz. Equi-krzywe głośności na kilku poziomach głośności są pokazane na rysunku 1. Krzywa oznaczona jako “próg słuchu w spokoju” oznacza minimalny poziom (z definicji, 0 Sone), przy którym ucho może wykryć sygnału na danej częstotliwości.

Krzywe te wskazują, że ucho jest bardziej wrażliwe na niektórych częstotliwościach niż jest to w innych. Zniekształcenia w nieczułych częstotliwości będzie mniej słyszalny niż na wrażliwych częstotliwości.
2,2 Maskowanie
Maskowanie [7] ma miejsce, gdy jeden dźwięk staje niesłyszalne przez drugiego. Jednoczesne maskowanie występuje, gdy dwa dźwięki występują w tym samym czasie, np. gdy rozmowa (zamaskowany sygnał) staje niesłyszalne przez przejeżdżającego pociągu ust Maski). Wstecz maskowanie występuje wtedy, gdy zamaskowany sygnał kończy przed Maski zaczyna; naprzód maskowanie występuje wtedy, gdy zamaskowany sygnał rozpoczyna się po Maski została zakończona.

Maskowanie staje się silniejszy dwa dźwięki zbliżyć się razem w czasie i częstotliwości. Na przykład, jednoczesne maskowanie jest silniejsza niż do przodu lub do tyłu maskowania ponieważ dźwięki występują w tym samym czasie. Eksperymenty maskujące są zazwyczaj wykonywane za pomocą wąskiego pasma białego szumu jako sygnału maskującego, i mierząc tuż-dźwiękowy poziomu czystego dźwięku w różnych czasach i częstotliwości. Przykłady jednoczesnego zabezpieczania i maskowania czasowej są pokazane na rysunkach 2 i 3 odpowiednio.

Ważne wnioski można wyciągnąć z tych wykresów. Po pierwsze, jednoczesne maskujący jest bardziej skuteczna, gdy częstotliwość zamaskowanego sygnału jest równa lub wyższa niż Maski. Po drugie, podczas gdy naprzód maskowanie jest skuteczna przez długi czas po Maski zatrzymał się do tyłu Maskowanie może być skuteczna tylko mniej niż 2 lub 3 ms przed początkiem Maski.
2.3 Krytyczne Zespoły
Krytyczne zespoły [7] powstał z myślą, że ucho analizuje zakresie częstotliwości słyszalnych za pomocą zestawu podpasm. Częstotliwości w obrębie krytycznego zespołu są podobne pod względem ucha, percepcji i przetwarzane są oddzielnie od innych krytycznych zespołów. Krytyczne zespoły pojawiły się naturalnie z eksperymentów ludzkiego słuchu i może również pochodzić z podziału komórki zmysłowe w uchu wewnętrznym. Krytyczne zespoły mogą być traktowane jak skala częstotliwości używanych przez ucho [8].

Krytyczny skala zespół przedstawiono w tabeli 1. Jest oczywiste, że krytyczne zespoły są znacznie węższe przy niższych częstotliwościach niż przy wysokich częstotliwościach, w rzeczywistości trzy czwarte krytycznych pasmach znajdują się poniżej 5 kHz. Oznacza to, że ucho odbiera więcej informacji z niskich częstotliwościach i mniej od wyższych częstotliwościach.

Tabela 1: Dyskretny krytyczne pasma [7] Critical
Pasmo częstotliwości (Hz) krytyczna
Pasmo częstotliwości (Hz)
Niska Wysoka Niska Wysoka Szerokość Szerokość
0 0 100 100 13 2000 2320 320
1 100 200 100 14 2320 2700 380
2 200 300 100 15 2700 3150 450
3 300 400 100 16 3150 3700 550
4 400 510 110 17 3700 4400 700
5 510 630 120 18 4400 5300 900
6 630 770 140 19 5300 6400 1100
7 770 920 150 20 6400 7700 1300
8 920 +1080 160 21 7,7 tysiąc 9500 1800
9 1080 1270 190 22 9500 1200 0 2500
10 1270 1480 210 23 1200 0 15500 3500
11 1480 1720 240 24 1550 0 22050 6550
12 1720 2000 280

3 Encoder ATRAC
Schemat blokowy struktury kodera pokazano na rysunku 4. Koder składa się z trzech części. Blok analiza rozkłada się sygnał na widmowych współczynników pogrupowanych w bloku pływających jednostek (BFU-tych). Blok alokacji bitów dzieli dostępne bity między BFU-tych, przeznaczenia mniej bitów do niewrażliwych jednostek. Blok kwantyzacji quantizes każdy widmowej współczynnika do określonego długość słowa.

3,1 Time-Frequency Analysis
Blok ten (Rysunek 6) generuje BFU-tych w trzech etapach, łącząc techniki kodowania z podpasma i przekształcić kodowania. Po pierwsze, sygnał jest podzielone na trzy podpasm: są 0-5.5 kHz, 5.5-11 kHz, a 22/11 kHz. Każdy z tych podpasm jest następnie przekształcone w dziedzinie częstotliwości, tworząc zestaw widmowych współczynników. Wreszcie, te widmowe współczynniki są grupowane w nierównomiernie BFU-tych.

Podpasma rozkładu odbywa się za pomocą kwadratury Filtry lustrzane (QMF-tych) [0-10]. Sygnał wejściowy jest podzielony na górnej i dolnej częstotliwości w pierwszym qmf i niższe pasmo podzielone ponownie w drugim qmf. Korzystanie z qmf zagwarantuje czas domeną aliasing spowodowane rozkładem podpasma zostaną anulowane w trakcie przebudowy.

Każdy z trzech podpasm jest następnie przekształcone w dziedzinie częstotliwości za pomocą zmodyfikowanego cosinus transformacji (MDCT) [11-12]. MDCT umożliwia aż do 50% pokrywają się w czasie domeny Windows, co prowadzi do lepszej rozdzielczości częstotliwości przy zachowaniu krytycznego próbkowania. Zamiast stałej długości transformacji bloku jednak, ATRAC wybiera długość bloku adaptacyjny w oparciu o charakterystyki sygnału w każdym przedziale. Istnieją dwa tryby: tryb Long (11,6 ms) i krótki tryb (1,45 ms w wysokim paśmie częstotliwości, 2,9 ms w innych). Zwykle długo tryb służy do zapewnienia dobrą rozdzielczość częstotliwości. Jednak mogą wystąpić problemy podczas części ataku sygnału. Konkretnie, szum kwantyzacji jest rozłożona na całego bloku sygnału, a początkowy szum kwantyzacji nie jest maskowany (rys. 8a); ten problem nazywa się pre-echo. W celu uniknięcia pre-echo, ATRAC przełącza się na skróconej (8b Rysunek), gdy wykryje sygnał ataku. W tym przypadku, ponieważ istnieje tylko krótki odcinek z hałasem przed atakiem, hałas będzie zamaskowany przez wstecznej maskowaniem (sekcja 2.2). Wstecz maskowanie nie jest skuteczna w trybie Long ze względu na bardzo krótki czas. Tak więc, ATRAC osiąga efektywne kodowanie w stacjonarnych regionach natomiast szybkie reagowanie na przejściowe fragmentów.

Należy pamiętać, że krótki tryb nie jest konieczne do zaniku sygnału, ponieważ szum kwantyzacji będzie zamaskowany przez przodu maskowania, który trwa znacznie dłużej niż wstecznej maskowania. Dla maksymalnej elastyczności, tryb rozmiar bloku może być wybrana niezależnie dla każdego zespołu.

W MDCT widmowe współczynniki te są następnie podzielone na BFU-tych. Każda jednostka zawiera stałą liczbę współczynników. W przypadku długich trybie, jednostki odzwierciedlają 11,6 ms wąskiego pasma częstotliwości, w przypadku skróconej, każdy blok odzwierciedla krótszy czas, ale szersze pasmo częstotliwości (rysunek 9). Należy pamiętać, że stężenie BFU jest wyższa przy niskich częstotliwościach niż przy wysokich częstotliwościach, co odzwierciedla psychoakustyczne właściwości ludzkiego ucha.

3,2 Spectral Kwantyzacja
W spektralne wartości są skwantowane za pomocą dwóch parametrów: długość słowa i współczynnik skali. Współczynnik skali określa pełną skalę zakres kwantyzacji, a długość słowa określa precyzję w tym skalę. Każdy BFU ma taką samą długość słowa i współczynnik skali, odzwierciedlając psychoakustycznego podobieństwo zgrupowanych częstotliwości.

Współczynnik skali jest wybierany z ustalonej listy możliwości i odzwierciedla wielkość widmowych współczynników w każdym BFU. Długość słowa jest określana przez algorytmu alokacji bitów (rozdział 3.3).

Dla każdej ramki dźwięku (co odpowiada 512 punktów wejściowych), następujące informacje są przechowywane w płycie:

Blok MDCT tryb rozmiar (długie i krótkie).
Długość słowa danych dla każdego bloku jednostki pływającej.
Skala kod czynnikiem dla każdego bloku jednostki pływającej.
Kwantyzacji współczynników spektralnych.

W celu zagwarantowania dokładnej rekonstrukcji sygnału wejściowego, najważniejsze dane, takie jak tryb bloków, długość słowa i skalę danych dotyczących czynników mogą być przechowywane w sposób redundantny. Informacja o ilości nadmiarowych danych jest przechowywana na dysku.
3,3 Bit Allocation
Algorytm alokacji bitów dzieli dostępne bitów danych pomiędzy różnymi BFU-tych. Jednostki z dużą liczbą bitów będą miały niewielki szum kwantyzacji; jednostki z kilku bitów lub nie będzie miała znaczne ilości hałasu. Dla dobrej jakości dźwięku, bitowy algorytm alokacji musi zapewnić, że krytyczne jednostki mają wystarczających bity, a hałas w jednostkach niekrytycznych nie jest percepcyjnie znaczące.

ATRAC nie podaje bitowego algorytmu alokacji; wszelkie odpowiednie algorytm może być stosowany. Długość słowa każdego BFU jest przechowywany na MiniDisc wraz z kwanty widm, więc dekoder jest całkowicie niezależny od algorytmu podziału środków. Zapewnia to ewolucyjnej poprawy enkodera bez zmiany formatu MiniDisc lub dekodera.

Istnieje wiele możliwych algorytmów, począwszy od bardzo prostych do niezwykle skomplikowane. Przenośnych nagrywarek MiniDisc, jednak możliwości są ograniczone nieco fakt, że muszą one być realizowane na tanim energooszczędny sprzęt kompaktowej. Niemniej jednak, ATRAC jest zdolny do dobrej jakości dźwięku przy użyciu choćby prostego algorytmu alokacji bitów, pod warunkiem że jest mocno oparta na zasadzie psychoakustyki. ATRAC jest nierównomierne adaptacyjne czas częstotliwości struktura jest już oparta na psychoakustyce, odciąża w bitowego algorytmu podziału środków.

Jeden zaproponował algorytm używa kombinacji bitów stałych i zmiennych. Ustalone bity podkreślają ważne niskiej częstotliwości regiony, przydziela mniej bitów do BFU-tych w wyższych częstotliwościach. Zmienna bity są przydzielane według logarytmu widmowych współczynników w każdym BFU. Całkowita alokacja btot bit jest ważona suma stałej bitów bfix (K) i zmiennej bitów bvar k). Tak więc, dla każdego BFU k,
btot (k) = Tbvar + (1-T) bfix

T waga jest miarą tonalności sygnału, biorąc wartość bliska 1 dla czystych tonów, w pobliżu 0 dla białego szumu. Oznacza to, że część bitów stałych i zmiennych jest sama zmienna. Tak więc, dla czystych tonów, dostępne bity, będą skoncentrowane w niewielkiej liczbie BFU-tych. W przypadku sygnałów więcej hałasu, takich jak, algorytm skupi się na stałe fragmenty w celu zmniejszenia liczby bitów przeznaczonych na nieczułych wysokich częstotliwości.

Powyższe równanie nie jest związane z ogólną szybkością transmisji, a w ogóle przeznaczyć więcej bitów niż są dostępne. W celu zapewnienia stałej stopy danych, offsetu Boff (takie same dla wszystkich BFU-tych) jest obliczana. Wartość ta jest odejmowana od btot k) dla każdej jednostki, dając końcowy bitowe alokacji b (k):
b (k) = liczba całkowita {btot (k)-Boff}

Jeśli odejmowanie generuje negatywny długość słowa, to BFU jest przydzielana 0 bitów. Algorytm ten jest przedstawiony na rysunku 10.

4 dekodera ATRAC
Schemat blokowy struktury dekodera przedstawiono na rysunku 5. Dekoder 1-cia rekonstruuje MDCT widmowe współczynniki z skwantyzowanych wartości, wykorzystując długość słowa i skali parametrów czynnika. Te współczynniki widmowe są następnie wykorzystywane do odtworzenia oryginalnego sygnału audio (rysunek 7). Współczynniki są najpierw przekształcane z powrotem w dziedzinie czasu przez odwrotność MDCT ust IMDCT) albo przy użyciu długi tryb lub krótki tryb określony w parametrach. Wreszcie, trzy dziedzinie czasu sygnały są syntetyzowane w sygnału wyjściowego przez filtry qmf syntezy.

5. Wnioski
Poprzez połączenie różnych technik, w tym psychoakustyce, podpasma kodowanie i przekształcić kodowania ATRAC uda się kodowania cyfrowego dźwięku praktycznie bez pogorszenia percepcji jakości dźwięku. Testy odsłuchowe wskazują, że różnica między dźwiękiem ATRAC i źródło pierwotnej nie jest percepcyjnie przykry ani nie zmniejsza jakość dźwięku. Ponadto, system jest na tyle kompaktowa do montażu w przenośnych produktów konsumenckich. Korzystanie z ATRAC, MiniDisc stanowi praktyczne rozwiązanie dla przenośnych cyfrowego dźwięku.

6 Przypisy

MPEG / AUDIO CA11172-3, 1992.

“ASPEC (Źródło:. AT & T Bell Labs i wsp.)” Doc. Nr 89/205, ISO-IEC JTC1/SC2/WG8 MPEG-AUDIO, 18 października 1989.

R. Veldhuis, M. Breeuwer i R. van der Mur “podpasma kodowania cyfrowych sygnałów audio bez utraty jakości,” Mat. 1989 Międzynarodowa Konferencja Akustyki, mowy i przetwarzanie sygnału, Glasgow, ss. 2009-2012.

A. Sugiyama, F. Hazu, M. Iwadare i T. Nishitani “Adaptacyjne przekształcić kodowanie z adaptacyjnego rozmiar bloku (ATCABS),” Mat. 1990 Międzynarodowa Konferencja Akustyki, mowy i przetwarzanie sygnału, Albuquerque, s. 1093/96.

G. Davidson, L. Fiedler i M. Antill “Wysoka jakość dźwięku przekształcić kodowania na 128 kbit / s”, Mat. 1990 Międzynarodowa Konferencja Akustyki, mowy i przetwarzanie sygnału, Albuquerque, s. 1117/20.

G. Davidon, L. Fiedler i M. Antill “Low-Complexity przekształcić coder do zastosowań satelitarnych łączy” Audio Engineering Society 89-cie Konwencja preprint 2966, wrzesień 1990.

JS Tobias, Ed., Podstawy współczesnej teorii słuchu, Vol.. 1, Press Academic, New York, 1970.

E. Zwicker i UT Zwicker, “inżynieria dźwięku i psychoakustyką: Zestawy sygnały do ​​ostatecznego odbiorcy, ludzki układ słuchowy”. J. Audio Engineering Society, Vol.. 39 nr 3, s. 115-126, marzec 1991.

D. Estaban i C. Galand, “Zastosowanie kwadratury filtrów lustrzanych podzielić głos zespół kodowanie programów,” Mat. 1977 IEEE International Conference na akustyka, mowę i przetwarzanie sygnału, Hartford CT, s. 191-195.

PP Vaidyanathan i “Banki Quadrature filtr lustro, M-band rozszerzenia i doskonały-rekonstrukcja techniki”, IEEE ASSP Magazine, Vol.. 4, s. 4-20, lipiec 1987.

J. Princen i A. Bradley. “Analiza / synteza filtr konstrukcja zespołu na podstawie czasu domeną odwołania aliasing”, IEEE Trans. Przetwarzanie akustyczne mowy i sygnałów, Vol.. 34, s. 1153/61, 1986.

J. Princen, A. Johnson i A. Bradley, “podpasma / przekształcać kodowanie za pomocą filtrów projektów zespołu na podstawie domeną odwołania czasu aliasing,” Mat. 1987 IEEE Międzynarodowa Konferencja Akustyki, mowy i przetwarzanie sygnału, Dallas, s. 2161-2164.

Comments are closed.