MP3, MP4, OGG, AAC... cóż to wszystko znaczy? Po co tego tyle? (Wiadomo, z powodu pieniędzy). To jest muzyka, którą można mieć z internetu, ładuje się to do telefonu i słucha. I na tym można by zakończyć, lecz większość muzyki ściągniętej z przypadku brzmi kiepsko. Jeśli kogoś interesuje jakość, bynajmniej nie mająca wiele wspólnego z audiofilstwem, zapraszam do przewodnika po współczesnych formatach kompresji stratnej audio.

Nie masz czasu na czytanie...

A chciałbyś wiedzieć w jakim formacie najlepiej ściągać bądź zapisać muzykę? MP3 opisaną jako „extreme”, „insane” albo „320”.

Masz czas na czytanie...

W świecie cyfrowej muzyki zaczęło się od razu dobrze, czyli od płyty CD. Pierwszy poważny standard cyfrowego zapisu dźwięku oferował 16 bitów i pasmo ponad 20 kHz. To jest wystarczająco dużo do wszelkich zastosowań odtwórczych (to znaczy takich, gdzie z założenia w materiale audio nie zmienia się już nic). Tu mała dygresja prywatna: lansowane ostatnio 24 bity w przypadku nagrań gotowych nie mają dużego sensu. Dynamika pomieszczeń, w których odtwarza się nagrania, zwykle nie pozwala korzystać z tak dużego zakresu dynamicznego i praktycznie cała powstała muzyka znakomicie mieści się w słowie szesnastobitowym. Stawiana często za wzór dynamika płyt winylowych jest i tak znacznie mniejsza. Ostanie bity głębi dwudziestoczterobitowej przenoszą wyłącznie szum struktury czarnej płyty i elektroniki. Jeszcze gorszej jest z częstotliwościami próbkowania wyższymi od standardowej, czyli 44.1 kHz. Analizowałem wiele tak zwanych vinyl-ripów i zawsze w okolicach 20 kHz kończył się użyteczny sygnał. Potem był już tylko szum o niewielkim poziomie, ewentualnie wyższe harmoniczne, głównie trzasków i zniekształceń. Zresztą nawet jeśli ktoś zarejestrowałby czterdziestokilohercowe pasmo oryginału, człowiek tego nie usłyszy. Przeciętny człowiek nie słyszy nawet 20 kHz, zwykle granica wynosi 17-19 kHz, by na starość spaść dużo niżej. Kto nie wierzy, niech sobie zrobi test. Powinniśmy usłyszeć coś takiego, tylko znacznie wyżej. Zatem po kolei: 15 kHz, 16 kHz, 17 kHz, 18 kHz19 kHz. Jeśli któregoś z przebiegu nie słychać, to znaczy, że go nie słyszymy, a nie, że nie jest odtwarzany. Poziom przebiegów jest wystarczająco wysoki nawet dla gorszej jakości sprzętu, dlatego też proszę zachować rozsądny poziom głośności. Takim przebiegiem nietrudno spalić głośnik wysokotonowy.

Wróćmy do 16 bitów, 44.1 kHz, stereo, czyli standardowego konsumenckiego audio (opracowanie nie obejmuje standardów o wyższych parametrach ani dźwięku wielokanałowego). Problem polega na tym (nawet teraz), że godzina materiału zajmuje 600 MB. Przesyłanie takiego strumienia wymaga pasma 1.4 Mb. Dlatego powstały sposoby, żeby to pasmo zawęzić, jednocześnie pozostawiając brzmienie bliskie oryginalnemu. Sposobów jest dużo i trzeba je poznać, najlepiej używając specjalnego narzędzia.

Wredna minuta, bynajmniej nie ciszy

Po latach doświadczeń złożyłem kompilację pięciu fragmentów muzyki, mowy i spreparowanych odpowiednio szumów i sygnałów. Minuta takiej kompilacji pozwala obnażyć wszelkie niedoskonałości algorytmów kompresji. Oryginał znajduje się tutaj. Omówmy teraz kolejne fragmenty.

[0:00] Muzyka pop z dużym udziałem instrumentów akustycznych, Clannad, Legend, Ancient Forest.
Duża ilość impulsów wysokotonowych (perkusyjnych i sybilantów), pozwala wyłapać problemy z kompresją złożonych brzmień, zawierających wiele wysokich tonów.

[0:10] Muzyka symfoniczna, fragment o dużej złożoności i dynamice, Gaite Parisienne, Jacques Offenbach, Allegro Vivo.
Duża dynamika i złożoność brzmieniowa pozwala określić poziom elementów odrzuconych przez algorytmy kompresji stratnej, co najlepiej słychać w różnicy sygnałów: skompresowanego i oryginału. Ten fragment jest dobrym punktem odniesienia dla odstępu średniego od szumów, których źródłem są algorytmy kompresji.

[0:20] Muzyka fortepianowa, Nelson Goerner, Fryderyk Chopin, etiuda cis-moll op. 10 nr 4.
Fortepian pozwala określić naturalność brzmieniową algorytmów kompresji i ich skuteczność. Tę najlepiej analizować słuchając różnicy sygnałów: skompresowanego i oryginału.

[0:30] Gitara akustyczna, oba kanały identyczne, Wydawnictwo AVT, Płyta testowa audio.
Proste i klarowne brzmienie, zawierające dużą ilość elementów w wysokim paśmie, pozwala określić poziom artefaktów wprowadzanych przez algorytmy kompresujące, zwłaszcza przy niższych bitrate, poza źródłami pochodzącymi od stereofonii.

[0:40] Talerze perkusyjne, Wydawnictwo AVT, Płyta testowa audio.
Fragment o największych wymaganiach bitrate, pozwala określić minimalny poziom przepustowości pasma. W przypadku algorytmów rozmywających impulsy przy niskich bitrate, umożliwia określenie jakości efektu.

[0:50] Lektor, oba kanały identyczne, Advanced Gravis, The Ultrasound.
Fragment pozwalający ocenić jakość kompresji mowy oraz poziom szmerów przy niższych bitrate.

[0:53] Szum różowy, w obu kanałach identyczny,
Szum dość łatwo degraduje się podczas kompresji stratnej i pozwala określić jakość pracy poszczególnych algorytmów nawet osobom o niewykształconym słuchu muzycznym.

[0:54] Szum różowy, w każdym kanale inny (pełna stereofonia),
W przypadku kompresorów korzystających z sum i różnic kanałowych (pracujących w trybie joint stereo), pozwala określić odporność na sygnały, w których brak jest części wspólnej obu kanałów. Dobry algorytm nie pozwoli na zmianę brzmienia kanału prawego względem fragmentu poprzedniego.

[0:55] Szum różowy, w kanale lewym odwrócony w fazie sygnał z kanału prawego,
Podobnie jak poprzednio, w przypadku trybu joint stereo kanał prawy powinien brzmieć tak, jak w pierwszym fragmencie szumu. Ten test jest jeszcze trudniejszy dla większości algorytmów. Ponieważ suma obu kanałów równa jest zeru, po zmonofonizowaniu pliku nie powinno być nic słychać.

[0:56] Szum różowy, w kanale lewym rozciągnięty do 100.1% sygnał z kanału prawego,
Ten test pozwala określić odporność algorytmów kompresujących na zniekształcenia fazowe i krótkie opóźnienia elementów wspólnych obu kanałów w trybie joint stereo. Podobnie jak poprzednio, kanał prawy nie powinien różnić się brzmieniowo względem pierwszego fragmentu szumu. Po zmonofonizowaniu pliku usłyszymy charakterystyczny efekt typu phaser.

[0:57] Szum różowy w kanale prawym. W kanale lewym cisza.
Test pozwala zidentyfikować kanały oraz wykryć przesłuchy międzykanałowe.

[0:58] Sygnał sinusoidalny 1 kHz o poziomie -20 dB.
Test pozwala wykryć zmianę dynamiki po kompresji.

[0:59] Impuls o poziomie 0 dB, trwający dwie próbki, rozdzielony półsekundowymi okresami ciszy.
Element służy synchronizacji przy porównaniach plików i obserwacji zjawiska degradacji impulsów przez algorytmy kompresujące.

W poniższych zestawieniach zamieszczam pliki skompresowane poszczególnymi kodekami oraz różnicę owych plików i oryginału. Im lepszy algorytm, tym niższy poziom szumów i artefaktów w plikach różnicowych. Kompresory zachowujące stuprocentowe brzmienie oryginału, w różnicy powinny dawać kompletną ciszę i tak się dzieje w przypadku użycia kompresji bezstratnej. Zniekształcenia w plikach różnicowych dużo łatwiej usłyszeć niż w plikach skompresowanych, a charakter zniekształceń może określić, do czego dany kompresor może się przydać. Bywa, iż dobrze brzmiące algorytmy w muzyce dają nieciekawe zniekształcenia mowy — i odwrotnie. Ze względu na oszczędność miejsca, wszystkie pliki różnicowe zostały skompresowane kodekiem Lame z parametrem --preset insane. Kto chciałby przyjrzeć się nieskompresowanej różnicy, może sobie ją wygenerować samemu np. w programie Audacity, korzystając z przykładów i oryginału. Do odsłuchania przykładów polecam program VLC, który jako jeden z nielicznych daje sobie radę z każdym zamieszczonym tu przykładem audio.

MP3, czyli król formatów

Od standardu MPEG-2 Audio Layer 3, czyli w skrócie MP3, jest wiele lepszych sposobów kompresji danych audio, ale ten stał się najbardziej popularny. Oznacza to, że da się go odtworzyć na każdym urządzeniu audio pracującym z systemem plików. Wbrew powszechnym opiniom, dobre wersje algorytmów produkują pliki o bardzo wysokiej jakości brzmienia, jednak przy bitrate nie niższym od mniej więcej 220 kbps. Zatem jeśli wielkość plików nie jest sprawą krytyczną, a wygoda ma znaczenie, najlepiej wybrać ten standard.

A powstał on w 1991 roku, jako owoc badań niemieckich naukowców w ramach Fraunhofer Institute i był pierwszą próbą tak silnej kompresji danych audio (z założenia ponad dziesięciokrotnej), przy jakości — dla przeciętnego słuchacza — tożsamej z oryginałem. Problem polegał na tym, że w początkowym okresie oprogramowanie oferujące pełną jakość standardu było płatne i zamknięte, a korzyści silnej kompresji, w czasach niskich transferów i drogich nośników danych, duże. Napisano zatem sporo alternatywnego oprogramowania konwertującego, ale niekoniecznie w sposób zadowalający. Zresztą sam model psychoakustyczny twórcy standardu także nie był jeszcze doskonały. Propagowany bitrate 128 kbps wcale nie dawał jakości płyty CD, a niektóre aplikacje, jak np. Xing MP3Enc, wręcz niszczyły muzykę, ubarwiając ją dziwnymi bulgotami.

128 kbps

Minęły lata, standard dojrzał. Pojawiło się kilka modeli psychoakustycznych, z czego za najlepszy uchodzi dziś omijający patenty oryginału, darmowy i otwarty Lame. Brzmienie współczesnych kodeków przy 128 kbps jest dość dobre, choć wprawne ucho nie będzie zadowolone, zwłaszcza z wysokich tonów. Posłuchajmy pliku, który został skonwertowany aplikacją Lame przy parametrach --cbr -b128 -q0 czyli najbardziej popularnej „sto dwudziestki ósemki”. Przykład brzmi poprawnie, choć fragment z talerzami ujawnia pewne nieregularności, zachwiania dźwięku, zwłaszcza podczas wybrzmiewania blach. Fragment szumu, odpowiedzialny za wykrywanie problemów z sygnałami stereo, został potraktowany zgodnie ze sztuką. Pasmo powyżej 17 kHz zostało wycięte, co może być problemem dla ludzi młodych. A tak brzmi różnica plików: skonwertowanego i oryginału. Poniżej 17 kHz słychać nieregularne zniekształcenia, natomiast powyżej pojawia się materiał oryginalny, wycięty po konwersji. Ogólny poziom pliku różnicowego jest jednak dość wysoki (-22 dB) i zawiera dużą ilość wysokotonowych impulsów, co oznacza, że mając przyjemne brzmienie, plik MP3 128 kbps obiega znacznie od oryginału. Istotna uwaga: Lame przy tych parametrach produkuje plik głośniejszy o 0.5 dB, co może powodować przesterowania. Przygotowany przeze mnie plik różnicowy uwzględnia zmianę dynamiki.

192 i 256 kbps

Zasoby internetu oferują kilka lepszych niepisanych standardów MP3. Posłuchajmy brzmienia plików o bitrate 192 kbps --cbr -b192 -q0 Pasmo przenoszenia wzrosło prawie do 19 kHz, jest więc w pełni wystarczające. Talerze brzmią już bardzo dobrze, a plik różnicowy pokazuje, że fragment z fortepianem praktycznie przenoszony jest bez zniekształceń (szum na poziomie -46 dB). Także i tutaj plik skompresowany ma poziom wyższy od oryginału o 0.3 dB. Plik o bitrate 256 kbps --cbr -b256 -q0 nie wnosi już nic nowego poza dalszym zwiększeniem odstępu od szumów, co słychać raczej dopiero w pliku różnicowym. (-32 db, fragment z fortepianem: -50 dB). Pasmo przenoszenia obejmuje teraz 19.5 kHz. Różnicy poziomów względem oryginału już nie ma.

Insane (320 kbps)

Szczytem możliwości standardu MP3 jest bitrate 320 kbps. Lame oferuje jednak specjalnie dobrane presety, które wyciskają w ramach danego bitrate maksimum jakości. Dla wymienionego pasma preset ten nazywa się insane, a brzmi tak: --preset insane Myślę, że ślepa identyfikacja w typowych warunkach odsłuchowych jest niemożliwa. Plik skonwertowany brzmi jak oryginał. Pasmo przenoszenia przekracza 20 kHz. Plik różnicowy o poziomie średnim -37 dB nie obdarza przywilejem żadnego fragmentu. Należy pamiętać, że plik skompresowany presetem insane brzmi lepiej od skompresowanego ciągiem --cbr -b320 -q0, choć zajmuje tyle samo miejsca.

Extreme, standard i medium

Pozostałe presety warte uwagi, które różnią się od wymienionych wcześniej tym, że nie mają stałego bitrate, lecz zmieniają pasmo w zależności od chwilowego stopnia skomplikowania brzmienia, to extreme --preset extreme (plik różnicowy) — bardzo dobry, bitrate ok. 224 kbps, pasmo przenoszenia: pełne, plik różnicowy wskazuje, że ten sposób kodowania jest wydajniejszy od stałego bitrate o wartości 256 kbps, standard --preset standard (plik różnicowy) ok. 192 kbps, pasmo przenoszenia niespełna 19 kHz, oraz medium --preset medium (plik różnicowy) ok. 160 kbps, pasmo przenoszenia 17.5 kHz. Może z wyjątkiem ostatniego, pozostałe brzmią dobrze, choć oszczędności bitrate nie są na tyle duże, by wybierać prestet słabszy od extreme.

Audiobooki i słuchowiska

Osobnym zagadnieniem jest sposób kodowania audiobooków. Jeśli jest to tylko tekst mówiony, bez muzyki, możemy wybrać znacznie oszczędniejsze rozwiązania. Lame nie oferuje stosownych presetów, ale metodą prób doszedłem do dwóch rozwiązań: --lowpass 15 -a -q 0 --abr 72 oraz --lowpass 9 -a -q 0 --abr 40 Pierwsze przenosi pasmo 15 kHz, zupełnie naturalne dla mowy, drugie — 9 kHz, co już nieco ogranicza naturalność, ale daje niebagatelną oszczędność miejsca (kompresja trzydziestosiedmiokrotna), a to w przypadku chęci posiadania w telefonie, bądź w samochodowym odtwarzaczu, wielu tomów audio-książek, ma znaczenie. Oba ustawienia dają pliki monofoniczne.

Podsumowując...

W przypadku poszukiwania muzyki w sieci, nie warto schodzić poniżej 192 kbps bądź presetu standard. A najlepiej wybierać tylko pliki o jakości extreme bądź insane (opisane czasem jako 320 kbps). Podobnie, w przypadku produkcji własnych kompilacji najlepiej użyć presetu extreme (insane nie da już znaczącej poprawy, a powiększy rozmiar plików). Dla audiobooków polecam własne sety: --lowpass 15 -a -q 0 --abr 72 bądź oszczędniejszy: --lowpass 9 -a -q 0 --abr 40 Presety ustalone przez twórców Lame są naprawdę dobre i wbrew internetowym poradom, nie ma szans, by w ramach tego samego bitrate dało się uzyskać samemu lepsze brzmienie, kombinując z własnymi ustawieniami aplikacji.

Aplikacja Lame jest niewygodna w użyciu, gdyż pracuje z wiersza poleceń. Powstało wiele wygodnych nakładek, np. Lame Front-End Jacka Pazery (twórcy świetnych konwerterów plików medialnych). Przy wyborze nakładki warto sprawdzić, czy zawiera najnowszą wersję kompresora Lame i ewentualnie podmienić ją.

Nie tylko Lame

Jak wspomniałem na początku, na skutek ograniczeń patentowych powstało wiele implementacji algorytmów kodowania MP3. Część przestała być rozwijana jeszcze w fazie niedoskonałej i tych powinniśmy unikać. Przykładem takiej aplikacji jest BladeEnc, porzucony w 2001 roku. Przy 128 kbps brzmi tak. Zwróćmy uwagę na mocno zaszumiony artefaktami fragment z lektorem. Plik różnicowy ukazuje dużą ilość nieregularnych szumów, znacznie większą od tego, co oferuje aplikacja Lame przy tym samym bitrate.

Microsoft przez lata w swoich systemach instalował niepełną wersję kodeka w wersji Fraunhofer Institute (ograniczoną w zapisie do 56 kbps), by w końcu ulec standardom. Obecnie Windows Media Player umożliwia konwersję płyt CD do formatu MP3 z bitrate 128, 192, 256 oraz 320 kbps (pliki różnicowe odpowiednio: 128, 192, 256,320). Implementacja brzmi dobrze, choć brzmienie jest nieco łagodniejsze od tego, które otrzymamy z kodeka Lame. Bitrate 320 kbps jest mniej wydajny, poziom średni szumów w sygnale różnicowym to -32 db (o 5 dB mniej od tego, co daje Lame z presetem insane). Ciekawostką jest odrębne traktowanie pasma powyżej 16 kHz — przydzielono mu znacznie niższą ilość danych, co nie jest błędem, ponieważ model psychoakustyczny dopuszcza zubożenie informacji w najwyższym paśmie. Przy bitrate 128 kbps w ogóle wycięto to pasmo, w pozostałych przypadkach pasmo przenoszenia jest pełne.

Adobe Audition, następca ulubionego przez dźwiękowców CoolEdit, korzysta z bardzo podobnych algorytmów, jednak oferując kilka dodatkowych ustawień. Może się zdarzyć, że potrzebny będzie nieduży bitrate przy dobrym brzmieniu. VBR Low Bitrate (plik różnicowy) daje znośny dźwięk przy średnim bitrate 96 kbps, wycinając jednak pasmo powyżej 12 kHz. Kolejne ustawienie: VBR Medium Bitrate (plik różnicowy) przy 128 kbps przenosi już 16 kHz i brzmi lepiej od algorytmów LAME przy podobnym bitrate (Lame nie posiada presetów VBR dla bitrate niższych od 160 kbps).

Apple mocno lansuje standard AAC, ale tworzenie plików MP3 za pomocą aplikacji iTunes też jest możliwe. Brzmienie jest bardzo dobre, a panel ustawień dość rozbudowany. Istnieją trzy presety domyślne. Najniższy brzmi tak: Dobra jakość (128 kb/s) (plik różnicowy), a najwyższy: Wyższa jakość (192 kb/s) (plik różnicowy). Oba przenoszą pełne pasmo, choć pierwszy dla częstotliwości wyższych od 16 kHz ogranicza ilość informacji. Oba też domyślnie usuwają pasmo infradźwięków, co ma delikatny wpływ na poziom basów słyszalnych (w plikach różnicowych można wyraźnie usłyszeć ten efekt). Ciekawe mogą być za to własne kompozycje ustawień. Chcąc porównać możliwości kodeka z presetem extreme Lame, utworzyłem następujący set: 224 kbps, VRB, Jakość średnia, Joint Stereo, Inteligentna regulacja kodowania. Plik ma podobny bitrate i brzmi ciekawie. Plik różnicowy ujawnia dynamikę o 2 dB niższą od extreme, wyższy poziom impulsów, ale niższy — nieprzyjemnych artefaktów. Oba rozwiązania brzmią bardzo dobrze i trudno wskazać lepsze. Być może wygoda pracy z aplikacją winna decydować o wyborze kodeka. W przypadku porównań presetu insane Lame z 320 bitrate iTunes, wyniki przemawiają jednak na korzyść Lame — poziom szumów jest zauważalnie niższy od tego, co daje iTunes.

Z popularnych aplikacji — kombajnów konwersujących formaty — Pazera korzysta wprost z Lame, Format Factory z biblioteki używającej tego samego modelu psychoakustycznego. Wiele programów (np. Nero, Ashampoo Burning) korzysta z kodeków systemowych, zatem pliki będą brzmiały identycznie jak po konwersji programem Windows Media Player. W przypadku wyboru konkretnej aplikacji, dobrze sprawdzić jakość kodeka, z której korzysta.

AAC, czyli korpo walczy

Advanced Audio Coding został zaprojektowany jako następca formatu MP3 i oferuje względem niego wiele ulepszeń: m. in. wyższą skuteczność (wyższą jakość przy podobnym bitrate) i lepsze traktowanie stereofonii w trybie joint stereo. W ramach standardu powstało kilka odmian i uaktualnień, między innymi High Efficiency AAC, który daje dobre brzmienie przy bardzo niskich bitrate, będąc na tym polu właściwie bezkonkurencyjnym. Standard stał się podstawą kompresji dźwięku w cyfrowym radiu, telewizji i w internecie, promuje go także firma Apple. Tu należy się wyjaśnienie natury bardziej ogólnej. Otóż pliki kompresowane algorytmami AAC mogą mieć różne rozszerzenia: M4A, MP4, AAC, 3GP i inne, ale to nie nazwa plików decyduje o sposobie kompresji. Nazwa zwykle związana jest z tak zwanym kontenerem, czyli sposobem przenoszenia treści. Żeby poznać sposób kompresji, należy odczytać dane o kodeku z nagłówka pliku. Jeśli urządzenia, na których mamy zamiar słuchać muzyki, współpracują z formatem AAC, wybór tego standardu może być lepszym rozwiązaniem do współpracy z formatem MP3, zwłaszcza przy niższych bitrate. Istnieje kilka darmowych aplikacji umożliwiających kompresję dźwięku do formatu Advanced Audio Coding.

iTunes

Duży kombajn firmy Apple do obsługi multimediów, o użyteczności budzącej skrajne uczucia. Umożliwia kompresję do formatów MP3 i ACC, tworząc pliki w kontenerze M4A. Spośród wielu ustawień wybrałem siedem.

Tunes Plus, domyślny format aplikacji, bitrate: 256 kbps, VBR. Pełne pasmo, doskonałe brzmienie, którego, myślę, nikt nie byłby w stanie odróżnić od oryginału. Plik różnicowy wskazuje na inną charakterystykę pracy względem algorytmów Lame. Dużo mniej artefaktów przy nieco wyższym poziomie szumów (-35 dB w najbardziej złożonych fragmentach), po prostu inaczej niż preset extreme, ale równie dobrze.

Wysoka jakość (plik różnicowy), nieco myląca nazwa, bo bitrate wynosi 128 kbps, czyli połowę poprzedniego presetu. Brzmienie bardzo naturalne, porównywalne z presetem medium, pasmo ograniczone do 18 kHz.

Własny preset: 320 kbps, (plik różnicowy), stworzony celem porównania z insane (plik różnicowy). Dynamika średnia nieco większa (-39 dB), ale konkretne zachowania zależą od konkretnej złożoności dźwięku. Czasem jest lepiej, czasem gorzej od tego, co oferuje Lame w podobnym bitrate. Oba brzmią lepiej niż wymagania nawet bardzo muzykalnych uszu.

Seria trzech ustawień korzystających z rozszerzeń High Efficiency: 80 kbps, 64 kbps32 kbps, (pliki różnicowe odpowiednio: 80 kbps, 64 kbps32 kbps). Pasmo powyżej 10 kHz (6 dla bitrate 32 kbps, który resamplowany jest do 32 kHz) jest traktowane oddzielnie, w uproszczony sposób. Pierwsze dwa ustawienia brzmią zadziwiająco dobrze, jeśli weźmie się pod uwagę bitrate. Ostatnie może już nieco męczyć uproszczeniami. Pliki różnicowe ujawniają silne zmiany w najwyższym paśmie dla każdego z ustawień High Efficiency.

Podcast mówiony, 64 kbps w przypadku plików mono, zaprojektowany specjalnie dla audiobooków, korzystający z filtru „filtrowanie głosu″, ale radzący sobie także z słuchowiskami z elementami muzyki.

Nero AAC Encoder

Mało znany, a znakomity, darmowy kodek AAC stworzony przez Nero. Charakterystyczną cechą jest możliwość pracy dwuprzebiegowej, dzięki czemu w ramach założonego bitrate przydział chwilowego pasma jest zoptymalizowany. Nie posiada presetów, wybrałem cztery własne do porównań.

128 kbps, br 128000 -2pass (plik różnicowy), brzmi podobnie do pliku kodowanego aplikacją iTunes, ale plik różnicowy konwersji z iTunes ma wyższy poziom szumów. Ogranicza pasmo do 17.5 kHz.

256 kbps, br 256000 -2pass (plik różnicowy), także on brzmi podobnie do pliku kodowanego aplikacją iTunes, ale plik różnicowy konwersji z iTunes ma tym razem porównywalny poziom szumów.

64 kbps, br 64000 -2pass (plik różnicowy). Alternatywa dla plików tworzonych aplikacją iTunes. Pasmo przenoszone: 16.5 kHz. Wykorzystuje rozszerzenie standardu dla niskich bitrate o nazwie Spectral Band Replication.

32 kbps, br 32000 -2pass (plik różnicowy), Alternatywa dla plików tworzonych aplikacją iTunes. Pasmo przenoszone: 16.5 kHz, mocna degradacja stereofonii. Wykorzystuje rozszerzenia standardu dla niskich bitrate: Spectral Band Replication oraz Parametric Stereo. Dobrze radzi sobie z audiobookami i słuchowiskami.

Adobe Audition

Niestety, ten profesjonalny pakiet oferuje kiepską implementację kodeka AAC. Pozwalam sobie zamieścić tylko jeden przykład o birate 128 kbps. Plik różnicowy zawiera dużo więcej szumów od odpowiadającego mu pliku stworzonego przez Lame. Darmowy iTunes daje znacznie lepsze rezultaty.

WMA, czyli drugie korpo też chce

Pod koniec lat dziewięćdziesiątych, gdy Windows stawał się multimedialny, w firmie Microsoft dostrzeżono korzyści ze stosowania kompresji stratnej. Ponieważ Fraunhofer Institute żądał opłat licencyjnych, Microsoft postanowił opracować własny format, omijający patenty. Powstał produkt dobry, właściwie lepszy, ale ze względu na zamknięcie i niechęć albo niewiedzę użytkowników nigdy nie zdołał pobić standardu MP3, mimo wsparcia sprzętowego (jest drugim najczęściej stosowanym formatem w urządzeniach odtwarzających, zaraz po MP3). W plikach różnicowych, zupełnie inaczej niż w przypadku algorytmów AAC i MP3, znajduje się dużo szumu, a samej treści muzyki praktycznie nie słychać. Kodeki WMA, gdy bitrate jest ograniczony, mają tendencję do rozmywania impulsów. To inna filozofia, może się podobać albo nie. Subiektywnie muszę przyznać, że brzmi to lepiej niż zachowane impulsy za cenę ciągu artefaktów. Ale zjawiska te znikają przy bitrate wyższych od 128 kbps, gdzie WMA staje się kodekiem transparentnym, równym innym wiodącym rozwiązaniom. Obecnie kodek funkcjonuje w kilku odmianach: podstawowej (WMA), profesjonalnej (WMA Professional), zawierającej szereg poprawek mających znaczenie w niskich bitrate oraz wspierającej m. in. dźwięk wielokanałowy, o większej głębokości bitowej i informacje o kompresji dynamiki, bezstratnej (WMA Lossless) oraz wspierającej audycje słowne (WMA Voice). Wersja WMA Professional brzmi lepiej, a w przypadku bitrate niższego od 128 kbps, dużo lepiej, dlatego z jednym wyjątkiem przytoczę przykłady tylko dla tej wersji. Do kompresji wykorzystałem program Windows Media Player.

128 kbps, łagodniejsze brzmienie od konkurencji, przenosi 16 kHz. W pliku różnicowym głównie szum — wysoki poziom, ale za to dużo mniej treści muzycznej oryginału. Problem z fragmentem szumu odwróconego w fazie, na kilkadziesiąt milisekund spada pasmo przenoszenia.

192 kbps, bardzo dobre brzmienie, praktycznie nieodróżnialne od oryginału, przenosi 19 kHz. W pliku różnicowym szum o zmieniającym się mocno poziomie, zależnym od złożoności brzmienia.

96 kbps, łagodne, rozmyte brzmienie. Tu już włączają się zaawansowane mechanizmy, pasmo dzielone jest wyraźnie około 1 kHz i 12 kHz, całe pasmo przenoszenia jest pełne, ale najwyższe tony są zapisywane w sposób uproszczony, co słychać w pliku różnicowym. Problem z szumem odwróconym w fazie pojawia się znowu.

64 kbps, preset domyślny WMA Professional, brzmienie nadal naturalne, choć jeszcze mocniej rozmyte. Podział najwyższego pasma spada do 10 kHz, lecz całe pasmo przenoszenia nadal jest pełne. Oprócz wymienionego problemu z szumem odwróconym w fazie, pojawia się kłopot z fragmentem szumu opóźnionego — powstaje efekt phaser. W pliku różnicowym oprócz szumu sporo artefaktów.

48 kbps, brzmienie zatraca naturalność, pokrywając się charakterystyczną ziarnistością (co brzmi lepiej od problemów konkurencji przy bardzo niskich bitrate). Pasmo przenoszenia 16 kHz. W pliku różnicowym bardzo dużo usuniętych impulsów, także w częstotliwościach średnich.

32 kbps, zjawiska wymienione wyżej nasilają się. Zanika stereofonia, a częstotliwość próbkowania zostaje resamplowana do 32 kHz. Pasmo przenoszenia 15.5 kHz. W pliku różnicowym dużo różnicy stereo.

240-355 kbps, VBR wersji WMA bez rozszerzeń Professional, transparentne brzmienie, nie do rozróżnienia od oryginału, lecz nieco duży bitrate w stosunku do możliwości konkurencji. Plik różnicowy zawiera głównie szum o zróżnicowanym poziomie.

Windows Media Player nie korzysta ze wszystkich możliwości kodeków. Używając innych aplikacji, możemy między innymi utworzyć plik WMA Professional z bitrate 256 kbps, jak również dostać się do odmiany WMA Voice. Kodeki WMA rozwijane są tylko przez jednego producenta, dlatego wybór aplikacji kodującej nie ma znaczenia, brzmienie zawsze będzie takie samo. Posłuchajmy zatem trzech ustawień WMA Voice, preferowanych do audiobooków bez podkładu muzycznego: 20 kbps, 16 kbps i najniższego, który jeszcze brzmi poprawnie, 12 kbps.

Vorbis, czyli nieprawidłowo: OGG

Nieprawidłowo, bo OGG (też zresztą nieprawidłowo, bo powinno być: Ogg) to wymieniony wcześniej jeden z kontenerów, a to, czego słuchamy i ma rozszerzenie OGG, to właśnie Vorbis. Doprawdy, nie wiem kto i po co to tak pokręcił, ale pewno chodziło o pieniądze... Vorbis jest formatem darmowym, otwartym i służy przede wszystkim niskim bitrate, ale w wysokich także dobrze pracuje. Poziom jego zaawansowania jest podobny do kodeków AAC, a nowe implementacje można zapisywać wprost w plikach audio, dzięki czemu są dostępne także dla rozwiązań sprzętowych z okresu przed ich powstaniem. W sprzętowych odtwarzaczach jest trzecim standardem pod względem popularności. Ze względu na brak patentów, stosowany jest często przy przesyłaniu mediów strumieniowych.

Quality 4 (plik różnicowy), 128 kbps, format domyślny. Brzmienie poprawne, aczkolwiek impulsy lekko rozmyte. Pasmo 19 kHz. Problem z szumem w przeciwfazie — pojawia się „bzyczenie”.

Quality 7 (plik różnicowy), 224 kbps ,brzmienie bardzo dobre, nie do odróżnienia względem oryginału.

Quality 9 (plik różnicowy), 320 kbps, niższy poziom szumów w pliku różnicowym względem poprzedniego ustawienia, zwłaszcza wysokich tonów.

Quality 2 (plik różnicowy), 96 kbps, pasmo 16.6 kHz, problem z szumem w przeciwfazie nasilony.

Quality 1 (plik różnicowy), 80 kbps, pasmo 16 kHz, brzmienie talerzy zaczyna drgać, następuje degradacja szumu.

Quality 0 (plik różnicowy), 64 kbps, pasmo 15.2 kHz, pojawia się efekt tremolo (drgania dźwięku), następuje degradacja brzmienia gitary.

Quality -1 (plik różnicowy), 45 kbps, pasmo 14 kHz. Mocne rozmycie, drgania dźwięku, lecz całość wciąż sprawia łagodne wrażenie.

Biblioteki Vorbis są ogólnie dostępne, dzięki czemu każda aplikacja korzystająca z nich produkuje tej samej jakości pliki. Referencyjne oprogramowanie nazywa się oggdropXPd i jest bardzo proste w użyciu.

Dolby Digital, czyli DVD i spółka

Rodzina komercyjnych kodeków mających zastosowanie głównie w przemyśle filmowym, zaprojektowana dla najwyższej jakości i wielokanałowości. Skuteczność kompresji jest sprawą drugorzędną. Spośród licznych odmian, przedstawię dwie, interesujące ze względu na możliwości pracy z sygnałem o parametrach CD.

A/52 (Dolby Digital, AC3)

Standard kompresji używany do zapisu audio na płytach DVD oraz w telewizji DVB (ale nie DVB-T, która jest używana w Polsce i pracuje z nowocześniejszym kodekiem AAC).

384 kbps, standardowy bitrate stosowany na płytach DVD. Najlepsze brzmienie z prezentowanych tu przykładów, w pliku różnicowym poziom szumów najniższy (-45 dB średnio, fragment z fortepianem: -60 dB).

192 kbps (plik różnicowy)

128 kbps (plik różnicowy), pasmo przenoszenia: 14 kHz. Problem z szumem w przeciwfazie — pojawia się „bzyczenie”.

96 kbps (plik różnicowy), pasmo przenoszenia: 10.4 kHz, najniższy dostępny bitrate. Problem z szumem w przeciwfazie jeszcze bardziej słyszalny.

E-AC-3 (Dolby Digital Plus, DD+)

Bardziej elastyczne rozwinięcie standardu, nieco lepsze brzmienie, zwłaszcza przy niższych bitrate. Bywa wykorzystywany na płytach Blu-Ray i HD DVD oraz w telewizji i radiu satelitarnym.

384 kbps (plik różnicowy), jakość praktycznie ta sama, co w przypadku kodeka A/52.

192 kbps (plik różnicowy)

128 kbps (plik różnicowy), pasmo przenoszenia: 15 kHz. Problem z szumem w przeciwfazie jak w przypadku kodeka A/52.

96 kbps (plik różnicowy), pasmo przenoszenia: 15 kHz. Problem z szumem w przeciwfazie jak w przypadku kodeka A/52.

Opus, czyli szybko, lekko i dobrze

Nowoczesny kodek, zaprojektowany do niskich bitrate i opóźnień, niewymagający dużych mocy obliczeniowych, będący podstawą mediów strumieniowych HTML 5, otwarty i darmowy. Brzmieniowo podobny do High Efficiency AAC, na wyższych bitrate AAC jednak oferuje niższy poziom szumów w plikach różnicowych.

--bitrate 96 (plik różnicowy), format domyślny.

--bitrate 64 (plik różnicowy)

--bitrate 48 (plik różnicowy), najniższy bitrate, przy którym brzmienie jest jeszcze naturalne.

--bitrate 32 (plik różnicowy), brzmienie na granicy akceptowania, zdegradowana stereofonia.

--bitrate 128 (plik różnicowy)

--bitrate 192 (plik różnicowy)

--bitrate 320 (plik różnicowy)

--bitrate 16, przyzwoicie brzmiące ustawienie dla audiobooków i słuchowisk radiowych.

--bitrate 12, najniższy bitrate, przy akceptowalnym brzmieniu audiobooków.

Przeminęło z wiatrem, czyli formaty porzucone

mp3PRO

Ciekawe rozwinięcie formatu MP3, lansowane na przełomie wieków, które upadło przez chciwość. Utworzony przez Fraunhofer Institute i firmę Thomson, która miała wyłączność na produkcję odtwarzaczy sprzętowych, zamknięty i dostępny tylko na platformie Windows (bezpłatne jedynie odtwarzanie). Mimo bardzo dobrych rezultatów — jako jeden z pierwszych wykorzystywał technologię Spectral Band Replication, która traktowała wysoką część pasma w sposób uproszczony, dzięki czemu pasmo przenoszenia plików o niskim bitrate było pełne — nie zyskał popularności i został porzucony. Ciekawą cechą jest częściowa kompatybilność wsteczna. Pliki mp3PRO są odtwarzane przez każdy odtwarzacz MP3, jednak bez wsparcia technologii SBR, co w praktyce daje ograniczenie pasma do 10 kHz. Trzy przykłady skonwertowałem programem Adobe Audition 3 (najnowsze wersje są już pozbawione tego kodeka). Aby usłyszeć pełne możliwości formatu, potrzebny jest odtwarzacz wspierający go (np. Winamp z dodatkiem THOMSON mp3PRO Decoder).

100 - (95-150 Kbps), Highest Quality, Najwyższa jakość oferowana przez kodek mp3PRO, brzmienie bardzo dobre. Plik różnicowy ukazuje uproszczone traktowanie najwyższego pasma, co jednak ma minimalne znaczenie słuchowe.

70 - (80-110 Kbps), High Quality, najniższy bitrate VBR przy akceptowalnym brzmieniu.

96 Kbps, Stereo, najniższy stały bitrate przy akceptowalnym brzmieniu.

Musepack (MPC)

Będący rozwinięciem algorytmów MPEG Layer-2, stał się liderem jakości pierwszej dekady XXI wieku. Nadal brzmi bardzo dobrze, lecz stracił popularność na rzecz kodeków lansowanych komercyjnie (Musepack to inicjatywa grupy amatorów ceniących brzmienie, nie posiadał wsparcia rynkowego i sprzętowego). Ograniczenia maksymalnej częstotliwości próbkowania (48 kHz) i dwukanałowości sprawiły, że z czasem wymienione grupy zainteresowały się kodekami o brzmieniu równie dobrym, a pozbawionymi tych ograniczeń. Pliki MPC wciąż mają swoich fanów, ale ich udział w stosunku do innych formatów jest już śladowy. Ostatnia wersja MPC Encoder produkuje pliki niekompatybilne z wersją poprzednią. Program posiada wiele ustawień, do porównań wybrałem kilka gotowych presetów.

--thumb (plik różnicowy), quality 3, bitrate około 90 kbps, pasmo przenoszenia: 13.3 kHz, brzmienie natruralne i akceptowalne.

--standard (plik różnicowy), quality 5, bitrate około 180 , pasmo przenoszenia: 19.6 kHz, domyślny algorytm formatu, bardzo dobre brzmienie.

--extreme (plik różnicowy), quality 6, bitrate około 210 kbps.

--insane (plik różnicowy), quality 7, bitrate około 240 kbps.

--braindead (plik różnicowy), quality 8, bitrate około 270 kbps.

--quality 10 (plik różnicowy), quality 10, bitrate około 350 kbps, najwyższa jakość dostępna w formacie Musepack.

RealAudio

Tak naprawdę ten format nadal żyje, ale złote czasy ma za sobą. Został zaprojektowany głównie do strumieniowego przesyłania danych w niskich bitrate. Format bardzo złożony, kolejne wersje korzystały z różnych kodeków. Obecnie używa standardu MPEG-4 z rozszerzeniami, wcześniej używał m. in. formatu Sony ATRAC3, Dolby AC3 i G2/Cook Codec. Ponieważ MPEG-4 to AAC, którego przykłady podaję osobno, podobnie jak ATRAC3 i Dolby AC3, posłuchajmy kilku brzmień niezłego kodeka Cook Codec, konwertowanych programem Easy RealMedia Producer.

32 Kbps Stereo Music High Response - RA8, pasmo przenoszenia: 14 kHz, najniższy bitrate dla próbkowania 44.1 kHz stereo, przegrywa jednak z tym, co produkuje iTunes.

44 Kbps Stereo Music High Response - RA8, pasmo przenoszenia tego i następnych ustawień: 16 kHz, brzmienie nadal marne, tu dla odmiany lepiej brzmi Vorbis.

64 Kbps Stereo Music - RA8. I znowu iTunes ma preset lepiej brzmiący.

64 Kbps Stereo Music, wersja o pełnej stereofonii kosztem większego rozmycia impulsów.

96 Kbps Stereo Music - RA8, jedyny preset dający pełne pasmo. Brzmienie akceptowalne, ale zniekształcenia w wysokim paśmie nadal są słyszalne. Chyba jedyny wybór dla chcących słuchać radia internetowego używającego kodeka Cook Codec. Zarazem jest to najwyższy bitrate tego kodeka.

96 Kbps Stereo Music, wersja o pełnej stereofonii kosztem większego rozmycia impulsów. Pasmo przenoszenia: 16 kHz.

TwinVQ (VQF)

Obiecujący kodek, który upadł z powodu pychy. Stworzony przez NTT w 1994 roku, na rynek konsumencki trafił dzięki firmie Yamaha jako SoundVQ. Niestety, z powodu zamkniętości oprogramowania i lansowania niskich bitrate (wyższe niż 96 kbps w jedynej dostępnej aplikacji były nieosiągalne, mimo możliwości standardu sięgających 192 kbps), nie pokonał formatu MP3 i po paru latach został porzucony. A szkoda, bo przy porównywalnych bitrate brzmiał lepiej i miałby szansę stać się dobrym standardem kompresji na długie lata.

TwinVQ 48 (plik różnicowy), 96 kbps, (Yamaha unikała podawania bitrate dla sumy kanałów ze względów marketingowych), jak na wiek powstania brzmi dobrze i naturalnie, rozmywając jednak impulsy w największym stopniu ze znanych mi rozwiązań. Z pewnością jednak nie przypomina jakości CD i przegrywa z większością współczesnych rozwiązań przy porównywalnym bitrate.

TwinVQ 40 (plik różnicowy), 80 kbps, niższy bitrate, brzmienie podobne, degradacja sygnału większa.

ATRAC

Autorski format kompresji firmy Sony, przeznaczony przede wszystkim do zastosowań sprzętowych w minidyskach. Obecnie jest to format schyłkowy. Powstały trzy wersje, bardzo dobrze brzmiąca ATRAC1 o bitrate 292 kbps, ATRAC3, z dodatkowymi trybami o gorszym brzmieniu: LP2 (132 kbps) oraz LP4 (64 kbps) i ATRAC3+, będący nowoczesnym kodekiem podobnym w brzmieniu do współczesnej konkurencji. Dostępny jest darmowy kodek kompatybilny z wersją ATRAC3, posłuchajmy możliwości tego kompresora.

LP2 (plik różnicowy), 132 kbps, pasmo przenoszenia: 17.6 kHz.

LP4 (plik różnicowy), 66 kbps, pasmo przenoszenia: 15.2 kHz, degradacja sygnału stereo.

ADPCM

Sposób kodowania sygnałów telefonicznych przede wszystkim (ale pracuje także ze standardami CD), polegający na zapisywaniu różnic kolejnych poziomów próbek. Zaletą takiej kompresji jest prostota — nie są potrzebne duże moce obliczeniowe, wadą — niewielki stopień kompresji i niewysoka jakość w porównaniu ze współczesnymi kodekami dla podobnego bitrate. Dziś kompresję tę mogą wykorzystywać amatorzy elektroniki w prostszych konstrukcjach mikroprocesorowych, gdyż jest łatwa w implementacji (nie wymaga specjalistycznych kodeków sprzętowych).

a-law, (plik różnicowy), G.711A, standard kompresji telefonii, używany poza Ameryką Północną i Japonią. Redukcja danych: dwukrotna (706 kbps), brzmienie bardzo dobre, na poziomie około -40 dB pojawia się szum podobny do szumu kwantyzacji.

µ-law, (plik różnicowy), G.711U, bliźniaczy standard kompresji telefonii, używany w Ameryce Północnej i Japonii. Brzmienie nieco lepsze od standardu a-law, dynamika większa o kilka db, na poziomie około -48 dB pojawia się szum podobny do szumu kwantyzacji.

IMA ADPCM, (plik różnicowy), standard zapisujący różnice na czterech bitach, dzięki czemu następuje czterokrotna redukcja danych (355 kbps). Najlepsze brzmienie z przytoczonych tu prostych sposobów kompresji, polecany w zastosowaniach zapisu dźwięku w prostych systemach mikroprocesorowych (nie wymaga operacji zmiennoprzecinkowych).

Microsoft 4-bit ADPCM, (plik różnicowy), implementacja czterobitowego zapisu różnicowego według Microsoftu, niezbyt udana ze względu na skoki dynamiki, co jest wyraźnie słyszalne we fragmencie z gitarą.

GSM 6.10, (plik różnicowy), wspomniany przeze mnie ze względu na obecność w każdym systemie Microsoftu, kodek wykorzystywany w technologii GSM we wczesnych latach dziewięćdziesiątych. Bardziej od poprzedników zaawansowany obliczeniowo, brzmi kiepsko (dźwięk jest pokryty charakterystycznym „brudem”), oferując jednak dziesięciokrotną kompresję (72 kbps). Format wspiera tylko monofonię.

8 bitów

W epoce ośmiobitowych procesorów, ze względów obliczeniowych popularne było ograniczanie rozdzielczości audio do ośmiu bitów. Niestety w takich plikach pojawia się nieznośny szum kwantyzacji, słyszalny szczególnie przy niskich poziomach głośnościach (np. podczas wybrzmiewania utworów, co słychać dobrze w przykładzie). W pewnych zastosowaniach osiem bitów ma sens i dziś, o ile zastosujemy specjalne metody konwersji. Elektronicy, tworząc konstrukcje wykorzystujące proste mikroprocesory i przetworniki ośmiobitowe, mogą cieszyć się przyzwoitym brzmieniem, przy czym nie są wymagane żadne dodatkowe procedury obliczeniowe.

44.1 kHz 8 bit (plik różnicowy), ciekawy sposób na dobre brzmienie ośmiobitowych plików, maskujący szum kwantyzacji szumem ditheringu w paśmie granicznym. Podczas konwersji w programach obsługujących ten model (np. Adobe Audition) należy wybrać opcję Dither Depth 0.7 bit, p.d.f. Triangular, Noise Shaping E2. Brzmienie jest bardzo naturalne, pojawia się tylko szum podobny do szumu kasety magnetofonowej. Dynamika użyteczna: około 53 dB. Ponieważ w pobliżu pasma granicznego znajduje się duży poziom szumu ditheringu, potrzebne jest dobre filtrowanie sprzętowe. Z tego powodu nie jest to format oszczędny energetycznie (cisza także zużywa energię, poziom szumu stałego w całym paśmie mierzy -14 db).

32 kHz 8 bit (plik różnicowy), analogiczne rozwiązanie dla częstotliwości próbkowania 32 kHz. Podczas konwersji należy wybrać opcję Dither Depth 0.7 bit, p.d.f. Triangular, Noise Shaping C3. Poziom szumów jest wyższy, dynamika użyteczna: około 49 dB.

Niższe częstotliwości próbkowania (do 16 kHz) nie przynoszą już zadowalających rezultatów (poziom szumu jest dużo wyższy), jednak jeśli ktoś potrzebowałby takich rozwiązań, należy wybrać opcję Dither Depth 0.7 bit, p.d.f. Triangular, Noise Shaping B. Tak brzmią poszczególne konwersje: 24 kHz 8 bit, 22 kHz 8 bit16 kHz 8 bit.

Sto procent oryginału, czyli formaty bezstratne

Z różnych powodów przydają się formaty bezstratne. Dla tych, co nie wierzą w kompresję i chcą byś pewni, że słyszą to, co słyszeć mają (a skoro wiara czyni cuda...) Ale też do trzymania archiwów, które w ramach potrzeb można przekonwertować na któryś z formatów stratnych. Muzykom także się taki format przyda do przechowania pętli, sampli czy źródeł, zwłaszcza, że wszystkie wspierają 96 kHz i 24 bity. Powstało kilka standardów. Oczywiście porównywać brzmień nie ma sensu, gdyż brzmią identycznie jak oryginał, różnią się za to stopniem kompresji, obciążeniem procesora i odpornością na uszkodzenia. Stopnie kompresji tu podane dotyczą tego przykładu.

Apple Lossless, otwarty format wspierany przez iTunes i urządzenia Apple. Kompresja: 52.8%

FLAC, otwarty fotmat Xiph.Org Foundation. Duży staż, najbardziej popularny. Kompresja: 49.9% Flac będzie chyba najrozsądniejszym wyborem, ze względu na dobrą kompresję i szerokie wsparcie sprzętowe.

Monkey’s Audio, znany jako APE, format z dużym stażem, dość popularny. Kompresja: 49.8%

OptimFROG, mało popularny format, charakteryzujący się największą kompresją: 46.8% Z tego względu może być dobrym wyborem dla muzyków zapisujących archiwa.

Windows Media Audio 9 Lossless, format stworzony przez Microsoft, wspierany natywnie w systemach tej firmy. Kompresja: 52.3%

WavPack, kolejny otwarty format o szerokich możliwościach, mniej popularny. Kompresja: 50.5%

Dodatek pierwszy: audiobooki

Jak już wspomniałem, teksty czytane to zwykle duże, wielogodzinne zbiory, które zajmują sporo miejsca i pochłaniają transfer. Możemy bez szkody ograniczyć im pasmo do 10 kHz i zapisywać je jednokanałowo. Przygotowałem tym razem nieco inny test, minutową kompilację tekstów czytanych i mówionych, częściowo uzupełnionych podkładem muzycznym. Do jego stworzenia użyłem fragmentów nagrań z płyty dołączonej do czwartego tomu książki Dekady. Z wielu możliwości bitrate i rodzajów kompresji wybrałem kilka najbardziej przydatnych.

MP3 — wspomniane już ustawienia własne dla kompresora Lame: --lowpass 15 -a -q 0 --abr 72 (stopień kompresji: 11.1) oraz --lowpass 9 -a -q 0 --abr 40 (stopień kompresji: 17.2)

WMA — równie szeroko wspierany standard lepiej radzi sobie z tekstem mówionym, dając mniejsze pliki przy podobnej jakości: 48 kbps (stopień kompresji: 14.3) oraz 32 kbps (stopień kompresji: 21.4). W przypadku tego algorytmu kompresji nie warto wybierać niższych częstotliwości próbkowania niż 44.1 kHz, gdyż nie daje to znaczących oszczędności, a obniża jakość brzmienia.

AAC — iTunes ma specjalny preset dla tekstów, ale daje dość duże pliki. Wybór własnego ustawienia: 56 kbps VBR HE Voice daje poprawnie brzmiące pliki przy dość silnej kompresji (22.2). Pliki tworzone programem Nero AAC Encoder: 32 kbps brzmią jednak odrobinę lepiej przy prawie identycznym stopniu kompresji: (21.9). Jak poprzednio, nie warto wybierać niższych częstotliwości próbkowania.

Vorbis (Ogg) — przy porównywalnym stopniu kompresji (20.9) kompresor ma tendencję do rozmywania sybilantów, ale ogólnie nie jest źle: Quality 1, 22 kHz.

Opus — radzi sobie rewelacyjnie i byłby liderem, gdyby nie niewielkie wsparcie. Preset --bitrate 32 (stopień kompresji: 21.4) brzmi najlepiej w zestawieniu, --bitrate 24 (stopień kompresji: 28.2) brzmi podobnie jak większość konkurencji, natomiast --bitrate 16 brzmi nadal poprawnie przy niesamowitym stopniu kompresji: 42.5. Także i tu nie warto wybierać niższych częstotliwości próbkowania.

RealAudio — choć traci popularność, także oferuje ciekawe brzmienie przy przyzwoitym stopniu kompresji: 44 kHz, 32 kbps, HR (stopień kompresji: 21) oraz podobny 22 kHz, 32 kbps, Voice (stopień kompresji: 21.4), korzystają z kompresji G2/Cook Codec. Natomiast 44 kHz, 32 kbps, RA 10 plus (stopień kompresji: 21.5) wykorzystuje algorytm AAC i brzmi trochę lepiej od tego, co może zaoferować iTunes i Nero AAC Encoder.

Dodatek drugi: rekordy

Bicie rekordów nie ma zastosowania praktycznego, ale ciekawy byłem jak silnie można skompresować plik przy różnych sposobach ograniczania jego wagi i jak taki plik brzmi.

Absolutnym rekordzistą okazał się Nero AAC Encoder, z pliku wielkości 5.3 megabajta zrobił plik o wielkości 35 i pół kilobajta (stopień kompresji: 148.7). Cóż z tego, skoro plik brzmi tak: 6 kbps

Na drugim miejscu pojawił się nietypowy kodek o nazwie Sipr z pakietu RealAudio, silnie faworyzujący dźwięk głosu ludzkiego. 8 kHz, 5 kbps, Voice (stopień kompresji: 132.5)

Trzecie miejsce to WMA w trybie Voice 8 kHz, 5 kbps, Voice (stopień kompresji: 116.1). Dla odmiany, tryb Music, o podobnym bitrate, brzmi zupełnie nieakceptowalnie: 8 kHz, 5 kbps

Stary, dobry GSM 6.10 przy 4 kHz także załapał się do finału, ze stopniem kompresji 108.4. Brzmi niestety też jak stary, dobry telefon GSM.

Vorbis nie poszalał. Co prawda stopień kompresji to 94, ale brzmienie Quality -1 przy 4 kHz jest marne.

Opus przy stopniu kompresji równym 89.1 oferuje szerokopasmowe brzmienie, choć dość brudne: --bitrate 6

I na koniec Lame (stopień kompresji: 87.9) przy 8 kHz produkuje coś takiego: a -q 0 -b 8

Dodatek trzeci: wersje użytych aplikacji

Adobe Audition 3 (pliki mp3PRO)
Adobe Audition CC 2015
ATRAC3 CODEC for MSACM 0.09.8.1
Cool Edit 2000 (pliki ATRAC)
Easy RealMedia Producer 1.94
FLAC encoder/decoder 1.3.1
iTunes 12.2.2.35
Lame 3.99.5
Monkey’s Audio 4.16
MPC Encoder 1.30.0
Nero AAC Encoder 1.5.4.0
OggdropXPd 1.9.2
OptimFROG 5.003
OpusEnc 0.1.9
SoundVQ Encoder 2.54eb3
VLC media player 2.1.3 (odtwarzacz)
WavPack 4.75.2
Winamp 2.95 z dodatkiem THOMSON mp3PRO Decoder 1.2 (odtwarzacz plików mp3PRO)
Windows Media Player 12.0.7601