какую разрядность и частоту дискретизации выбрать для динамиков
Проверяем на практике бессмысленность высоких частот дискретизации
Много чего написано про ненужность частоты дискретизации 192000 Гц в звуковых файлах, предназначенных для прослушивания. Но аргументы обычно ссылаются на теоремы, для правильного понимания которых нужно довольно хорошо разбираться в математике. Но есть другой способ проверки некоторых утверждений — провести соответствующие эксперименты много раз.
Для начала необходимо сформулировать утверждение, которое будет проверяться в дальнейшем. Если частота 192000 Гц избыточна, то должна существовать более низкая частота дискретизации, при которой происходит корректное восстановление звукового сигнала. Предположим, что это частота 44100 Гц. Если при 192000 Гц происходит корректное восстановление, и при 44100 Гц происходит корректное восстановление, то в обоих случаях результат на выходе должен быть одинаковым. Чтобы проверить это на практике, нужно дорогое оборудование, которое есть далеко не у каждого. Поэтому пойдём немного другим путём. Если в файлах 44100 Гц и 192000 Гц содержится одинаковое количество информации о звуке, то это означает, что преобразование из 192000 Гц в 44100 Гц является сжатием без потерь, следовательно, должен существовать способ восстановления из файла 44100 Гц исходного файла 192000 Гц. Вот это уже может проверить каждый на любом современном компьютере.
В качестве исходника я выбрал музыкальный фрагмент с частотой дискретизации 192000 Гц. Если мне попался какой-то неправильный материал, в котором изначально не было чего-то важного, что должно потеряться при преобразовании из 192000 Гц в 44100 Гц, то любой желающий может проделать описанное в этой статье с любым другим файлом. Все действия будут производиться в свободном редакторе Audacity со стандартными эффектами. Все получаемые в процессе файлы будут сохраняться в формате FLAC с разрядностью 24 бит.
Исходный файл хранится в файле «A.FLAC» и выглядит вот так:
А вот так выглядит его спектр:
Нас интересует только звуковая информация, поэтому ультразвук удалим с помощью эквалайзера.
И получим такой спектр:
Экспортируем результат в файл «B.FLAC» — именно с ним мы будем сравнивать файл, который получится в конце всех преобразований.
Перед преобразованием частоты дискретизации убедимся, что в настройках выставлено максимальное качество:
Далее выбираем новую частоту дискретизации проекта и его экспортируем в файл «C.FLAC»
Затем открываем файл «C.FLAC», устанавливаем частоту дискретизации проекта 192000 Гц и экспортируем в файл «D.FLAC».
И остался самый главный этап: открыть файлы «B.FLAC», «D.FLAC» и сравнить их:
Разницы нет. Сравним получше — инвертируем одну из дорожек
И сведём всё в одну дорожку:
Тишина! Полная тишина!
А чтобы всё же увидеть разницу, надо увеличить амплитуду на 96 дБ!
Разница настолько тихая, что её невозможно услышать, а это значит, что при преобразовании из 192000 Гц в 44100 Гц в звуковом диапазоне информация не теряется. Вот так без глубоких познаний в математике с помощью доступного каждому программного обеспечения можно проверить достаточность частоты дискретизации 44100 Гц для хранения музыкальных файлов.
Бит против килогерца: что важнее?
Размышления об успехе 12-битной драм-машины E-Mu SP-1200 и довольно узкая динамика поп/рок-репертуара зародил еретические мысли. Оптимальны ли характеристики наших цифровых протоколов?
Любители студийного мастер-звука могут сердиться сколько угодно, но факт остается фактом. Формат Red Book при немыслимом для цифровых технологий возрасте 35 лет все еще остается основным контейнером для коммерческих фонограмм. Даже если вы слушаете ощипанный трек в MP3 или iTunes, его пропорции описаны в тех же 16 битах на опорные 44,1 кГц дискретизации. Много это или мало? Смотря что мерить.
Компакт-диск или файл в аналогичном формате в состоянии обеспечить 16 х 6 = 96 дБ между самым тихим и громким пассажем. Это очень даже немало. Техническим сигналом для лабораторных испытаний можно заставить ЦАП выдать такой показатель, но я не знаю реальных музыкальных событий с подобным размахом. Даже тот самый «1812» с пушечкой — там 60 дБ в самых пиковых моментах и чуть больше 20 дБ в среднем. В современной фонограмме показатели динамического диапазона сужены обычно раза в три.
По преданиям, Philips сначала хотела остановиться на 14-битном разрешении; умножаем 14 на 6 = 84 дБ, это по-прежнему выше уровня рокота самых дорогих виниловых трактов. Первое поколение ЦАПов Philips TDA1540 оперировало именно с 14 бит и ничего, многие винтажисты очень довольны этим чипом по сей день.
Первое поколение CD-плееров использовало 14-битный ЦАП Philips TDA1540
В общем, CD-качества вроде бы хватает с головой для самых смелых аудиозадач. И все-таки, когда сравниваешь мастер в Hi-Res и полученный из него стандартный Red Book CD, кажется, что-то утеряно. Где-то больше, где-то не очень — зависит от контента. Но и не забывайте, что ресемплинг и понижение битности понижается различными алгоритмами, так что итоговое качество для CD-печати получается гадательным.
Мой личный опыт возни с записью, редактированием и воспроизведением цифрового аудио по большому счету имеет две точки мнительности. Первая выглядит вполне технически обоснованной.
Мне категорически не нравится, что на аудиопотоке с дискретностью 44,1 кГц граничная частота лежит слишком низко, в области 20 кГц. Вроде бы там особо и не должно быть слышно, но как показывают графики работы цифровой фильтрации ЦАПа, в окрестностях творится черт знает что. Жесткий срез спектра записи, хотя в жизни имеет место пологое падение. Или наоборот, ранний завал из-за специфики фильтра. А еще какие-то паразитные гармоники на высоких частотах. Удельный вес относительно общего сигнала у них не очень большой, но все равно картинка получается неприглядная. Все вот эти оверсемплинги требуются из-за невозможности установить на 22,05 кГц нормальный аналоговый фильтр.
Было бы прекрасно, если бы в начале 80-х стандартом оставили дискретизацию 50 кГц первых цифровых рекордеров Soundstream. А еще лучше, если бы она составила примерно 60 кГц. Таким образом, мы бы получили достаточно протяженную АЧХ, обеспечивающую плавный спад всех музыкальных штрихов и нюансов до 30 кГц, как в хорошем магнитофоне или SACD. Вот выше уже действительно ничего нет. Но в итоге получилось по-другому.
До анонса компакт-диска цифровые рекордеры Soundstream записывали звук с параметрами 16 бит / 50 кГц
Sony выбрала значение 44,1 кГц из-за совместимости со стандартом PAL. Профессиональные видеомагнитофоны Betacam и VHS позволяли делать запись PCM-кода аудио. Три значения укладывались в каждую из 588 строк видеосигнала PAL, передаваемого с частотой 25 кадров в секунду: 3 х 588 х 25 = 44100. Вот такая арифметика.
Видеомагнитофон Sony с помощью процессора PCM-F1 мог записывать цифровой аудиокод
Дальнейшее развитие цифровых технологий записи и воспроизведения использовало кратное умножение базовых форматов CD и DAT — 44,1 и 48 кГц: т.е. 88,2, 96 кГц и так далее. Конечно, появилась возможность отодвинуть помехи квантования подальше в ультразвук, но ведь и кратно росли размеры аудиофайлов. А еще прибавка в полтора раза при переходе с 16 на 24 бит. А если это будет 32 бит? И при попытке сделать этот огромный аудиомассив чуть меньше меня добивает вторая мнительность.
Казалось бы, разрешение 24 бит и выше подразумевает выборку далеко за пределами человеческого слуха. Шутка ли, 24 х 6: нет такой ни техники, ни фонограмм, чтобы они плясали в диапазоне 144 дБ. Для того 24 бит и затевались в студиях — вынести любые ошибки наложения при редактуре куда подальше. Но стоит подвергнуть такой файл децимации, даже просто ресемплингу из 192 в 96 кГц, и что-то неуловимо меняется. Чуть другие уровни, чуть более плоский и тупой саунд, который мне не очень нравится в сравнении. Поэтому я выбираю оригинальные хайрезы не за абстрактную частотку, а лишь за отсутствие шрамов, которыми обрастает мастер-файл по пути вниз. Попытаемся оценить эти увечья.
Для экспериментов был выбран питомец лейбла 2L, который предлагает некоторые свои DXD-записи для свободного скачивания. Надо сказать, репертуар, как это бывает у аудиофильских контор, довольно тягостный и медлительный. Но, к счастью, там нашлась и выручила «Детская увертюра» Эжена Бозза. Эта фонограмма довольно энергично брякает, чтобы судить об изменении саунда при трансформации мастер-файла.
Изначально 5 с половиной минут DXD-оригинала «Детской увертюры» с характеристиками 24 бит / 352,8 кГц занимает целых 437 мегабайт. И это еще сжатое во FLAC, практически размер целого CD! На чем будем экономить?
На заре цифрового звука еще не существовало эффективных моделей борьбы с ошибками квантования. Да и вычислительным мощностям процессоров было многое не под силу. Шкворчание 8-битного саунда первых компьютерных игр стало стереотипом на долгие поколения вперед, но сейчас вы сами убедитесь, что 8 бит сегодня может играть вполне прилично. Чудодейственной панацеей стал так называемый дизеринг (dither), а если еще точнее — его разновидность, нойз-шейпинг (noise shaping).
В весьма толковой статье разработчика iZotope Алексея Лукина дается наглядный пример, как подмешивание горстки шума выручает картинку при снижении разрешения до 4 бит с 16-ю градациями яркости. Просто чудо, когда видишь, как ошибки квантования (так называемая постеризация изображения) практически сходят на нет. То же самое происходит и со звуком.
В отличие от общего случая дизеринга, нойз-шейпинг генерируется не во всей полосе полос, а лишь на высокочастотной области, что менее заметно на слух. Рассуждения о заметности схожи с помыслами разработчиков MP3-алгоритма, с той лишь разницей, что эти в частотный диапазон добавляют, а не режут. Нойз-шейпинг позволяет увеличить динамический диапазон фонограммы, от души его применяют в DSD кодировании и также видны следы его работы при записи «Детской увертюры».
Итак, с помощью ресемплера и фирменного нойз-шейпинга iZotope MBIT+ был сгенерирован целый ворох «Детских увертюр». Получилась стопочка FLAC-ов с разрядностью 8, 12, 16, 20 и 24 бит на кратной дискретизации 44,1 или 88,2 кГц. Также не обошлось без пары образцов МР3 битрейтом 320 кб/с. Один был опрокинут из файла 24 бит / 88,2 кГц, другой из 16 бит / 44,1 кГц, которые также представлены в этом списке. Архив можно скачать и самостоятельно решить, кому что нравится.
Понятное дело, четче и лучше всех отыграла самая полная версия 24/88, практически неотличимо от оригинала. Я надеялся, что понижение до 20 бит не скажется на качестве, но не тут-то было. Значит, начнем двигаться с другой стороны списка.
Сортировка в папке по размеру показала, что самым маленьким оказался образец 8 бит / 44,1 кГц. Менее 12 мегабайт после 400! Несмотря на слышимый шумок, звучит он весьма задорно и это не иллюзия — после всей математики уровень фонограммы немного подрос. Следующими по объему ожидаемо шли МР3. Не знаю как вам, но мне из всего набора проверять их было скучнее всего. И это при том, что в паузе у таких файлов было все чисто и аккуратно. Ну не мое, и все тут. Скомканный серый звук без огонька. Приятнее слушать пусть шумноватый, но лосслесс с низкой битностью, напоминает кассету. Вот на них и выруливаем дальше.
В полтора раза больше чем МР3 оказалась пара образцов на 12 бит / 44,1 кГц и 8 бит / 88,2 кГц. Размер — 19,7 и 23,5 Мб соответственно. По сравнению с базовым CD-разрешением (28,5 Мб) дополнительный шум заметен разве что в 8-битном треке, да и то в наушниках. Я не смог отдать однозначное предпочтение какой-то одной версии.
Субъективно файл более высокой битности играет быстрее, напористей, особенно это касается 24 бит / 44,1 кГц. Но и у 8- и 12-битного аудио на более высокой частоте дискретизации 88,2 кГц имеются несомненные плюсы. Более «гибкие» послезвучия, глубже строится сцена в отсутствие цифрового фильтра в слышимой области. Вы также можете сгруппировать треки по размерам и сравнить их самостоятельно.
По коэффициенту качество/размер я бы выделил следующую тройку, и вся она, увы, опирается на повышенную частоту дискретизации 88,2 кГц:
• 12 бит / 88,2 кГц (13-кратное уменьшение оригинала)
• 8 бит / 88,2 кГц (18,5-кратное уменьшение оригинала)
• 16 бит / 88,2 кГц (10-кратное уменьшение оригинала)
Подытоживая этот обзор, если можно было перезапустить всю цифровую индустрию заново, я бы предпочел использовать следующую градацию PCM-протоколов:
• Частота дискретизации 60 кГц в качестве индустриального стандарта
• Частота дискретизации 120 кГц для ответственных High-End задач
• Длина разряда в 10 бит для потокового аудио (10 бит / 60 кГц)
• Длина разряда в 14 бит для стандартной дистрибуции музыки (14 бит / 60 кГц)
• 22 бит для студийной работы и аудиофильских изданий музыки (22 бит / 60 кГц или 22 бит / 120 кГц)
Цифровой аудиоформат 24/192, и почему в нем нет смысла. Часть 3 [Перевод]
Сохранить и прочитать потом —
Прим. перев.: Это перевод предпоследней части развернутой статьи Кристофера «Монти» Монтгомери (создателя Ogg Free Software и Vorbis) о том, почему обывателям нет никакого смысла хранить и воспроизводить музыку в формате 24/192 (и о том, кому действительно имеет смысл работать с 24-битным аудио).
Вернемся к вашим ушам
Мы обсудили диапазон частот, который способны распознавать уши, но что насчет динамического диапазона (это диапазон от наиболее тихого звука до самого громкого)?
Один из способов точно определить динамический диапазон – это снова посмотреть на кривые болевого порога и порога слышимости. Расстояние от наивысшей точки кривой болевого порога до самой низкой точки кривой слышимости составляет около 140 децибел – для молодого и здорового человека. Правда, слушать звук на такой громкости долго не получится, поскольку +130 дБ уже достаточно, чтобы повредить слух за несколько минут или даже секунд. Для справки скажу, что громкость отбойного молотка на расстоянии одного метра составляет 100-110 дБ.
Интересный момент: порог слышимости увеличивается с возрастом и потерей слуха, а болевой порог с возрастом уменьшается. Волосковые клетки улитки в ухе захватывают только часть всего диапазона в 140 дБ, поэтому мускулатура уха непрерывно регулирует количество звука, достигающего улитку, путем сдвига слуховых косточек – как радужка регулирует количество света попадающего в глаз [9]. Механизм костенеет с возрастом, что ограничивает слуховой динамический диапазон и снижает эффективность защитных механизмов.
Немногие люди осознают, насколько тихим может быть звук на пороге слышимости человека.
Как пример звукового давления в 20 дБ SPL (что на 28 дБ громче самого тихого звука) часто приводится пустая студия звукозаписи или шумоизолированная комната. Найти место тише достаточно сложно, поэтому вы никогда не слышали шум, издаваемый лампочкой.
Динамический диапазон 16 бит
Как такое возможно? Закодировать этот сигнал без искажений так, чтобы он был значительно выше уровня шума, в то время как его амплитуда занимает треть бита?
16-битное аудио может обладать более глубокой модуляцией, чем 96 дБ, если использовать правильный псевдо-сигнал, который смещает энергию шума квантования в зону, где его сложнее расслышать. На практике [13] 16-битное аудио может достигать громкости в 120 дБ.
120 дБ – это больше, чем разница между звуком комара в комнате и отбойным молотком в футе от вас. Или разница между пустой звуконепроницаемой комнатой и достаточно громким звуком, который способен повредить слух в секунды.
16 битов хватает, чтобы хранить весь слышимый спектр, и будет хватать всегда.
Стоит сделать небольшое замечание о том, что соотношение сигнал/шум для уха меньше, чем динамический слуховой диапазон. Внутри заданной критической полосы, обычно, сигнал/шум составляет лишь 30 дБ. Отношение сигнал/шум не достигнет рамок диапазона слышимости, даже при условии расширения полосы частот. Это гарантирует, что формат 16 бит ИКМ обеспечивает разрешающую способность сверх необходимого.
Также стоит отметить, что увеличение битовой глубины звука с 16 бит до 24 не увеличивает разрешающей способности и «качество» звука. Это всего лишь расширит динамический диапазон – расстояние между самым тихим и самым громким звуком, за счет снижения уровня шума. Как бы то ни было, 16 бит уже обеспечивают уровень шума, который мы не в состоянии услышать.
Когда 24 бита имеют значение?
Профессионалы используют для записи музыки 24-битные сэмплы [14] из-за меньшего уровня шумов и по соображениям удобства.
16 бит достаточно, чтобы охватить весь слышимый диапазон с запасом. Но он не охватывает весь возможный диапазон аудио-оборудования. Основная причина использования 24 бит во время записи – это избежание ошибок. Вместо того, чтобы осторожничать, выравнивая 16 бит по центру диапазона, рискуя отрезать верхние частоты или добавить шума, 24 бита позволяют оператору установить примерный уровень и более не думать об этом. Промах на пару бит не влечет за собой никаких последствий, а эффекты, которые динамически сжимают записанный спектр, имеют большее пространство для маневра.
Также инженеру требуется большее 16 бит при смешении сигналов и мастеринге. Современные рабочие процессы могут включать, буквально, тысячи эффектов и операций. Шум квантования и уровень собственных шумов 16-битной выборки могут быть незаметны при воспроизведении, но при увеличении такого шума в несколько тысяч раз, он сразу становится заметным, а 24-битный формат сохраняет накапливающийся шум на очень низком уровне. После того, как музыка готова к записи на диски, нет никаких причин оставлять больше чем 16 бит.
Тесты на прослушивание
Понимание живет там, где встречаются теория и реальность. Вопрос разрешается только тогда, когда они обе приходят в согласие.
Эмпирические данные, полученные из тестов на прослушивание позволили судить, что 44.1 кГц/16 бит обеспечивает максимально возможное качество воспроизведения. Множество контролируемых тестов подтвердили это, но я рекомендую недавнюю работу «Слышимость стандарта CD, аналогово-цифровое и цифро-аналоговое преобразование, использованное в воспроизведении аудио с высокой разрешающей способностью», проделанную местными ребятами из Бостонского аудио-сообщества.
К сожалению, для доступа к полному тексту работы нужно быть членом Общества звукоинженеров. Тем не менее, эта работа широко обсуждалась во многих статьях и на форумах, авторами, которые туда [в сообщество] входят. Вот несколько ссылок:
В ходе этой работы проводился эксперимент: были отобраны испытуемые, которые выбирали между записями на высококачественных аудио DVD/SACD, подобранными приверженцами звука высокой четкости, чтобы показать его превосходство, и теми же записями, но в CD формате 16/44.1 кГц. Слушателям нужно было выявить какие-либо различия между ними, используя методологию случайного выбора. Бостонское аудио-сообщество проводило эксперимент с использованием высокопрофессионального оборудования в шумоизолированной среде, как с обычными, так и с тренированными слушателями.
Среди 554 попыток, испытуемые выбирали «правильно» в 49.8% случаев. Другими словами, они пытались угадать. Ни один слушатель в течение всего теста не смог опознать, которая из записей была в формате 16/44.1, а какая была звуком высокой четкости [15]. А 16-битный сигнал даже не был сглажен!
В еще одном недавнем исследовании [16] изучалась возможность расслышать ультразвук, как предполагали более ранние исследования. Тест был построен таким образом, чтобы максимизировать возможность распознавания, для этого были добавлены интермодуляционные составляющие в места, где они были бы наиболее слышны. Было установлено, что нельзя услышать ультразвуковые волны… но оказалось, что искажения от интермодуляционных составляющих распознать можно.
Эта статья породила череду дальнейших исследований, результаты большей части которых противоречили друг другу. Некоторые неясности были разрешены, когда обнаружилось, что ультразвук может вызывать большее количество интермодуляционных искажений в усилителях мощности, чем ожидалось. Например, Дэвид Гризингер (David Griesinger) провел этот эксперимент [17] и обнаружил, что его акустическая установка не вносила заметных интермодуляционных искажений, но зато их вносил усилитель.
Читатель, будь осторожен
Очень важно не вырывать отдельные работы или «комментарии экспертов» из контекста или брать их только с ресурсов, интересных вам. Не все статьи полностью соглашаются с этими результатами (а несколько даже не соглашаются с большей частью), поэтому легко наткнуться на мнение меньшинства, которое может доказывать любую точку зрения, которую вы можете вообразить. Несмотря ни на что, статьи и ссылки, приведенные выше, представляют большую важность и серьезный объем знаний и экспериментальных записей. Нет ни одной известной статьи, которая бы прошла испытание временем и поставила бы под сомнение состоятельность этих результатов. Споры происходят только среди потребителей и внутри сообществ меломанов.
Во всяком случае, количество неоднозначных, незаконченных и откровенно несостоятельных экспериментальных результатов, доступных в поиске Google, подчеркивает, насколько сложно провести точное и объективное исследование. Различные ученые ищут всякие мелочи, требуют проводить строгий статистический анализ, чтобы выявить подсознательные выборы, которые непреднамеренно делали испытуемые. Таким образом, мы скорее пытаемся доказать что-то, чего в принципе не существует, что делает положение вещей еще сложнее. Доказательство нулевой гипотезы сродни разрешению проблемы остановки – это нереально. Единственный вариант подтвердить что-то в этом случае – собрать достаточно много эмпирических данных.
Несмотря на это, работы, подтверждающие нулевую гипотезу – это действительно серьезное доказательство; подтвердить «не слышимость» экспериментально гораздо сложнее, чем обсуждать её. Неизвестные ошибки в тестовых методиках и оборудовании почти всегда дают ложноположительные результаты (из-за случайного внесения звуковых различий), а не ложноотрицательные.
Если профессиональные исследователи с таким трудом проводят исследование отдельных аудио-различий, то вы можете представить, как это трудно для любителей.
Как (ненарочно) испортить результаты звукового эксперимента
Самый «лучший» комментарий, который я слышал от людей, верящих в высококачественное аудио (перефразировано): «Я слышал высококачественный звук лично, и улучшение качества звучания очевидно. Вы серьезно хотите, чтобы я не верил своим ушам?»
Разумеется, вы можете верить собственным ушам. Но дело в том, что это мозг чересчур доверчив. Я не пытаюсь кого-то оскорбить, это проблема всех людей.
Предвзятое мнение, эффект плацебо и двойное слепое тестирование
Любое испытание, где слушатель может опознать два варианта по любым признакам, кроме как на слух, обычно приводит к результатам, которые слушатель ожидал заранее. Это называется предвзятостью и имеет схожесть с эффектом плацебо. Это означает, что люди «слышат» различия, из-за подсознательных сигналов и предпочтений, которые не имеют отношения к звуку – это как предпочесть более дорогой (или более привлекательный) усилитель более дешевому.
Человеческий мозг устроен таким образом, чтобы подмечать особенности и различия там, где их нет. И эту особенность нельзя отключить, просто попросив человека принимать объективные решения – это происходит на подсознательном уровне. Предвзятость нельзя ликвидировать скепсисом. Контролируемые эксперименты доказывают, что осознание принятия предвзятых решений лишь усиливает эффект! Тест, во время которого не было устранено влияние предвзятых суждений, ничего не стоит [18].
При одностороннем слепом тестировании слушатель ничего не знает заранее о вариантах и не получает никакой обратной связи в ходе испытания. Такое тестирование лучше прямого сравнения, но не исключает предвзятости экспериментатора. Тот, кто проводит тест, может непреднамеренно повлиять на его ход или передать свою собственную предвзятость слушателю неосторожными репликами (например: «Вы уверены, что это то, что вы слышите?», язык тела также может указать на «неправильный» выбор, и заставить сомневаться, и так далее). Влияние предвзятости человека, проводящего тест, на результаты слушателя также было подтверждено экспериментально.
Двойные слепые тесты – это стандарт, в таких тестах ни экспериментатор, ни слушатель не получают какой либо информации о содержании теста и текущих результатах. Наиболее известный пример – это ABX-тесты, проводимые компьютером, которые есть в свободном доступе – их можно запустить на вашем собственном ПК [19]. ABX-тесты подразумевают минимальное количество результатов слухового теста, до достижения которых они считаются неполноценными. Имеющие хорошую репутацию аудио-форумы, такие как Hydrogen Audio, часто запрещают любые обсуждения результатов слуховых тестов, если они не соответствуют минимальным требованиям объективности [20].
Выше изображено рабочее окно Squishyball – простой командной строки инструмента ABX, запущенного в xterm.
Лично я не проводил ни одного качественного сравнительного теста в процессе исследований (неважно, насколько серьезных) без применения ABX. Наука есть наука, тут нет места нерадивости.
Человеческое ухо может сознательно различать амплитудные различия громкости примерно в 1 дБ, и эксперименты показывают возможность определения различий в пределах 0,2 дБ на подсознательном уровне. Люди практически повсеместно считают громкий звук лучше, и 0,2 дБ достаточно, чтобы человек выказал предпочтение. По результатам любого сравнения, в котором неаккуратно выставлены амплитуды, будет наблюдаться явно выраженное предпочтение громкому звуку, даже если различия в громкости малы для того, чтобы осознать это. Продавцы аудио знают об этом трюке уже очень давно.
Профессиональный стандарт тестирования требует различия амплитуд на величину, не превышающую 0,1 дБ. Это часто требует использования осциллографа или анализатора сигналов, потому что подгадывать и крутить ручки, пока звук не совпадет, достаточно нерационально.
Отсечение сигнала – это еще одна ошибка (иногда проявляющаяся только с течением времени), которую легко допустить. Может оказаться, что несколько обрезанных сэмплов и их производные сигналы сравниваются с необрезанным сигналом.
Опасность отсечения части сигнала особенно разрушительна в тестах, которые дискретизируют, передискретизируют цифровые сигналы и управляют ими «на лету». Допустим, мы хотим сравнить качество звучания сигналов с частотой дискретизации 48 кГц и 192 кГц. Обычный способ провести такой эксперимент – обеспечить субдискретизацию из 192 кГц в 48 кГц, а затем снова провести повышающую дискретизацию до 192 кГц, после чего сравнить два этих сигнала в ABX-тесте [21]. Такой порядок позволяет нам исключить любую возможность изменения параметров оборудования или подмены сэмплов, влияющую на результаты. Мы можем использовать тот же ЦАП для воспроизведения обоих сэмплов и переключаться между ними без каких-либо изменений в режиме работы оборудования.
К сожалению, большинство сэмплов используют весь цифровой диапазон. Невнимательное применение передискретизации часто может привести к случайному обрезанию звука. Очень важно или следить за отсечением (и отбрасывать обрезанный звук), или избегать его, применяя различные методы: например, ослабление (аттенуацию) звука.
Другой носитель – другая мастер-копия
Я просмотрел несколько статей и блогов, которые утверждали о достоинствах 24 бит или 96/192 кГц, путем сравнения CD и аудио-DVD с «одинаковыми» записями. Такое сравнение несостоятельно, потому что для этих записей используются разные мастер-диски.
Непреднамеренные аудио-сигналы практически неизбежны в старых аналоговых и гибридных цифро-аналоговых тестовых установках. Очевидно, что цифровые установки могут полностью устранить проблему в некоторых формах тестирования, но могут и увеличить количество потенциальных ошибок программного обеспечения. Такие ограничения и баги уже достаточно давно дают ложноположительные результаты в тестированиях [22].
Статья «Цифровые испытания – больше о ABX-тестировании» рассказывает увлекательную историю об удивительном тестировании слуха, проведенном в 1984 году, призванном опровергнуть авторитет меломанов того времени, которые поначалу утверждали, что CD уступает винилу. Статья касается не столько результатов испытания (я подозреваю, вы сможете догадаться, какими они были), сколько хаотичности мира, вовлеченного в проведение такого теста. Например, ошибка со стороны организаторов теста случайно показала, что приглашенный эксперт по прослушиванию делал выбор, основываясь не на качестве звучания, а скорее на различных потрескиваниях, которые производили реле коммутаторов.
Анекдотические истории не заменяют реальные данные, но эта история показывает, с какой легкостью скрытые недостатки могут влиять на слуховые тесты. Некоторые из убеждений меломанов тоже довольно забавны, например кто-то надеется, что многие из современных исследований будут считаться глупыми через 20 лет.
Примечания к Части 3
9. Все знают это чувство, когда перепонки «разжимаются» после выключения громкой музыки.
10. Несколько отличных графиков можно найти на сайте HyperPhysics.
11. 20 мПа обычно принимаются за 0 дБ для удобства измерения. Это приблизительно равно порогу слышимости на частоте 1 кГц. На частотах от 2 до 4 кГц ухо настолько же чувствительно как на 8 дБ.
12. В приведенной ниже статье описано лучшее объяснение сглаживания, что я встречал, хотя она [статья] больше о сглаживании изображений. Но первая половина охватывает теорию и практику сглаживания в аудио, перед тем как перейти к теме изображений.
Кэмерон Николас Кристов, статья «Оптимальное сглаживание и ограничение шума на изображениях».
13. Инженеры, занятые в цифровой обработке сигналов, могли заметить, как это сделал мой всезнающий соотечественник, что 16-битное аудио, в теории, может иметь бесконечный динамический диапазон для чистого звука, если вы воспользуетесь бесконечным рядом Фурье, чтобы преобразовать его. Эта концепция очень важна для радиоастрономии.
Хотя работа уха не сильно отличается от преобразования Фурье, его разрешение относительно ограничено. Это накладывает ограничение на максимально возможную битовую глубину 16-битных сигналов.
14. В производстве цифровой музыки используют 32-битные числа с плавающей точкой, потому что это очень удобно для современных процессоров, и потому что это полностью устраняет вероятность того, что случайное обрезание останется незамеченным и погубит композицию.
15. Несколько читателей хотели узнать как тест Майера и Морана в 2007 году мог дать нулевой результат, если ультразвук может вызывать интермодуляционные искажения?
Должно быть очевидно, что «мог» и «иногда» не то же самое что «смог» и «всегда». Интермодуляционные искажения от ультразвуковых волн могут появиться, а могут и не появиться в любой системе, при любом наборе условий. Нулевой результат Майера и Морана означает, что интермодуляционные искажения были неслышны на системах, которые они использовали во время теста.
Вниманию читателей предлагается ознакомиться с простым тестом на определение интермодуляционных искажений, и определить интермодуляционный потенциал их собственного оборудования.
16. Кару и Шого (Karou and Shogo), статья «Определение порога для звука, частотой выше 22кГц» (2001). Материал номер 5401, представленный на 110 собрании 12-15 мая 2001 года в Амстердаме.
17. Дэвид Грезингер, статья «Восприятие средних частот и интермодуляционные искажения высоких частот в динамиках, и их взаимодействие с аудиозаписями высокого разрешения».
18. Со времени публикации несколько комментаторов отправили мне похожие версии одного анекдота (перефразировано): «Я как-то слушал какие-то наушники/ усилители/ записи ожидая результат А, но был очень удивлен, когда пришел к результату Б! Доказано: предвзятость – это чушь!» Я могу сказать две вещи.
Во-первых, предвзятость суждения не заменяет все верные результаты на неверные. Она склоняет результаты в труднопредсказуемом направлении на неизвестную величину. Как вы можете утверждать, что верно, а что – нет, наверняка, если тест был сфальсифицирован вашим подсознанием? Скажем, вы ожидали услышать большую разницу, но были удивлены, услышав малую разницу. Что если там не было разницы совсем? Или разница есть, но будучи осведомлённым о возможной предвзятости, ваш благонамеренный скептицизм скомпенсировал ваше мнение? Или, может быть, вы были совершенно правы? Объективное тестирование, например ABX, устраняет все эти неопределенности.
Во вторых: «Вы думаете, что вы не судите предвзято? Отлично! Докажите это!» Значимость объективного теста заключается не только в его способности убедить нас, но и в способности убедить в этом других. Заявления требуют доказательств. Чрезвычайные заявления требуют экстраординарных доказательств.
19. Наверно, самые простые инструменты для ABX-тестирования:
20. На Hydrogen Audio, аббревиатура TOS8 (objective testing requirement) обозначает необходимое условие тестирования, цифра 8 обозначает восьмой пункт условий предоставления услуг.
21. Принято считать, что передискретизация наносит непоправимый вред сигналу. Это совсем не так. По крайней мере, до тех пор, пока кто-то не допустит ошибку, например, обрезав сигнал. Субдискретизированный, а потом дискретизированный снова сигнал будет неотличим от оригинала. Это обычный тест, используемый для установки более высоких параметров дискретизации, что не обязательно.
22. Это, может быть, не связано напрямую со звуком, но… нейтрино что, быстрее скорости света, серьезно?