7.1. Создание высококачественного MPEG-4 ("DivX") рипа из DVD фильма

7.1. Создание высококачественного MPEG-4 ("DivX") рипа из DVD фильма

7.1. Создание высококачественного MPEG-4 ("DivX") рипа из DVD фильма

Одним часто задаваемым вопросом является "Как мне сделать рип самого высокого качества для заданного размера?". Другой вопрос "Как мне создать DVD рип с самым высоким возможным качеством? Я не беспокоюсь о размере файла, мне нужно лишь наилучшее качество.".

Последний вопрос, похоже, отчасти неверно сформулирован. В конце концов, если Вы не беспокоитесь о размере файла, почему бы просто не скопировать весь MPEG-2 видео поток с DVD? Конечно, Ваш AVI файл будет занимать около 5GB, но если Вы желаете наилучшее качество и не волнуетесь о размере, то это, несомненно, лучшее решение.

В действительности, причиной, по которой Вы хотите перекодировать DVD в MPEG-4, является именно Ваше беспокойство о размере файла.

Сложно дать универсальный рецепт о создании DVD рипа очень высокого качества. Необходимо рассмотреть несколько факторов, и Вы должны понимать эти детали, иначе Вы, скорее всего, разочаруетесь своими результатами. Ниже мы исследуем некоторые из этих вопросов, а затем рассмотрим пример. Мы предполагаем, что Вы используете libavcodec для кодирования видео, хотя теория также применима и к другим кодекам.

Если это кажется для Вас слишком сложным, то Вам, пожалуй, следует использовать один из многочисленных неплохих фронтендов, указанных в разделе MEncoder нашей страницы родственных проектов. Так Вы должны получить высококачественные рипы без особых размышлений, поскольку большинство этих утилит разработаны для принятия умных решений за Вас.

7.1.1. Подготовка к кодированию: Идентификация исходного материала и кадровой частоты

Прежде, чем даже задумываться о кодировании фильма, Вам необходимо выполнить некоторые предварительные действия.

Первым и наиболее важным шагом перед кодированием должно быть определение типа содержимого, с которым Вы работаете. Если источником Ваших исходных материалов является DVD или широковещательное/кабельное/спутниковое TV, оно будет содержаться в одном из двух форматов: NTSC для Северной Америки и Японии, PAL для Европы и т.д.. Однако, важно понимать, что это только форматирование для показа на телевидении, и оно часто не соответствует исходному формату фильма. Опыт показывает, что NTSC материал существенно более сложен для кодирования, т.к. в нём содержится больше элементов, которые нужно идентифицировать. Для проведения удачного кодирования, Вам необходимо знать исходный формат. Отказ от принятия этого во внимание приведёт к различным дефектам в Вашем кодировании, включая безобразные гребешки (артефакты чересстрочной развёртки) и повторяющиеся или даже потерянные кадры. Кроме ухудшения картинки, артефакты так же уменьшают эффективность кодирования: Вы получите худшее качество на единицу битпотока.

7.1.1.1. Определение кадровой частоты источника

Вот список, содержащий общие типы исходных материалов, где они, преимущественно, встречаются и их свойства:

  • Стандартный фильм: Производятся для театральных показов на 24 fps [кадр/сек].

  • PAL видео: Записывается с помощью PAL видеокамеры при 50 полях в секунду. Поле состоит только из чётных или нечётных линий кадра. Телевидение было разработано для обновления этих полей попеременно, что используется как вид дешёвого аналогового сжатия. Человеческий глаз, предположительно, компенсирует это, но однажды поняв чересстрочную развёртку, Вы научитесь видеть её и на TV и Вам больше никогда не понравится телевидение. Два поля не составляют целый кадр, поскольку они снимаются с задержкой в 1/50 секунды и, следовательно, не формируют одно изображение, за исключением случая полного отсутствия движения.

  • NTSC видео: Записывается с помощью NTSC видеокамеры при 60000/1001 полях в секунду, или 60 полях в секунду в эпоху чёрно-белого TV. В других отношениях аналогично PAL.

  • Анимация: Обычно рисуется на 24 fps, но также существуют разновидности со смешанной кадровой частотой.

  • Компьютерная графика (CG): Может быть с любой частотой кадров, но некоторые встречаются чаще остальных; 24 и 30 кадров в секунду типичны для NTSC, и 25 fps типично для PAL.

  • Старый фильм: Различные низкие кадровые частоты.

7.1.1.2. Идентификация исходного материала

Фильмы, состоящие из кадров, называются фильмами с построчной (или прогрессивной) развёрткой, а состоящие из независимых полей — фильмами с чересстрочной развёрткой или просто видео; однако, последний термин двусмысленный.

Из-за дальнейших усложнений, некоторые фильмы будут смесью нескольких, указанных выше.

Наиболее важным различием между всеми этими форматами является то, что одни из них основаны на кадрах, а другие — на полях. Любой фильм, подготовленный для просмотра на телевидении (включая DVD), преобразуется в формат, основанный на полях. Различные методы, с помощью которых это может быть сделано, совокупно называются "телесин" (англ. telecine), одним из вариантов которого является отвратительный NTSC "3:2 пулдаун" (англ. pulldown). За исключением случаев, когда формат исходного материала был также основан на полях (и с такой же частотой полей), Вы получите фильм в формате отличном от исходного.

Существует несколько общих типов пулдауна:

  • PAL 2:2 пулдаун: Наилучший из всех. Каждый кадр показывается за время длительности двух полей путем извлечения чётных и нечётных строк и их попеременного показа. Если в исходном материале 24 fps, то это ускоряет воспроизведение фильма на 4%.

  • PAL 2:2:2:2:2:2:2:2:2:2:2:3 пулдаун: Каждый 12-й кадр показывается за время длительности трёх полей, вместо двух. Это помогает избежать проблемы 4%-го ускорения, но делает обращение процесса существенно более сложным. Такие вещи обычно наблюдаются в музыкальных произведениях, где изменение скорости на 4% существенно повредит музыкальную партитуру.

  • NTSC 3:2 телесин: Кадры показываются попеременно за время длительности 3-х полей или 2-х полей. Это даёт частоту полей в 2.5 раза больше исходной частоты кадров. Результат также очень незначительно замедляется от 60 до 60000/1001 полей в секунду для поддержания частоты полей NTSC.

  • NTSC 2:2 пулдаун: Используется для отображения материала с 30 fps на NTSC. Так же мил, как и 2:2 PAL пулдаун.

Так же существуют методы для преобразования между NTSC и PAL видео, но подобные темы выходят за рамки данного руководства. Если Вам попался такой фильм, и Вы хотите кодировать его, лучшим решением будет найти копию в исходном формате. Преобразование между этими двумя форматами вносит большие потери и не может быть точно обращено, так что Ваше кодирование существенно пострадает, если оно делается из преобразованного источника.

Когда видео находится на DVD, последовательные пары полей группируются как кадр, даже если они не предназначены для одновременного отображения. Стандарт MPEG-2, используемый на DVD и цифровом TV предоставляет возможность одновременно кодировать исходные кадры с построчной развёрткой и сохранять число полей, в течении которых кадр должен быть показан, в его заголовке. Если был использован такой метод, фильм часто будет называться как "мягкий телесин", т.к. процесс только указывает DVD-плееру о необходимости применения пулдауна к фильму, не изменяя при этом сам фильм. Этот случай существенно предпочтителен, т.к. он может быть легко обращён (в действительности, проигнорирован) кодером и т.к. он сохраняет максимальное качество. Однако, многие широковещательные и DVD студии не используют надлежащую технологию кодирования и вместо этого производят фильмы с "жёстким телесином", где поля в действительности повторяются в кодированном MPEG-2.

Порядок действия в таких случаях будет описан позже в данном руководстве. Сейчас мы дадим Вам несколько советов по идентификации типа материала, с которым Вы работаете:

Регионы NTSC:

  • Если при просмотре Вашего фильма MPlayer выводит, что частота кадров была изменена до 24000/1001 и она никогда не меняется обратно, то это почти наверняка содержимое с построчной развёрткой, которое было подвергнуто "мягкому телесину".

  • Если MPlayer отображает попеременные переключения частоты кадров между 24000/1001 и 30000/1001, и Вы иногда видите "гребешки", есть несколько возможностей. Сегменты с 24000/1001 fps почти наверняка являются "мягко телесиненным" содержимым с построчной развёрткой, но части с 30000/1001 fps могут быть как "жёстко телесиненым" содержимым с 24000/1001 fps, так и NTSC видео с 60000/1001 полями в секунду. Используйте два нижеследующих руководства для определения того, с каким случаем Вы имеете дело.

  • Если MPlayer никогда не показывает изменения кадровой частоты и каждый отдельный кадр, где есть движение, оказывается гребёнкой, Ваш фильм есть NTSC видео с 60000/1001 полями в секунду.

  • Если MPlayer никогда не показывает изменения кадровой частоты и два кадра из каждых пяти оказываются гребёнкой, Ваш фильм представляет собой "жёстко телесиненное" содержимое с 24000/1001 fps.

Регионы PAL:

  • Если Вы не видите никакой гребёнки, Ваш фильм есть 2:2 пулдаун.

  • Если Вы видите попеременную гребёнку каждые полсекунды, Ваш фильм представляет собой 2:2:2:2:2:2:2:2:2:2:2:3 пулдаун.

  • Если Вы всегда видите гребёнки во время движения, значит Ваш фильм является PAL видео с 50 полями в секунду.

Подсказка:

MPlayer может замедлить воспроизведение фильма с опцией -speed или воспроизводить его покадрово. Попробуйте использовать опцию -speed 0.2 для очень медленного просмотра фильма или нажимайте клавишу "." для воспроизведения одного кадра за раз и идетнифицируйте образец, если не можете его увидеть на полной скорости.

7.1.2. Постоянный квантователь в сравнении с многопроходностью

Возможно кодировать Ваш фильм, широко варьируя качество. С современными видеокодерами и небольшим сжатием перед кодированием (уменьшением размера и шумов) возможно достичь очень хорошего качества при размере 700 МБ для 90-110-минутного широкоэкранного фильма. Более того, всё, кроме самых длинных фильмов, может быть кодировано с почти безупречным качеством на 1400 МБ.

Есть три подхода при кодировании видео: постоянный битпоток (CBR), постоянный квантователь и многопроходность (ABR или усреднённый битпоток).

Сложность кадров фильма и, таким образом, число битов, нужных для их сжатия может существенно отличаться от одной сцены к другой. Современные видеокодеры могут подстраиваться под это в процессе работы и варьировать битпоток. Однако, в таких простых режимах как CBR кодеры не знают загруженность битпотока в последующих сценах и т.о. не могут превысить затребованный битпоток для больших промежутков времени. Более совершенные режимы, такие как многопроходный режим, могут учитывать статистику предыдущих проходов; это решает проблему, упомянутую выше.

Замечание:

Большинство кодеков, поддерживающих ABR кодирование, поддерживают только двупроходный режим, в то время как некоторые другие, такие как x264, Xvid и libavcodec поддерживают многопроходность, несколько улучшающую качество на каждом проходе, однако, это улучшение не измеримо и не заметно после 4-го прохода или около того. Поэтому, в данном разделе дву- и многопроходность будут использоваться взаимозаменяемо.

В каждом из этих режимов видеокодек (такой как libavcodec) разбивает видеокадр на макроблоки размером 16х16 пикселей и потом применяет квантователь к каждому макроблоку. Чем меньше квантоваль, тем лучше качество и выше битпоток. Метод, используемый видео кодером для определения того, какой квантователь использовать для данного макроблока, варьируется и подлежит тонкой настройке. (Это крайнее упрощение реального процесса, но основная концепция полезна для понимания.)

Когда Вы указываете постоянный битпоток, видеокодек будет кодировать видео, отбрасывая детали столько, сколько необходимо и настолько мало, насколько это возможно с целью оставаться ниже заданного битпотока. Если Вас действительно не волнует размер файла, Вы можете также использовать CBR и указать бесконечный битпоток. (На практике это означает значение, достаточно большое для обозначения отсутствия предела, например, 10000 Кбит.) В результате, без реального ограничения битпотока, кодек использует наименьший возможный квантователь для каждого макроблока (как указано опцией vqmin для libavcodec, равной 2 по умолчанию). Как только Вы укажите настолько низкий битпоток, что кодек будет вынужден использовать более высокий квантователь, Вы почти наверняка испортите качество Вашего видео. Чтобы избежать этого, Вам, вероятно, придётся уменьшить размеры Вашего видео, согласно методу, описанному далее в этом руководстве. В общем, Вам следует избегать CBR совсем, если Вы заботитесь о качестве.

С постоянным квантователем кодек использует для всех макроблоков один и тот же квантователь, указанный в опции vqscale (для libavcodec). Если Вы хотите рип наивысшего возможного качества, снова не взирая на битпоток, Вы можете использовать vqscale=2. Это приведёт к тому же битпотоку и PSNR (пику отношения сигнала к шуму), что и CBR с vbitrate=бесконечности и значением по умолчанию vqmin, равным 2.

Проблема с постоянным квантованием заключается в том, что кодек использует заданный квантователь вне зависимости от того, требуется это для макроблока или нет. То есть возможно использование большего квантователя для макроблока без ухудшения видимого качества. Зачем тратить биты на излишне низкий квантователь? У Вашего процессора есть столько тактов, сколько есть времени, но имеется лишь ограниченное число битов на жёстком диске.

При двупроходном кодировании первый проход создаст рип фильма так, как будто это был CBR, но сохранит лог свойств для каждого кадра. Эта информация затем будет использована во время второго прохода для принятия интеллектуальных решений о том, какой квантователь следует использовать. Во время быстрого движения или сцен с высокой детализацией с большой вероятностью будут использованы большие квантователи, а во время медленного движения или сцен с низкой детализацией — меньшие. Обычно количество движения играет существенно более важную роль, чем количество деталей.

Если Вы используете vqscale=2, то Вы теряете биты. Если Вы используете vqscale=3, то Вы не получаете рип наивысшего качества. Предположим, Вы делаете рип DVD, используя vqscale=3, результат получается 1800 Кбит. Если Вы сделаете двупроходное кодирование с vbitrate=1800, получившееся видео будет обладать лучшим качеством для того же битпотока.

После того, как Вы сейчас убедились, что два прохода — это путь к действию, возникает вопрос о том, какой битпоток использовать? Ответ таков, что нет единого ответа. В идеале, Вы хотите выбрать битпоток, при котором достигается наилучший баланс между качеством и размером файла. Здесь возможны вариации в зависимости от исходного видеоматериала.

Если размер не важен, хорошей отправной точкой для рипа очень высокого качества будет 2000 Кбит +/- 200 Кбит. Для видеоматериала с быстрым движением или высокой детализацией или просто если у Вас очень разборчивый глаз, Вы можете использовать 2400 или 2600. Для некоторых DVD Вы не заметите разницы на 1400 Кбит. Хорошей идеей является экспериментирование со сценами на разных битпотоках, чтобы почувствовать разницу.

Если Вашей целью является определённый размер, Вам нужно как-нибудь вычислить битпоток. Но перед этим, Вам нужно знать, сколько места нужно зарезервировать по аудио дорожку(и), так что Вам необходимо сперва извлечь их. Вы можете рассчитать битпоток с помощью следующей формулы: битпоток = (конечный_размер_в_МБайт - размер_звука_в_МБайт) * 1024 * 1024 / длительность_в_секундах * 8 / 1000. Например, для сжатия двухчасового фильма в 702 МБ CD, с 60 МБ аудио дорожкой, битпоток видео должен составлять: (702 - 60) * 1024 * 1024 / (120*60) * 8 / 1000 = 740 кбит/сек.

7.1.3. Ограничения для эффективного кодирования

Из-за особенностей MPEG-подобного сжатия, существуют различные ограничения, которым Вы должны следовать для достижения максимального качества. MPEG разбивает видео на квадраты 16х16, называемые макроблоками. Каждый макроблок состоит из 4 блоков 8х8 с информацией о люме (интенсивности) и двух блоков 8х8 с информацией о хроме (цвете) половинного разрешения (один для красно-бирюзовой оси и другой для жёлто-голубой оси). Даже если ширина и высота Вашего фильма не кратны 16, кодер всё равно использует нужное количество макроблоков 16х16 для покрытия всей области картинки, дополнительная область будет впустую потрачена. Так что в интересах максимизации качества при фиксированном размере файла, не стоит использовать размеры, не кратные 16.

У большинства DVD также есть определённое подобие чёрных полос на краях. Если Вы их оставите, это может сильно повредить качество несколькими путями.

  1. MPEG-подобное сжатие очень чувствительно к преобразованиям частотных интервалов, в частности, к дискретному косинусному преобразованию (DCT), которое аналогично преобразованию Фурье. Этот вид сжатия эффективен для представления образов и сглаженных переходов, но у него возникают проблемы с острыми краями. Для кодирования последних Вам нужно гораздо больше битов, а иначе у Вас появится артефакт, известный как ореолы.

    Частотные преобразования (DCT) выполняются независимо для каждого макроблока (на самом деле, для каждого блока), так что эта проблема возникает только в случае попадания острого края внутрь блока. Если Ваши чёрные поля возникают точно на границах, кратных 16 пикселям, это не проблема. Однако, чёрные полосы на DVD редко хорошо расположены, так что на практике Вам всегда придётся усекать стороны для избежания этих проблем.

В дополнение к преобразованиям частотных интервалов, MPEG-подобное сжатие использует векторы движения для отображения изменений от одного кадра к другому. Векторы движения, естественно, работают существенно менее эффективно для новых объектов, идущих от краёв картинки, поскольку они отсутствуют в предыдущих кадрах. Пока картинка простирается вплоть до края кодируемой области, у векторов движения не возникает проблем с движением объектов за пределы картинки. Однако, при наличии черных полей могут возникнуть проблемы:

  1. Для каждого макроблока MPEG-подобное сжатие сохраняет вектор, определяющий какая часть предыдущего кадра должна быть скопирована в этот макроблок как основа для предсказания следующего кадра. Кодированию подлежит только оставшаяся разность. Если макроблок простирается до края картинки и содержит часть чёрной полосы, то векторы движения других частей картинки перепишут чёрную полосу. Это означает, что много битов нужно потратить либо на повторное чернение переписанной полосы, либо (что более вероятно) вектор движения не будет использован вовсе и все изменения для этого макроблока будут явно кодированы. Так или иначе, эффективность кодирования существенно уменьшается.

    Ещё раз, эта проблема возникает только в случае, если чёрные полосы не укладываются в границы, кратные 16.

  2. Наконец, предположим, что у нас есть находящийся внутри картинки макроблок и объект движется в этот блок от края изображения. MPEG-подобное кодирование не может сказать "скопируй ту часть, что внутри картинки, но не чёрную полосу". Так что чёрная полоса также будет скопирована внутрь, в результате чего масса битов будет потрачена на кодирование части изображения, которое должно быть на месте полосы.

    Для случаев, когда всё изображение движется к краю кодируемой области, у MPEG есть специальные оптимизации для повторяющегося копирования пикселей к краю картинки, когда вектор движения идёт извне области кодирования. Эта возможность становится бесполезной, если у фильма есть чёрные полосы. В отличии от случаев 1 и 2, выравнивание границ до кратности 16 здесь не поможет.

  3. Несмотря на то, что границы полностью чёрные и никогда не изменяются, существуют, как минимум, определённые накладные расходы, связанные с наличием большего числа макроблоков.

Благодаря всем этим причинам, рекомендуется полностью урезать чёрные полосы. Более того, если есть области шумов/искажений на краях картинки, то их урезание также поспособствует улучшению качества кодирования. Видеофилы, желающие сохранить оригинал как можно более точно, могут возражать против такого усечения; но если Вы не планируете кодировать при постоянном квантователе, качество, полученное при усечении, существенно превысит потери информации на краях.

7.1.4. Усечение и масштабирование

Вспомните из предыдущего раздела, что конечный размер картинки, подлежащей кодированию, должен быть кратен 16 (как высота, так и ширина). Это может быть достигнуто усечением, масштабированием или комбинацией того и другого.

Есть несколько рекомендаций для усечения, которым необходимо следовать для избежания повреждения фильма. Обычный формат YUV, 4:2:0, сохраняет цветность (информацию о цвете) половинной дискретизации, т.е. цветность сохраняется в два раза реже в каждом направлении, чем яркостность (информация об интенсивности). Рассмотрите следующую диаграмму, где L обозначает точки дискретизации яркостности и C — цветности.

LLLLLLLL
CCCC
LLLLLLLL
LLLLLLLL
CCCC
LLLLLLLL

Как Вы видите, строки и столбцы изображения естественным образом идут в парах. Поэтому смещения и размеры усечения должны быть чётными числами. Иначе цветность перестанет правильно соответствовать яркостности. Теоретически возможно усечение с нечётными смещениями, но оно потребует переквантования цветности, что потенциально является операцией с потерей качества и не поддерживается фильтром усечения сторон crop.

Более того, видео с чересстрочной развёрткой дискретизируется следующим образом:

Верхнее полеНижнее поле
LLLLLLLL        
CCCC        
        LLLLLLLL
LLLLLLLL        
        CCCC
        LLLLLLLL
LLLLLLLL        
CCCC        
        LLLLLLLL
LLLLLLLL        
        CCCC
        LLLLLLLL

Как Вы видите, структура повторяется только после 4 строк. Так что для чересстрочного видео Ваше y-смещение и высота усечения должны быть кратны 4.

Естественные разрешения DVD составляют 720x480 для NTSC и 720x576 для PAL, но существует флаг соотношения сторон, который указывает является ли видео полноэкранным (4:3) или широкоэкранным (16:9). Многие (если не большинство) широкоэкранных DVD не точно соответствуют формату 16:9 и могут быть как 1.85:1, так и 2.35:1 (кинематографический формат). Это означает, что в видео будут чёрные полосы, которые нужно усечь.

MPlayer предоставляет фильтр обнаружения усечения, который определяет прямоугольник, до которго нужно усечь (-vf cropdetect). Запустите MPlayer с -vf cropdetect и он выдаст настройки усечения для удаления полей. С целью получения точных параметров усечения, Вы должны проигрывать фильм достаточно долго для того, чтоб была использована вся область изображения.

Затем проверьте значения, полученные с помощью MPlayer, используя командную строку, выведенную cropdetect, и подстройте прямоугольник при необходимости. Фильтр rectangle может быть полезен, позволив Вам интерактивно менять прямоугольник усечения для Вашего фильма. Не забывайте следовать указанным выше руководствам по делимости, чтобы не испортить выравнивание цветности.

В ряде случаев масштабирование может быть нежелательным. Масштабирование по вертикальному направлению затруднено для чересстрочного видео, и если Вы хотите сохранить чересстрочность, Вам, как правило, будет необходимо воздерживаться от масштабирования. Если Вы не будете масштабировать, но всё ещё желаете размеры, кратные 16, то Вам придётся проводить излишнее усечение. Не проводите неполное усечение, поскольку чёрные полосы очень плохи для кодирования!

Поскольку MPEG-4 использует макроблоки 16х16, Вы должны убедиться, что каждое измерение кодируемого видео кратно 16; иначе Вы ухудшите качество, особенно на малых битпотоках. Вы можете сделать это, округлив ширину и высоту прямоугольника усечения до ближайшего меньшего целого, кратного 16. Как указано выше, при усечении Вам необходимо увеличить смещение по Y на половину разности старой и новой высоты, так что полученное видео будет браться из центра кадра. И из-за способа дискретизации DVD видео, убедитесь, что смещение есть чётное число. (Фактически, возьмите за правило никогда не использовать нечётные величины для любых параметров усечения или масштабирования видео.) Если Вы беспокоитесь из-за нескольких излишне отброшенных битов, возможно, Вы предпочтёте взамен масштабировать видео. Мы рассмотрим это ниже в нашем примере. В действительности, Вы можете доверить фильтру cropdetect сделать для Вас всё вышеупомянутое, т.к. у него есть необязательный параметр округления round, равный 16 по умолчанию.

Также будьте осторожны с "полутёмными" пикселями на краях. Убедитесь, что они тоже отрезаются, иначе Вы будете тратить биты, которым есть лучшее применение.

После всего выше сказанного и сделанного, Вы, вероятно, получите видео не точно формата 1:85.1 или 2.35:1, а с чем-то близким к этому. Вы можете вычислить новый коэффициент соотношения сторон вручную, но MEncoder предоставляет опцию для libavcodec, называемую autoaspect, которая сделает это для Вас. Ни в коем случае не увеличивайте размер этого видео с целью квадратизации пикселей, если Вы не желаете впустую потратить место на жёстком диске. Масштабирование должно выполняться при воспроизведении, и плеер использует коэффициент соотношения сторон, сохранённый в AVI, для определения правильного разрешения. К сожалению, не все плееры используют эту информацию автомасштабирования, поэтому Вам всё ещё может быть необходимо перемасштабирование.

7.1.5. Выбор разрешения и битпотока

Если Вы не собираетесь кодировать в режиме постоянного квантователя, Вам нужно выбрать битпоток. Понятие битпотока очень просто: это среднее число битов, которые будут использованы для сохранения Вашего фильма, в секунду. Обычно битпоток измеряется в килобитах (1000 бит) в секунду. Размер Вашего фильма на диске есть битпоток, умноженный на длительность фильма, плюс небольшие накладные расходы (см. раздел контейнер AVI для примера). Остальные параметры, такие как масштабирование, усечение и т.п. не изменят размер файла, пока Вы также не измените битпоток!

Битпоток изменяется не пропорционально разрешению. То есть файл разрешением 320х240 с 200 кбит/сек не будет того же качества, что этот же фильм разрешением 640х480 и 800 кбит/сек! Для этого есть две причины:

  1. Восприятие: Вы сильнее замечаете MPEG артефакты, если они больше! Артефакты возникают на масштабе блоков (8х8). Ваш глаз не увидит ошибки в 4800 маленьких блоков так же легко, как и в 1200 больших блоков (предполагая масштабирование обоих фильмов на полный экран).

  2. Теоретическая: Когда Вы уменьшаете размер изображения, но продолжаете использовать блоки того же размера (8х8) для пространственных частотных преобразований, Вы перемещаете больше данных в высокочастотные полосы. Грубо говоря, каждый пиксель содержит больше деталей, чем раньше. Так что несмотря на то, что Ваша картинка с уменьшенным масштабом содержит 1/4 информации в пространственных направлениях, она всё ещё может содержать большУю часть информации в частотных интервалах (предполагая, что высокие частоты были не использованы в оригинальном 640х480 изображении).

Последние руководства рекомендовали выбор битпотока и разрешения, основываясь на приближении "бит на пиксель", но это обычно не верно из-за упомянутых выше причин. Похоже, лучшей оценкой является рост битпотока пропорционально квадратному корню разрешения, так что 320х240 и 400 кбит/сек должно быть сравнимо с 640х480 и 800 кбит/сек. Однако, это не было строго проверено теоретически или эмпирически. Кроме того, из-за существенного отличия фильмов по уровню шума, деталей, количества движения и т.п., тщетно давать общие рекомендации для "битов на длину диагонали" (аналог битов на пиксель, используя квадратный корень).

Таким образом, мы обсудили сложность выбора битпотока и разрешения.

7.1.5.1. Расчёт разрешения

Следующие шаги помогут Вам рассчитать разрешение для Вашего кодирования без слишком сильного искажения видео, учитывая несколько видов информации об исходном видео. Прежде всего, Вам необходимо рассчитать коэффициент соотношения сторон для кодированного видео: ARc = (Wc x (ARa / PRdvd )) / Hc

где:

  • Wc и Hc — ширина и высота усечённого видео,

  • ARa — коэффициент соотношения сторон изображения, обычно 4/3 или 16/9,

  • PRdvd — отношение пикселей DVD, что равно 1.25=(720/576) для PAL DVD и 1.5=(720/480) для NTSC DVD.

Затем Вы можете рассчитать разрешение по X и Y, согласно определённому фактору качества сжатия (CQ): ResY = INT(SQRT( 1000*Битпоток/25/ARc/CQ )/16) * 16 и ResX = INT( ResY * ARc / 16) * 16.

Хорошо, но что такое CQ? CQ соответствует числу битов на пиксель и на кадр для кодирования. Грубо говоря, чем больше CQ, тем меньше вероятность увидеть артефакты кодирования. Однако, если у Вас есть заданный размер для Вашего фильма (например, 1 или 2 CD), есть ограниченное общее число битов, которые Вы можете потратить; поэтому важно найти хороший компромисс между сжимаемостью и качеством.

CQ зависит от битпотока, эффективности видеокодека и разрешения фильма. Обычно, в целях увеличения CQ, Вам нужно будет уменьшить размер фильма, при условии, что битпоток, вычисленный как функция конечного размера, и длина фильма постоянны. С MPEG-4 ASP кодеками, такими как Xvid и libavcodec, CQ меньше 0.18 обычно приводит к изображению с большим числом сегментов "квадратиками", из-за недостаточного числа битов для кодирования информации в каждом макроблоке. (MPEG4, как и многие другие кодеки, группирует пиксели в блоки по несколько пикселей для сжатия изображения; если битов не хватает, границы этих блоков заметны.) Следовательно, благоразумно выбрать CQ в диапазоне от 0.20 до 0.22 для рипа на 1 CD и 0.26-0.28 для рипа на 2 CD при использовании стандартных опций кодирования. Более продвинутые опции кодирования, такие как указанные для libavcodec и Xvid должны сделать возможным получение того же качества с CQ в диапазоне от 0.18 до 0.20 для рипа на 1 CD и 0.24-0.26 для рипа на 2 CD. Используя MPEG-4 AVC кодеки, такие как x264, Вы можете использовать CQ в диапазоне от 0.14 до 0.16 со стандартными опциями кодирования и должны суметь достичь таких низких значений, как 0.10 — 0.12 с помощью продвинутых опций кодирования x264.

Пожалуйста, обратите внимание, что CQ — лишь показательная величина, т.к. она зависит от кодируемого содержимого; CQ 0.18 может хорошо смотреться для Бергмана (Bergman), в отличии от такого фильма как Матрица (The Matrix), содержащего много сцен с быстрым движением. С другой стороны, бесполезно увеличивать CQ выше 0.30, т.к. Вы будете тратить биты без заметного увеличения качества. Так же обратите внимание, что, как было указано выше в данном руководстве, фильмам с низким разрешением (например, по сравнению с DVD) необходим более высокий CQ для того, чтоб они выглядели хорошо.

7.1.6. Фильтрация

Изучение использования видео фильтров MEncoder важно для получения хороших результатов кодирования. Вся обработка видео выполняется посредством фильтров: усечение, масштабирование, подстройка цвета, удаление шума, увеличение чёткости, деинтерлейс (преобразование видео из чересстрочной развёртки в построчную), телесин, обратный телесин и удаление блочной сегментации — и это лишь некоторые из них. Вместе с огромным количеством поддерживаемых входных форматов, разнообразие фильтров, доступных в MEncoder, является одним из его основных достоинств над другими аналогичными программами.

Фильтры загружаются в цепочку с помощью опции -vf:

-vf фильтр1=опции,фильтр2=опции,...

Большинство фильтров используют численные значения опций, разделённые двоеточиями, но синтаксис этих параметров различается у разных фильтров, так что читайте мануал для детальной информации о фильтрах, которые Вы желаете использовать.

Фильтры действуют на видео в порядке их загрузки. Например, следующая цепочка:

-vf crop=688:464:12:4,scale=640:464

сперва усечёт область изображения до 688х464 с верхним левым углом (12,4), а затем масштабирует результат до 640х464.

Некоторые фильтры нужно загружать в начале цепочки фильтров (или рядом с ним) с целью получения преимущества от использования информации после видеодекодера, которая будет потеряна или искажена другими фильтрами. Важнейшими примерами являются: pp (постобработка, только при выполнении операций удаления блочной сегментации (deblocking) или увеличения чёткости краёв (deringing)), spp (другой фильтр постобработки, служащий для удаления артефактов MPEG), pullup (обратный телесин), и softpulldown (для преобразования мягкого телесина в жёсткий).

В общем случае, Вам следует делать настолько мало фильтрации, насколько это возможно, для того чтоб остаться близко к оригинальному DVD источнику. Усечение часто необходимо (как описано выше), но избегайте масштабирования видео. Несмотря на то, что уменьшение размера иногда предпочтительно использованию бОльших квантователей, нужно избегать и того, и другого: помните, что мы с самого начала решили обменять биты на качество.

Также не корректируйте гамму, контрастность, яркость и т.п.. То, что хорошо выглядит на Вашем мониторе, может плохо выглядеть на других. Эти коррекции должны выполняться только при воспроизведении.

Однако, есть одна вещь, которую Вы, быть может, захотите сделать — это пропустить видео через очень слабый фильтр удаления шумов, такой как -vf hqdn3d=2:1:2. Ещё раз, причиной этому является то, что этим битам можно найти лучшее применение: зачем тратить их, кодируя шум, если Вы просто можете вернуть этот шум в процессе воспроизведения? Увеличение параметров для hqdn3d дополнительно улучшит сжимаемость, но увеличив значения слишком сильно, Вы рискуете ухудшить различимость изображения. Рекомендованные выше значения (2:1:2) слегка консервативны; не бойтесь экспериментировать с более высокими значениями и самостоятельно оценивать результаты.

7.1.7. Чересстрочная развёртка и телесин

Почти все фильмы снимаются при 24 fps [кадр/сек]. Поскольку в NTSC используется 30000/1001 fps, нужно выполнить некоторую обработку для такого 24 fps видео, чтобы оно корректно воспроизводилось при кадровой частоте NTSC. Этот процесс называется 3:2 пулдаун, обычно называемый телесин (поскольку пулдаун часто применяется в процессе показа телевизионного фильма, англ. telecine); и в упрощенном описании это работает путём замедления фильма до 24000/1001 fps и повтора каждого четвёртого кадра.

Однако, никакой специальной обработки не выполняется для видео на PAL DVD, которое воспроизводится при 25 fps. (Технически PAL может быть подверженным телесину, называемому 2:2 пулдаун, но на практике это не применяется). 24 fps фильм просто проигрывается на 25 fps. В результате фильм воспроизводится слегка быстрее, но если Вы не пришелец, то, вероятно, не заметите разницы. У большинства PAL DVD аудио скорректировано по высоте звука так, что, воспроизводясь при 25 fps, оно звучит нормально, несмотря на то, что аудиодорожка (и, следовательно, весь фильм) проигрываются на 4% быстрее, чем NTSC DVD.

Поскольку видео на PAL DVD не переделывается, Вам не стоит беспокоится о частоте кадров. У источника 25 fps и у Вашего рипа будет 25 fps. Однако, если Вы делаете рип NTSC DVD фильма, Вам, быть может, придётся выполнить обратный телесин.

Для фильмов, снятых на 24 fps, видео на NTSC DVD идёт либо с телесином 30000/1001, либо с построчной развёрткой 24000/1001 fps и предназначается для телесина на лету с помощью DVD плеера. С другой стороны, TV сериалы идут обычно только с чересстрочной развёрткой, но без телесина. Это не строгое правило: есть сериалы с чересстрочной развёрткой (например, Баффи, Убийца Вампиров [Buffy the Vampire Slayer]), в то время как другие представляют собой смесь построчной и чересстрочной развёртки (такие как Ангел [Angel] или 24).

Настоятельно рекомендуется прочитать раздел о работе с телесином и чересстрочной развёрткой в NTSC DVD для изучения способов обработки в разных ситуациях.

Однако, если Вы преимущественно делаете рипы фильмов, Вы, скорее всего, имеете дело с 24 fps видео либо с построчной развёрткой, либо с подвергнутым телесину; в последнем случае Вы можете использовать pullup фильтр: -vf pullup,softskip.

7.1.8. Кодирование чересстрочного видео

Если Вы желаете кодировать фильм с чересстрочной развёрткой (NTSC или PAL видео), Вам нужно решить, будете ли Вы его преобразовывать в построчную развёртку или нет. Хотя такое преобразование (деинтерлейс) сделает Ваш фильм пригодным для дисплеев с построчной развёрткой, таких как компьютерные мониторы и проекторы, это будет иметь свою цену: частота полей уменьшится вдвое от 50 или 60000/1001 до 25 или 30000/1001 поля в секунду, и примерно половина информации в Вашем фильме будет потеряна в сценах со значительным движением.

Поэтому, если Вы кодируете для высококачественных архивных целей, не рекомендуется делать деинтерлейс. Вы всегда можете преобразовать развёртку фильма в процессе воспроизведения (при воспроизведении на устройствах с построчной развёрткой). Мощность современных компьютеров вынуждает плееры использовать фильтр деинтерлейса, что слегка ухудшает качество изображения. Но плееры будущего будут способны имитировать дисплей TV с чересстрочной развёрткой, выполняя деинтерлейс на полной частоте полей и интерполируя 50 или 60000/1001 кадров в секунду для чересстрочного видео.

С чересстрочным видео нужно работать особым образом:

  1. Высота усечения и смещение по оси y должны быть кратны 4.

  2. Любое вертикальное масштабирование должно выполняться в режиме чересстрочной развёртки.

  3. Фильтры постобработки и удаления шума могут не работать как ожидается, только если Вы особо не позаботитесь об их применении к одному полю за раз, иначе они могут повредить видео при неверном использовании.

Учитывая вышесказанное, вот наш первый пример:

mencoder захват.avi -mc 0 -oac lavc -ovc lavc -lavcopts \
vcodec=mpeg2video:vbitrate=6000:ilme:ildct:acodec=mp2:abitrate=224

Обратите внимание на опции ilme и ildct.

7.1.9. Замечания об аудио/видео синхронизации

Алгоритмы аудио/видео (A/V) синхронизации MEncoder были разработаны с целью восстановления файлов с повреждённой синхронизацией. Однако, в ряде случаев они могут привести к ненужному пропуску или повторению кадров и, возможно, к лёгкой A/V рассинхронизации корректных входных данных (конечно, проблемы A/V синхронизации возникают только при обработке или копировании аудиотрека при кодировании видео, что настоятельно рекомендуется). Поэтому Вы можете переключиться на базовую A/V синхронизацию с помощью опции -mc 0 или разместить это в конфигурационном файле ~/.mplayer/mencoder, если Вы работаете только с хорошими источниками (DVD, TV-захват, высококачественные MPEG-4 рипы и т.п.), а не с повреждёнными файлами ASF/RM/MOV.

Если Вы хотите дополнительно защититься от странных пропусков и повторений кадров, Вы можете одновременно использовать опции -mc 0 и -noskip. Это предотвратит любую A/V коррекцию, и будет копировать кадры один в один, так что Вы не сможете это использовать, если будете применять какие-либо фильтры, которые непредсказуемо добавляют или отбрасывают кадры, либо если у Вашего входного файла переменный битопоток! Поэтому использование -noskip в общем случае не рекомендуется.

Сообщалось о том, что так называемое трёхпроходное аудиокодирование, поддерживаемое MEncoder, вызывало A/V рассинхронизацию. Это наверняка произойдёт при использовании совместно с некоторыми фильтрами, поэтому сейчас не рекомендуется использовать трёхпроходный аудио режим. Эта возможность оставлена только для совместимости и для опытных пользователей, понимающих когда это безопасно, а когда нет. Если Вы ранее никогда не слышали о трёхпроходном режиме, забудьте даже о том, что мы его упоминали!

Также были сообщения об A/V рассинхронизации при кодировании со стандартного ввода (stdin) с помощью MEncoder. Не делайте этого! Всегда взамен используйте файл или CD/DVD и т.п. устройство.

7.1.10. Выбор видеокодека

То, какой видеокодек лучше выбрать, зависит от нескольких факторов, таких как размер, качество, устойчивость к ошибкам, практичность и распространённость, многие из которых сильно зависят от личных предпочтений и технических ограничений.

  • Эффективность сжатия: Достаточно очевидно, что большинство кодеков нового поколения разработаны для увеличения качества и степени сжатия. Поэтому, авторы данного руководства и многие другие люди полагают, что Вы не можете ошибиться [1], выбирая MPEG-4 AVC кодеки (например, x264) вместо таких MPEG-4 ASP кодеков, как libavcodec MPEG-4 или Xvid. (Опытные разработчики кодеков могут быть заинтересованы в ознакомлении с точкой зрения Михаэля Нидермайера (Michael Niedermayer) "почему MPEG4-ASP отстой".) Аналогично, Вы должны получить лучшее качество с MPEG-4 ASP, по сравнению с MPEG-2 кодеками.

    Однако, новые кодеки, находящиеся в интенсивной разработке, могут страдать от ещё не замеченных ошибок, которые могут испортить кодирование. Просто это плата за использование передовых технологий.

    Более существенно то, что для начала использования нового кодека необходимо потратить время на изучение его опций так, чтобы Вы знали, что нужно подстраивать для достижения заданного качества изображения.

  • Аппаратная совместимость: Обычно необходимо длительное время для включения поддержки последних видеокодеков в автономные видеоплееры. В итоге, большинство поддерживает только MPEG-1 (наподобие VCD, XVCD и KVCD), MPEG-2 (например, DVD, SVCD и KVCD) и MPEG-4 ASP (например, DivX, libavcodec LMP4 и Xvid) (Осторожно: обычно поддерживаются не все возможности MPEG-4 ASP). Пожалуйста, обратитесь к технической спецификации Вашего плеера (если она доступна) или к гугл (google) для детальной информации.

  • Лучшее соотношение качества и времени кодирования: Кодеки, уже использующиеся определённое время (например, libavcodec MPEG-4 и Xvid) обычно сильно оптимизированы всевозможными остроумными алгоритмами и ассемблерным SIMD кодом. Поэтому они обладают тенденцией достижения лучшего соотношения качества к времени кодирования. Однако, у них могут быть некоторые очень продвинутые опции, которые, будучи включенными, сделают кодирование очень медленным ради несущественного выигрыша.

    Если Вам нужна высокая скорость, примерно придерживайтесь настроек видеокодека по умолчанию (хотя Вам стоит попробовать другие опции, упоминаемые в иных разделах данного руководства).

    Вы так же можете рассмотреть вариант использования многопоточного кодека, хотя это полезно только для пользователей машин с несколькими процессорами. libavcodec MPEG-4 позволяет это, но выигрыш в скорости ограничен и есть небольшой отрицательный эффект для качества картинки. Многопоточное кодирование Xvid, включаемое опцией threads, может использоваться для ускорения кодирования (на примерно 40-60% в типичных случаях) с небольшим ухудшением картинки или вообще без него. x264 также позволяет многопоточное кодирование, что обычно ускоряет процесс на 94% для каждого CPU ядра с уменьшением PSNR от 0.005 дБ до 0.01 дБ при типичных настройках.

  • Личные предпочтения: Здесь всё становится почти неразумным: из-за тех же причин, по которым одни придерживаются DivX 3 в течении лет, в то время как новые кодеки уже творят чудеса, другие люди предпочитают Xvid или libavcodec MPEG-4 использованию x264.

    Вам нужно принимать решение самостоятельно; не слушайте советов людей, признающих только один кодек. Сделайте несколько образцов клипов из искомых источников и сравните разные опции кодирования и кодеки, с целью выбора того, что Вам наиболее подходит. Лучший кодек — это тот, которым Вы сами овладели, и который выглядит лучше всего для Ваших глаз на Вашем дисплее [2]!

Пожалуйста, обратитесь к разделу выбор кодеков и форматов контейнера для получения списка поддерживаемых кодеков.

7.1.11. Аудио

Аудио — это гораздо более простая проблема: если Вы беспокоитесь о качестве, просто оставьте всё как есть. Даже потоки AC-3 5.1 не более чем 448 Кбит/с и они стоят каждого бита. Вы можете соблазниться перекодированием аудио в высококачественный Vorbis (он же ogg формат), но лишь то, что у Вас сегодня нет A/V приёмника для пропускания AC-3, не означает, что у Вас не будет его завтра. Для жизнеспособности Ваших DVD рипов в будущем, сохраняйте поток AC-3. Вы можете сохранить поток AC-3, копируя его непосредственно в видеопоток в процессе кодирования. Вы также можете извлечь AC-3 поток с целью мультиплексирования его в контейнеры наподобие NUT или Matroska (Матрёшка).

mplayer файл_источника.vob -aid 129 -dumpaudio -dumpfile звук.ac3

сохранит в файл звук.ac3 аудиодорожку с номером 129 из файла файл_источника.vob (Обратите внимание: DVD VOB файлы обычно используют нумерацию аудио, отличную от стандартной, что означает, что аудиодорожка VOB 129 — это вторая аудиодорожка файла).

Но иногда у Вас действительно нет иного выбора, чем далее сжимать звук для того, чтоб больше битов могло быть потрачено на видео. Большинство людей предпочитают сжимать звук с помощью MP3 или Vorbis аудиокодеков. Последний является очень эффективным, но MP3 лучше поддерживается аппаратными плеерами, хотя эта тенденция меняется.

Не используйте -nosound при кодировании файла с аудио, даже если позже Вы будете отдельно кодировать и мультеплексировать аудио. Хотя это может работать в идеальных случаях, использование -nosound обычно скрывает ряд проблем в Ваших настройках кодирования в командной строке. Другими словами, наличие звуковой дорожки в процессе кодирования гарантирует Вам, что в случае отсутствия сообщений, подобных «Слишком много аудиопакетов в буфере», у Вас будет получена правильная синхронизация.

Вам необходимо обработать звук с помощью MEncoder. Например, Вы можете копировать исходную звуковую дорожку в процессе кодирования с помощью -oac copy или преобразовать её в "лёгкий" 4 кГц моно WAV PCM с помощью -oac pcm -channels 1 -srate 4000. Иначе, в ряде случаев, будет создаваться видео файл, рассинхронизированный с аудио. Такие случаи происходят, когда число кадров видео исходного файла не совпадает с полной длиной кадров аудио, или когда были разрывы/сшивания потока, где появились пропущенные или излишние аудиокадры. Правильным решением подобных проблем является вставка тишины или усечение аудио в таких точках. Однако, MPlayer не может это сделать и если Вы демультиплексируете AC-3 аудио и кодируете его отдельным приложением (или создаёте дамп в PCM с помощью MPlayer), сшивания останутся нескорректированными и единственный испособ их исправить — пропускать/дублировать видеокадры в местах сшивки. Пока MEncoder видит аудио при кодировании видео, он может выполнять этот пропуск/дублирование (что обычно не вызывыет проблем, т.к. происходит при полностью чёрных кадрах или при смене сцен), но если MEncoder не доступно аудио, он просто будет обрабатывать все кадры "как есть" и они не будут совпадать с окончательным аудиопотоком, когда Вы, например, объедините аудио и видео дорожки в Matroska файл.

Прежде всего, Вам необходимо преобразовать DVD звук в WAV файл, который может использоваться аудиокодеком в качестве входных данных. Например:

mplayer исходный_файл.vob -ao pcm:file=звук.wav
    -vc dummy -aid 1 -vo null

сохранит вторую аудиодорожку из файла исходный_файл.vob в файл звук.wav. Возможно, Вы захотите нормализовать звук перед кодированием, поскольку аудиодорожки DVD обычно записываются с маленькой громкостью. Вы можете использовать, например, утилиту normalize, доступную в большинстве дистрибутивов. Если Вы пользуетесь Window$, утилита BeSweet делает то же самое. Вы можете сжать в Vorbis или MP3. Например:

oggenc -q1 звук.wav

кодирует звук.wav с качеством 1, что примерно эквивалентно 80 Кб/с и является минимальным качеством, при котором Вам нужно кодировать, если Вы заботитесь о качестве. Пожалуйста, обратите внимание, что MEncoder на данный момент не поддерживает мультиплексирование аудиопотоков Vorbis в выходной файл, поскольку он поддерживает только AVI и MPEG контейнеры для выходных файлов, использование каждого из которых может привести к проблемам A/V синхронизации с некоторыми плеерами, в случае когда AVI файл содержит VBR аудиопотоки наподобие Vorbis. Не беспокойтесь, в данном документе будет рассказано как Вы можете это сделать с помощью сторонних программ.

7.1.12. Мультиплексирование

Теперь, после того как Вы кодировали видео, скорее всего, Вы захотите мультиплексировать его с одним или несколькими аудиопотоками в такие видео контейнеры как AVI, MPEG, Matroska или NUT. На данный момент встроенная поддержка вывода аудио и видео в MEncoder есть только для форматов контейнеров MPEG и AVI. Например:

mencoder -oac copy -ovc copy -o выходной_фильм.avi \
    -audiofile исходный_звук.mp2 исходное_видео.avi

Это объединит видеофайл исходное_видео.avi и аудиофайл исходный_звук.mp2 в AVI файл выходной_фильм.avi. Эта команда работает с MPEG-1 слой I, II и III (более известный как MP3) аудио, WAV, а также с некоторыми иными форматами аудио.

MEncoder обладает экспериментальной поддержкой libavformat — библиотеки из проекта FFmpeg, поддерживающей мультиплексирование и демультиплексирование множества контейнеров. Например:

mencoder -oac copy -ovc copy -o выходной_фильм.asf \
    -audiofile исходный_звук.mp2 исходное_видео.avi \
    -of lavf -lavfopts format=asf

Это сделает то же самое, что и предыдущий пример, но выходным контейнером будет ASF. Пожалуйста, обратите внимание, что эта поддержка весьма экспериментальна (но становится лучше c каждым днём), и будет работать только в случае компиляции MPlayer с включенной поддержкой libavformat (что означает, что в большинстве случаев бинарная версия из пакетов не будет работать).

7.1.12.1. Улучшение мультиплексирования и надёжности A/V синхронизации

Вы можете столкнуться с некоторыми серьёзными проблемами A/V синхронизации при попытке мультиплексирования Вашего видео с некоторыми аудиодорожками, где, как бы Вы не подбирали задержку аудио, никогда не получается правильная синхронизация. Это может происходить при использовании некоторых видеофильтров, пропускающих или дублирующих некоторые кадры, например фильтров обратного телесина. Настоятельно рекомендуется добавлять видеофильтр harddup в конце цепочки фильтров для избежания подобных проблем.

Без опции harddup, в случае когда MEncoder хочет дублировать кадр, он полагается на то, что мультиплексор расположит отметку в контейнере таким образом, что последний кадр будет повторен для достижения синхронизации без реальной записи кадра. С опцией harddup, MEncoder вместо этого просто ещё раз поместит последний кадр в цепочку фильтров. Это означает, что кодер получит точно такой же кадр дважды и сожмёт его. Это приведёт у несколько большему файлу, но избавит от проблем при демультиплексировании или ремультиплексировании с другими форматами контейнеров.

Также у Вас может не быть иного выбора, как использовать harddup с форматами контейнеров, которые не слишком плотно связаны с MEncoder, например, с форматами, поддерживаемыми с помощью libavformat, которые могут не поддерживать дублирование кадров на уровне контейнера.

7.1.12.2. Ограничения контейнера AVI

Хотя это самый широко распространённый формат контейнера после MPEG-1, он также обладает некоторыми существенными недостатками. Пожалуй, они наиболее очевидны в его избыточности. Для каждой цепочки AVI файла теряется 24 байта на заголовки и индекс. Это приводит к чуть более 5 МБ/час или 1.0-2.5% избыточности для 700 МБ фильма. Это не кажется большим, но может означать разницу между возможностью использования 700 кбит/сек или 714 кбит/сек в случаях, когда каждый бит на счету.

В дополнение к малой эффективности, AVI также обладает следующими серьёзными ограничениями:

  1. Может быть сохранено только содержимое с фиксированной частотой кадров. В частности, это особенно ограничивает, когда Ваш исходный материал смешанного содержимого: например, является смесью NTSC видео и киноматериала. В действительности, есть хаки, позволяющие сохранять содержимое с переменным fps в AVI, но они увеличивают (и без того большую) избыточность впятеро или более того и поэтому непрактичны.

  2. Аудио в AVI файлах должно быть или с постоянным битпотоком (CBR) или с постоянным размером кадра (т.е. все кадры декодируются в одно и то же число выборок). К сожалению, самый эффективный кодек, Vorbis, не удовлетворяет ни одному из данных требований. Поэтому, если Вы планируете сохранять Ваш фильм в AVI, Вы должны использовать менее эффективный кодек, такой как MP3 или AC-3.

Сказав всё это, отметим, что MEncoder на данный момент не поддерживает вывод с переменным fps или Vorbis кодирование. Поэтому Вы можете не рассматривать всё это как ограничения, если MEncoder — это единственный инструмент, который Вы используете для кодирования. Однако, возможно использовать MEncoder только для кодирования видео и затем использовать внешние утилиты для кодирования аудио и мультиплексирования его в контейнер другого формата.

7.1.12.3. Мультиплексирование в контейнер Matroska (Матрёшка)

Matroska — это свободный, открытый стандарт формата контейнера, нацеленный на предоставление большого количества продвинутых возможностей, которые старые контейнеры (наподобие AVI) не поддерживают. Например, Matroska поддерживает аудиосодержимое с переменным битпотоком (VBR), переменные частоты кадров (VFR), разделы, файловые вложения, код обнаружения ошибок (EDC) и современные A/V кодеки, такие как "Продвинутое Аудио Кодирование" ("Advanced Audio Coding", AAC), "Vorbis" или "MPEG-4 AVC" (H.264), также не поддерживаемые AVI.

Утилиты, необходимые для создания Matroska файлов, сообща называются mkvtoolnix, и доступны для большинства Unix платформ, так же как и для Window$. Поскольку Matroska — открытый формат, Вы можете найти иные утилиты, которые лучше Вам подходят, но поскольку mkvtoolnix — наиболее общие и поддерживаются самой командой разработчиков Matroska, мы будем обсуждать только их использование.

Возможно, самым простым способом начать использовать Matroska является использование MMG, графической оболочки, поставляемой с mkvtoolnix. Следуйте руководству к mkvmerge GUI (mmg).

Также Вы можете мультиплексировать аудио и видео файлы используя командную строку:

mkvmerge -o выходной_файл.mkv входное_видео.avi входное_аудио1.mp3 входное_аудио2.ac3

Это объединит видеофайл входное_видео.avi и два аудиофайла входное_аудио1.mp3 и входное_аудио2.ac3 в Matroska файл выходной_файл.mkv. Как было отмечено ранее, Matroska способна реализовать гораздо большее, например, множественные аудиодорожки (включая тонкую настройку аудио/видео синхронизации), разделы, субтитры, разбиение и т.д.. Пожалуйста, обратитесь к документации на эти приложения для деталей.



[1] Несмотря на это, будьте осторожны: для декодирования MPEG-4 AVC видео с DVD разрешением необходима быстрая машина (например, Pentium 4 свыше 1.5 ГГц или Pentium M свыше 1 ГГц).

[2] Один и тот же результат кодирования может не выглядеть таким же на чьём-либо другом мониторе или при воспроизведении с помощью другого декодера, так что проверяйте Ваши результаты кодирования на жизнеспособность, воспроизводя их в разных начальных условиях.