Доклад: Аудио материалы

Аудио материалы

1.Общие вопросы

В настоящее время звуковая информация является неотъемлемой частью любой мультимедиа системы. В связи с этим возникает проблема хранения звуковых данных. До появления цифровой техники звук хранился в виде, наиболее близком к природному: в виде аналоговых колебаний, записанных на магнитный носитель или виниловый диск. Однако, несмотря на то, что этот способ хранения наиболее точно передает все свойства звука, проблемы хранения и передачи делают невозможным использование этого способа в мультимедиа системах. Возникает необходимость хранения звуковой информации в цифровом виде.

При работе со звуком важно знать не только основные возможности программ, используемых при создании звуковых мультимедиа компонентов, но и основные форматы и параметры цифрового звука. Немаловажную роль при работе со звуком играет понимание процессов преобразования аналогового звука в цифровую форму.

Звуковая информация представляет собой совокупность колебаний звуковой частоты – от 20Гц до 20кГц

Рис.1. Звуковая информация

Наиболее очевидным способом хранения звука в цифровой форме является дискретизация по времени и амплитуде. При этом непрерывный сигнал представляется как последовательность отсчетов, идущих через фиксированные интервалы времени (рис. 2).

Рис.2. Дискретизация по времени и амплитуде

Такое представление называется также импульсно-кодовая модуляция (Pulse Code Modulation, PCM). На качество преобразованного звука влияют два параметра: частота дискретизации (sampling rate), и разрядность дискретизации (sample size). Частота дискретизации показывает, как часто измеряется амплитуда сигнала, а разрядность дискретизации – число битов, используемых для хранения каждого отсчета. Чем выше эти два параметра, тем ближе оцифрованный сигнал будет к исходному аналоговому, в то же время, будет увеличиваться объем данных, кодирующих этот сигнал, и, соответственно, требуемая пропускная способность канала связи. Возникает задача сжатия оцифрованного звука.

- стандарт CD-audio: 44,1 кГц, 16 бит;

- стандарт DVD: 96 кГц, 24 бит.

Форматы цифрового звука

Формат аудиофайла представляет собой спецификацию, описывающую структуру, в которой аудиоданные хранятся в файле. Существование множества звуковых форматов обусловлено множеством областей применения звуковых данных, например, для воспроизведения в CD-приводе, для хранения музыки или звуковых эффектов в видео играх, для записи саундтреков к видеоклипам или для загрузки через Internet.

Рассмотрим некоторые форматы для хранения аудиоданных.

Формат Microsoft Wave

Формат Wave является форматом для операционной системы Windows. Формат поддерживает множество различных типов аудиоданных, в том числе 8- и 16-битные, моно и стерео. Имеет поддержку большого количества схем сжатия, включая множество вариантов ADPCM через Microsoft ACM (Audio Compression Manager). Файлы в формате Wave имеют расширение wav.

Формат Windows Media Audio

Это специальный формат, позволяющий создавать потоковые аудиофайлы для передачи через Internet, поддерживает видеоданные. Является форматом для операционной системы Windows. Формат Windows Media Audio содержит собственные сложные функции сжатия, позволяющие передавать аудиоданные через Internet в режиме реального времени. Файлы Windows Media имеют расширения wma и asf.

Формат MPEG Audio (MP3)

Формат MPEG Audio использует математические и акустические алгоритмы компрессирования звука, что позволяет во много раз уменьшить количество памяти, занимаемое аудиофайлом, с некоторой потерей качества. Поддерживается практически всеми операционными системами при наличии специализированных программных проигрывателей. Файлы в формате MPEG Audio имеют расширение mp3.

2. Проведение записи

Качество сжатого аудио во многом определяется тем, насколько качественно была осуществлена первичная запись дикторского голоса и как записывалось музыкальное сопровождение.

Общая характеристика программно-аппаратного комплекса записи звука Degidesign Session 8

Session 8 - комплексная цифровая студия, объединяющая вместе цифровую запись звука, MIDI, аналоговый микшер и систему коммутации. Работает на базе компьютера PC. Полный комплект состоит из двух плат (Core System) - основная занимает 16-битный ISA слот, и на ней расположен цифровой процессор (DSP) + SCSI-2 контроллер, вторая 8-битная ISA плата служит как порт с внешним разъемом для подключения звукового интерфейса ввода/вывода (I/O Interface). Комплекс оснащен программным обеспечением с одноименным названием «Session 8» версии 2.5, разработанным под операционную систему Microsoft Windows 95. Поддерживается объем дискового пространства более 2 Гбайт; введены многочисленные автоматизированные функции для редактирования звука.

Для микширования Session 8 располагает двумя режимами: внешний, для использования с автономным микшером, и внутренний, полностью цифровой. Во внутреннем режиме работа идет с «виртуальным» микшером на экране монитора. Цифровые параметрические эквалайзеры позволяют работать без каких-либо качественных потерь, присущих аналоговым агрегатам.

Другой особенностью Session 8 является режим программной коммутации (routing) входов. Входы можно распределять с помощью простого и удобного графического интерфейса, а также можно назначать эффекты на каналы (компрессоры, гейты и т.д.). С помощью этой функции можно обойтись без аппаратного переназначения каналов записи, что позволяет избежать потери времени на коммутацию проводов.

Благодаря наличию стандартного WAV драйвера Session 8 работает и с другими программными продуктами, включая Cakewalk, Cubase, Sound Froge, Cool Edit и т.п.

3. Обработка

Для компьютерной обработки аудиоинформации существует множество программ и различных программных фильтров, качество обработки определяется профессионализмом персонала и стоимостью программно-аппаратных комплексов.

Описание типового технологического процесса производства звуковых компонентов.

Можно выделить несколько основных этапов технологической цепочки подготовки звукового мультимедиа компонента:

- запись;

- обработка записанного материала:

a) удаление шумов;

b) монтаж фонограммы в соответствии с техническим заданием.

Монтаж фонограммы предполагает удаление избыточных пауз, сборку речевой фонограммы из нескольких дублей, корректировку оговорок диктора или удаление ненужных музыкальных тем, а также иные действия, предусмотренные техническим заданием;

c) частотная обработка, применение эффектов;

d) выравнивание уровня громкости.

- контрольное прослушивание и сохранение аудиофайла в формате, указанном в техническом задании.

Контрольное прослушивание производится с целью выявления технического брака, ошибок монтажа и проверки соответствия параметров фонограммы техническому заданию.

При создании синхронного саундтрека к видеоряду технологическая цепочка выглядит иначе:

- подготовка исходных материалов:

a) запись и обработка фонограммы дикторского текста;

b) подбор музыкальных фрагментов для фонового сопровождения;

c) подбор звуковых эффектов.

- монтаж саундтрека:

a) предварительное синхронное озвучивание эффектами;

b) монтаж фонограммы дикторского текста;

c) компилирование музыкального саундтрека;

d) мастеринг – сведение фонограмм звуковых эффектов, с записью дикторского текста и музыкального саундтрека.

- контрольное прослушивание и сохранение данных:

a) Контрольное прослушивание (просмотр);

b) сохранение саундтрека в студийном формате (Microsoft WAVE, PCM (Uncompressed), 16 bit, 44.1 kHz, mono/stereo);

c) сохранение видеофайла в требуемом формате.

Техническое задание

Пример выполнения записи и обработки звукового сопровождения для видеоролика

Озвучить видео ролик, представленный файлом lions.mpg.

Дикторский текст:

«Лев – это очень крупный, могучего телосложения зверь. Его самцы достигают в длину 180 – 240 сантиметров, не считая хвоста. Масса льва от 180 до 227 килограммов. Голова чрезвычайно массивная с довольно длинной мордой. Лапы невысокие, очень сильные. Весьма характерна сильно развитая у взрослых самцов длинная грива, покрывающая шею, плечи и грудь, тогда как на всем остальном теле шерсть короткая буровато-желтая. В отличие от других крупных хищников, львы встречаются не только в одиночку и парами, но и крупными группами – так называемыми прайдами. В прайд обычно входят один-два взрослых самца, несколько взрослых львиц и молодые звери. Добычей им служат различные антилопы, зебры и другие копытные средней величины вплоть до молодых слонов, носорогов, бегемотов, а также домашнего скота»

Формат фонограммы: MPEG, 16 bit, 44.1 kHz, mono.

Саундтрек должен содержать звуки природы, совпадающие с событиями в сюжете; закадровый дикторский текст. В фонограмме дикторского текста должны быть удалены избыточные паузы между словами.

Параметры фонограммы дикторского текста: пиковый уровень громкости 0 dB, Graphic EQ срез НЧ ниже 160 Hz, Dynamics Graphic Compressor Soft knee compressor/gate (-24 dB threshold).

Параметры фонограммы звуковых эффектов: средний уровень громкости –28 dB.

3.1Запись дикторского текста на оборудовании Session 8

После запуска программы сконфигурируем сессию.

Сессия – это проектный файл программы Session 8, в котором хранятся сведения о коммутации каналов, список файлов, записанных в этой сессии.

Необходимо подключить микрофон к микрофонному входу аудио интерфейса Session 8. Затем нужно запустить программную оболочку Session 8 и в ней назначить программный канал, соответствующий входу, куда подключен микрофон. Назначение каналов приведено на рисунке 3.1.

Рис. 3.1

Затем необходимо настроить оборудование, т.е. найти такое положение микрофона, в котором микрофон улавливает минимум электрических и прочих шумов. Также необходимо установить уровень чувствительности канала. Эти настройки влияют на уровень громкости записи.

Управление записью в Session 8 можно осуществлять в окне Edit и в окне Mix:

Edit Window – это встроенный звуковой редактор. Здесь записанный материал представляется в графической форме, редактор позволяет проводить линейный монтаж нескольких аудио треков (не более 8). Также Edit Window позволяет производить запись.

Mix Window – представляет собой виртуальную микшерную консоль. На каждый канал предусмотрены графические регуляторы: уровня громкости, баланса, также есть возможность управления шестью аппаратными эквалайзерами.

- окно Edit удобно использовать, когда все технические параметры записи уже выставлены. При этом планируется запись нескольких дублей, поскольку в этом окне можно видеть имена всех записанных ранее файлов. Также в этом окне удобно работать при многоканальной записи. Диалоговое окно режима приведено на рисунке 3.2.

Рис. 3.2

- окно Mix обычно используется для выставления технических параметров записи. Есть возможность установления программного уровня громкости (не влияет на уровень записи). Здесь назначаются каналы, в которых будет производиться запись. Удобный графический индикатор позволяет в реальном времени контролировать уровень записи и отслеживать перегрузку по амплитуде (Clipping). Диалоговое окно режима приведено на рисунке 3.3.

Рис. 3.3

Для удобства пользователей, управляющие кнопки аналогичны кнопкам воспроизведения/записи на магнитофонах. Session 8 не сможет произвести запись, если ни один из каналов не открыт для записи. Для того чтобы разрешить запись в канале, необходимо предварительно сделать активной кнопку Record-Enable в том канале, в который должна быть произведена запись. Также невозможно производить запись, когда заполнен жесткий диск Session 8. В Edit Window отображается либо свободное место в мегабайтах, либо оставшееся время записи в зависимости от числа открытых для записи каналов. После предварительных настроек, для начала записи необходимо нажать кнопку Record и затем нажать кнопку Play (или клавишу Space на клавиатуре). Остановка записи осуществляется путем нажатия кнопки Stop.

Session 8 осуществляет запись непосредственно на свой жесткий диск (Direct-to-Hard). В отказе программы Session 8, вся несохраненная пользователем информация остается на диске.

По окончании записи необходимо сохранить записанный материал. Для этого нужно воспользоваться пунктом меню File à Save Takes. После этого запись будет сохранена на жесткий диск компьютера с указанным именем в формате WAVE.

Хотя программная часть комплекса Digidesign Session 8 и предоставляет некоторые возможности по монтажу и обработке записанного звука, лучше воспользоваться более мощным звуковым редактором для достижения более высокого качества звукового файла.

Фонограмма с записью дикторского текста (до монтажа) представлена в Приложении 1, пример 1 (CD-ROM:\Record\BIO_01.wav).

3.2Монтаж и обработка звуковых файлов в Sound Forge 6.0

Удаление шумов

Как правило, в записи присутствуют шумы, не редко сравнимые по амплитуде с полезным сигналом. Первый этап обработки звукового файла – это удаление шумов из фонограммы. Окно Noise Reduction приведено на рисунке 3.4.

Рис. 3.4

Удаление квазипостоянного широкополосного шума производится с помощью плагина Noise Reduction. В основе работы этой функции лежит частотное разделение спектра сигнала на 64 полосы. К каждой полосе применяется свой Gate, который подавляет сигнал ниже заданного уровня и пропускает, если уровень выше установленного. Разделение спектра всего сигнала на полосы способствует более точному разделению шума и полезного сигнала. Функция позволяет не только освободить сигнал от шума, но и сохранит шум в отдельном файле, если это необходимо. Noise Reduction можно использовать не только для шумоподавления, но и для удаления любых нежелательных звуков из фонограммы (например, сирены автосигнализации в интервью).

Перед вызовом Noise Reduction необходимо выделить фрагмент файла от 200 до 500 милисекунд, который должен быть тишиной (например, пауза между словами). Далее выполняется сканирование выделенного фрагмента (Capture noiseprint). Noise Reduction позволяет задавать глубину подавления шума, а также иные параметры. Предлагается несколько режимов обработки. Режим точного подавления Mode 0, режим «приблизительного» подавления Mode 3. При нажатии кнопки Selection задается область применения обработки (в противном случае шум будет удален из выделенного ранее фрагмента). В случае необходимости можно повторить выполнение Nose Reduction.

Монтаж

После удаления шума осуществляется монтаж фонограмм в соответствии с требованиями технического задания. Монтаж фонограммы во многом похож на процесс редактирования текста. Отдельно взятые фрагменты речевых фонограмм собираются в единое целое в соответствии с монтажным листом. Музыкальные фонограммы корректируются по длительности, скорости и тональности звучания.

Монтажный лист представляет собой таблицу, в которой указывается имя файла, дикторский текст (для речевых фонограмм) или название музыкального фрагмента, хронометраж файла. В отдельных случаях приводится тайм-код на каждую фразу или музыкальную тему.

Sound Forge позволяет использовать буфер обмена данных, производить выделение произвольных областей файла, удалять фрагменты из фонограмм (например, паузы в речи), добавлять фрагменты в фонограмму, корректировать скорость звучания, в том числе без изменения высоты тона и т.д.

При удалении пауз из фонограммы используется автоматизированное средство Auto Trim/Crop в меню Process. Диалоговое окно Auto Trim/Crop представлено на рисунке 3.5.

В этом окне можно задать минимальное расстояние между фразами (Minimum inter-phrase silence). Все участки тишины, короче заданного значения вырезаны не будут.

Также присутствуют настройки порога атаки (attack threshold) и порога отпускания (release threshold). Порог атаки задает тот уровень громкости, который программа будет считать началом новой фразы, а порог отпускания – это уровень громкости, который программа будет считать концом фразы и начала паузы.

Рис. 3.5

Частотная обработка

Для частотной обработки обычно применяется эквалайзер. Эквалайзер – это устройство или программное средство, позволяющее раздельно управлять громкостью частот в различных диапазонах сигнала. В Sound Forge эквалайзер представлен в трех вариантах: графический, параграфический и параметрический.

На рисунке 3.6 показано окно графического эквалайзера. Усиливать или ослаблять частоты можно с помощью смещения точек на кривой выше уровня нуля или ниже. Также графический эквалайзер обладает вкладками 10 Band и 20 Band, которые имитируют аппаратные эквалайзеры.

Рис. 3.6

Параметрический эквалайзер является более мощным и гибким, чем графический эквалайзер. Окно параметрического эквалайзера приведено на рисунке 3.7.

Рис. 3.7

Основное отличие этого эквалайзера от графического возможность более точного задания частоты и уровня громкости сигнала этой частоты.

Параграфический эквалайзер, в отличии от графического и параметрического, позволяет получить более сложный – нелинейный график коррекции звука. Окно параграфического эквалайзера приведено на рисунке 3.8.

Рис. 3.8

В распоряжении пользователя находятся четыре частотных диапазона, у каждого из которых своя регулировка уровня (четыре вертикальных движка в середине окна под графиком).

Для каждого диапазона можно указать, где он расположен на шкале частот. Эта операция производится с помощью горизонтальных движков Center frequency (частота середины диапазона). Также можно регулировать ширину диапазона.

Для работ, связанных с частотной обработкой фонограммы дикторского текста наиболее удобно использовать графический эквалайзер. Параметрический и параграфический эквалайзеры используются для проведения более сложных работ, связанных с частотной обработкой.

Выравнивание уровня громкости

Также как и частотную обработку, выравнивание уровня громкости необходимо производить при издании нескольких фонограмм в рамках одного мультимедиа продукта. Это необходимо для комфортного прослушивания.

В качестве функции для выравнивания уровня громкости удобно использовать Normalize. Эта функция увеличивает громкость звука следующим образом: сначала исследует файл на предмет самого высокого уровня сигнала, а потом вычитает этот уровень из максимально возможного, который равен 100% (или установленному значению). Функция Normalize использует получившуюся разность при увеличении громкости звуковых данных. Самый высокий уровень сигнала в данном файле доводится до 100% (или до установленного значения), а более низкие уровни пропорционально увеличиваются.

Контрольное прослушивание и сохранение аудио файла

Перед сохранением окончательной версии фонограммы, ее необходимо прослушать. В случае выявления дефектов или несоответствия требованиям технического задания, выявленные недостатки необходимо устранить. После устранения брака, производится повторное контрольное прослушивание.

Если фонограмма соответствует требованиям технического задания, выполняется последний этап обработки – сохранение файла. Для возможности изменения обработки полученного файла в будущем, необходимо сохранить его не только в выходном формате (формат, указанный в техническом задании), но и без компрессии (Microsoft WAVE, PCM (Uncompressed), 16 bit, 44.1 kHz, mono/stereo).

Таблица основных уровней качества звуковых файлов, создаваемых для использования в каналах связи.

kBit/s	Частота дискретизации при обработке сигнала	kbps	Реальная выходная частота	Описание
256	44 kHz, stereo	32	22 кГц	Максимальные возможности mp3 формата - звук чистый и без искажений. Но и максимальный поток (32 кбайта в секунду), что скажется на чуть большем размере файла mp3 и DivX и возможно небольшом замедлении на слабых компьютерах при воспроизведении.
128	44 kHz, stereo	16	18 кГц	Оптимальные возможности mp3 формата - звук с минимумом искажений. Средний поток - 16 кбайт. Наиболее часто используемый битрэйт при формировании mp3.
96	44 kHz, stereo	12	16 кГц	Средние возможности mp3 формата - звук еще нормальный, но могут быть искажения и уже нет высоких частот. Часто используемый битрэйт, хотя выигрыш в конечном размере файла по сравнению с предыдущим форматом небольшой, а искажений существенно больше.
64	44 kHz, mono	8	18 кГц	Это моно аналог варианта 128 кбит. Оптимальные возможности mp3 формата для моно звука - звук с минимумом искажений, но моно. Часто используемый битрэйт в случаях, когда не требуется стереозвука.
48	44 kHz, mono	6	16 кГц	Не очень качественный звук для музыкальных файлов, могут быть искажения и уже нет высоких частот, причем моно.
64	22 kHz, stereo	8	11 кГц	Оптимальные возможности mp3 формата для дикторского сопровождения - звук может быть с небольшими искажениями, высоких мало.
32	22 kHz, mono	4	11 кГц	Оптимальные возможности mp3 формата для дикторского сопровождения - звук может быть с небольшими искажениями, высоких мало, но хорошие средние. Минимальный битрэйт (4кбайта в секунду).