Автор: Кондратьев А.В.
Поговорим об одном нечасто встречающемся, но весьма современном направлении. Об оцифрованной аудиоинформации.
Вопрос СИ узлов (блоков, устройств) типовой ПЭВМ, обрабатывающих такую информацию перед специалистом возникает нечасто. Но уж если возник – хоть «караул!!!» кричи, проблема просто отсутствует в действующих НМД основного регулятора.
Собственно, сама проблема распадается на две, причём принципиально различных:
Как и что измерять;
Как рассчитать параметр защищённости (и каков он?).
Давайте, вначале, определимся с первой задачей. А уж потом рассмотрим вторую.
Итак, начнём с анализа структуры аудио- и видеофайлов.
Для аудиоданных, то есть оцифрованного звука, как и вообще для большинства данных, обладающих избыточностью, существуют формы записи с компрессией и без компрессии. Несжатый формат, практически, существует (точнее – широко применяется) один - *.wav (файл (
Любой файл этого формата состоит из двух, областей. Одна из них – заголовок файла, другая – область данных. В заголовке файла хранится информация о:
Но для большего понимания смысла величин в заголовке следует немного напомнить из основных понятий оцифровки звука.
Звук состоит из колебаний, которые при оцифровке приобретают ступенчатый вид. Этот вид обусловлен тем, что компьютер может воспроизводить в любой короткий промежуток времени звук определенной амплитуды (громкости) и этот короткий момент далеко не бесконечно короткий. Продолжительность этого промежутка и определяет частота дискретизации. Например, у нас файл с частотой дискретизации 44.1 кГц, это значит, что тот короткий промежуток времени равен 1/44100 секунды (следует из размерности величины Гц = 1/с). Современные звуковые карты поддерживают частоту дискретизации до 192 кГц. .
Теперь, что касается амплитуды (громкости звука в коротком промежутке времени). От нее зависит точность передачи звука. Амплитуда выражается числом, занимаемым в памяти (файле) 8, 16, 24, 32 бит (теоретически можно и больше). Как известно, 8 бит = 1 байту, следовательно, какая-то одна амплитуда в какой-то короткий промежуток времени в памяти (файле) может занимать 1, 2, 3, 4 байта соответственно. Таким образом, чем больше число занимает места в памяти (файле), тем больше диапазон значений для этого числа, а значит и для амплитуды.
В «моно» варианте значения амплитуды расположены последовательно. В «стерео», сначала идет значение амплитуды для левого канала, затем для правого, затем снова для левого и так далее.
Совокупность амплитуды и короткого промежутка времени носит название сэмпл.
Таблица 15.1 - Структура WAV файла.
Местоположение |
Поле |
Описание |
0..3 (4 байта) |
chunkId |
Содержит символы "RIFF" в ASCII кодировке (0x52494646 в big-endian представлении). Является началом RIFF-цепочки. |
4..7 (4 байта) |
chunkSize |
Это оставшийся размер цепочки, начиная с этой позиции. Иначе говоря, это размер файла - 8, то есть, исключены поля chunkId и chunkSize. |
8..11 (4 байта) |
format |
Содержит символы "WAVE" (0x57415645 в big-endian представлении) |
12..15 (4 байта) |
subchunk1Id |
Содержит символы "fmt " (0x666d7420 в big-endian представлении) |
16..19 (4 байта) |
subchunk1Size |
16 для формата PCM. Это оставшийся размер подцепочки, начиная с этой позиции. |
20..21 (2 байта) |
audioFormat |
Аудио формат, полный список можно получить |
22..23 (2 байта) |
numChannels |
Количество каналов. Моно = 1, Стерео = 2 и т.д. |
24..27 (4 байта) |
sampleRate |
Частота дискретизации. 8000 Гц, 44100 Гц и т.д. |
28..31 (4 байта) |
byteRate |
Количество байт, переданных за секунду воспроизведения. |
32..33 (2 байта) |
blockAlign |
Количество байт для одного сэмпла, включая все каналы. |
34..35 (2 байта) |
bitsPerSample |
Количество бит в сэмпле. Так называемая "глубина" или точность звучания. 8 бит, 16 бит и т.д. |
36..39 (4 байта) |
subchunk2Id |
Содержит символы "data" (0x64617461 в big-endian представлении) |
40..43 (4 байта) |
subchunk2Size |
Количество байт в области данных. |
44.. |
data |
Непосредственно WAV-данные. |
Примечание: Цветом выделены линки в сети интернет с более подробной информацией.
Вот и весь заголовок, длина которого составляет 44 байта, далее следует блок данных.
Собственно данные – это цифровое значение (несжатое) каждого следующего семпла с разрядностью, соответствующей глубине звучания. Для нас с вами это означает, что используя в качестве тест-сигнала столь любимый в «аналоговом» звуке тональный сигнал постоянной частоты и амплитуды в оцифрованном виде мы будем иметь повторяющиеся (с периодом тонового сигнала) группы байтов. Но в этих группах каждый последующий байт будет отличаться распределением нулей и единиц.
То есть постоянная тактовая частота следования кодовых импульсов в области «data» нам принципиально «не светит» в таком случае.
Порассуждаем немного о том, а какие же именно ТКУИ (технические каналы утечки информации) могут существовать при наличии (передаче, обработке, записи, воспроизведении) именно такой, достаточно специфичной, информации.
Итак, мы установили, что в оцифрованном виде аудиоинформация представлена, в простейшем случае, в формате файла, в котором присутствует весьма короткий (по сравнению с областью «data») заголовок и очень протяжённое «тело».
«Бытие» этой информации происходит в двух ипостасях (слава богу – не в трёх, а то в вопросе толкования понятия «троицы» христианство спорит уже два тысячелетия несмотря на то, что Никейский символ веры был утверждён Первым Вселенским Собором аж в 325 году от Рождества Христова):
Оставим, пока, «аналог» в стороне. Передача файла по любым интерфейсам между узлами ПЭВМ всегда одна и та же. Будь это шина PCI, интерфейс SATA и т.д. И это сохраняется до попадания в звуковую карту. Поэтому вполне допустимо предположить, что СИ ПЭМИН упомянутых узлов (блоков, интерфейсов) имеет полный смысл вести теми приёмами и в тех тест-режимах, которые предназначены для оценки цифровой информации вообще.
При такой постановке задачи, собственно говоря, становиться безразличным, какие именно файлы, какого формата, обрабатываются (пересылаются, записываются, считываются). Не стоит ломать голову над вопросами кодировки, алгоритмами компрессии и т.д. Просто предположим, что аудиоинформация, особенно компрессированная (форматы *mp3 и аналогичные) априори безизбыточная. Тогда логично оценивать результаты измерений тем же показателем защищённости, который установлен НМД для «цифры» вообще. Задача оценки аудио- и видеоинформации вырождается в типовой СИ ПЭМИН «со всеми вытекающими…»
Отметим только, что для создания тест-режима необходимо (с учётом высоких скоростей работы сегодняшних средств ЭВТ) создание файлов большого объёма (длительности). Задача эта не столь сложна. Пользуясь аппаратом, например, MATLAB (или на любом языке высокого уровня) несложно искусственно создать файл формата *. WAV с областью data в несколько ГБт. Причём задать некий любой постоянный искусственный байт данных. Подобрать этот байт (точнее – пару байтов, для типового 16-разрядного сэмпла) надо исходя из обычного требования постоянной «тактовой частоты» следования импульсов (переходов тока, потенциалов) в том типе интерфейса, который нужно испытывать. Понятно, что при воспроизведении такого файла никакого звука на выходе звуковой карты не будет принципиально, будет «постоянный ток» (напряжение) некого уровня. Но это для цифровых интерфейсов, как раз несущественно. Можно применить HEX-код 55 (10101010), можно FF (11111111), АА (01010101) или 00 (00000000) – всё зависит от решаемой задачи и системы кодирования в исследуемом интерфейсе. Несколько менее удобным это будет для 24-битовой глубины и абсолютно аналогично для 32-разрядной глубины кодирования.
Вернёмся к аналоговой части тракта прохождения аудиоинформации.
Фактически в этой форме она присутствует только на входах и выходах звуковой карты и далее, в процессе усиления мощности.
Вообще методики СИ оценки защищённости для аналогового звукового сигнала установлены аж с 1978 года, действуют и особых вопросов при их реализации не вызывают.
Методики измерения полей (соответственно, «Е» и «Н») компонент) хорошо известны специалистам. Входить в их подробности в открытом материале мы не будем.
Если у Вас стоит задача СИ совсем уж «нестандартного» изделия (например, цифрового магнитофона, конференц-системы и т.д.), то достаточно строго разделить участки с цифровой формой существования информации и с аналоговой формой. Цифровые «участки (узлы, блоки, интерфейсы) рассматривать как «изделия ЭВТ» с раздельным рассмотрением участков с параллельным и с последовательным кодированием. Далее – всё по соответствующей методике.
При таком анализе легко столкнуться с ситуацией, при которой невозможно «запустить» в систему искусственно сформированный *.wav файл (и кодер в системе иной, вообще неизвестного типа, и в «железо» влезть нельзя, документации нет).
В этом случае основное – выделить участки (блоки, устройства) с последовательным кодированием (как наиболее «опасные» с точки зрения ТКУИ ПЭМИН). Далее запускаем «на вход» «белый шум» и, определив таковые частоты, обычным образом ищем ПЭМИН в виде участков сплошного спектра (в первом приближении. Вспомните спектры USB-интерфейса!). И т.д. и т.п. :)
Особое место при формировании подходов к СИ занимают устройства усиления мощности (УНЧ) класса «Д», то есть с широтно-импульсным модулированием мощности выходного сигнала. Обычно тактовая частота таких УНЧ лежит в области 200-700 кГц. Их работа сопровождается сильнейшим ПЭМИН (несмотря на ФНЧ в выходной цепи), как и наличием того же сигнала в цепях питания.
Частота эта, для конкретного устройства, как правило – относительно стабильна («кварцевать» её никому не надо, обычно задаётся и поддерживается RC-цепью, отсюда стабильность порядка 10-2÷10-3 – обычная). Сама по себе она (частота коммутации выходных ключей) неинформативна. И сама она неинформативна. Однако, учитывая её модуляцию (как упоминалось выше – ШИМ), в строгом соответствии с теорией, появляются боковые частоты. А с учётом того, что спектр этих частот непрерывный (как и для любого недерменированного сигнала, к которому относится и речевой сигнал), то не частоты, а полосы частот. То есть опять получаем вид спектра «линейчато-сплошной). Очень приблизительно ожидаемый спектр иллюстрируется рисунком 15.1
Частота коммутации выходных ключей и её гармоники будут заметно выделяться и не будет» информативными». А вот области частот вблизи них (такой «прямоугольный» характер спектра будет только при воспроизведении системой шумового сигнала, «белого» в рабочей полосе частот.
Теперь буквально пару слов о том, о чём в открытом материале говорить сложно (весьма!).
Все мы хорошо помним, что именно является параметром защищённости для оценки алфавитно-цифровой оцифрованной информации. И сам параметр, и его нормированные значения устанавливались исходя из постулата о априорной безизбыточности информации. Если совсем строго – этот вопрос если и рассматривался, то как именно – скрыто тьмою времён.
В применении к аудиоинформации такой подход явно нерационален. Понятно же, что искажения некоторого количества сэмплов могут и не помешать перехвату смысла речевого сообщения. Слух человека способен отфильтровывать очень многое и человек просто «не обращает внимания» на некоторые виды искажения речевого сигнала.
Таким образом, можно утверждать, что при сохранении самого подхода к определению параметра защищённости для оценки аудиоинформации (в оцифрованном виде) значения нормы должны быть ужесточены. Насколько… естественно не здесь и не сейчас. В общем и целом это предмет исследования. Учитывая, что и для «цифры», и для речи оценки (нормы) представляют собою (в одном случае – напрямую, во втором – как база для параметра) некоторые вероятности, то вполне возможно, как в математике это обычно и решается, итоговый параметр (норма) тоже будет «вероятность», причём являющаяся результатом перемножения исходных вероятностей с некими весовыми коэффициентами. Но не будем «бежать впереди паровоза» :)
Отметим только, что для аудиокодеков «с компрессией» избыточность сигнала заметно меньше и, возможно, задача оценки именно так оцифрованного сигнала упрощается пропорционально степени компрессии.
Вопросы СИ аудиоинформации в её аналоговой форме существования здесь не рассматриваются, поскольку это достаточно тривиально. Методика есть, все приёмы измерения как полей рассеяния, так и НЧ/ВЧ АЭП от устройств ОТСС (ТСПИ) или ВТСС специалисту хорошо известны. Если же возникают вопросы, то, по ряду причин, их здесь рассмотреть просто нереально. Это уже технологические тонкости профессии, а не общетеоретические вопросы :)