Как кодируются звук и видео
Кодирование для чайников, ч.1
Не являясь специалистом в обозначенной области я, тем не менее, прочитал много специализированной литературы для знакомства с предметом и прорываясь через тернии к звёздам набил, на начальных этапах, немало шишек. При всём изобилии информации мне не удалось найти простые статьи о кодировании как таковом, вне рамок специальной литературы (так сказать без формул и с картинками).
Статья, в первой части, является ликбезом по кодированию как таковому с примерами манипуляций с битовыми кодами, а во второй я бы хотел затронуть простейшие способы кодирования изображений.
0. Начало
Давайте рассмотрим некоторые более подробно.
1.1 Речь, мимика, жесты
1.2 Чередующиеся сигналы
В примитивном виде кодирование чередующимися сигналами используется человечеством очень давно. В предыдущем разделе мы сказали про дым и огонь. Если между наблюдателем и источником огня ставить и убирать препятствие, то наблюдателю будет казаться, что он видит чередующиеся сигналы «включено/выключено». Меняя частоту таких включений мы можем выработать последовательность кодов, которая будет однозначно трактоваться принимающей стороной.
1.3 Контекст
2. Кодирование текста
Текст в компьютере является частью 256 символов, для каждого отводится один байт и в качестве кода могут быть использованы значения от 0 до 255. Так как данные в ПК представлены в двоичной системе счисления, то один байт (в значении ноль) равен записи 00000000, а 255 как 11111111. Чтение такого представления числа происходит справа налево, то есть один будет записано как 00000001.
Итак, символов английского алфавита 26 для верхнего и 26 для нижнего регистра, 10 цифр. Так же есть знаки препинания и другие символы, но для экспериментов мы будем использовать только прописные буквы (верхний регистр) и пробел.
Тестовая фраза «ЕХАЛ ГРЕКА ЧЕРЕЗ РЕКУ ВИДИТ ГРЕКА В РЕЧКЕ РАК СУНУЛ ГРЕКА РУКУ В РЕКУ РАК ЗА РУКУ ГРЕКУ ЦАП».
2.1 Блочное кодирование
Информация в ПК уже представлена в виде блоков по 8 бит, но мы, зная контекст, попробуем представить её в виде блоков меньшего размера. Для этого нам нужно собрать информацию о представленных символах и, на будущее, сразу подсчитаем частоту использования каждого символа:
Кодирование звука и видео
«Управление общеобразовательной организацией:
новые тенденции и современные технологии»
Свидетельство и скидка на обучение каждому участнику
Тема урока: «Кодирование звука и видео»
Цель урока: сформировать у учащихся знания о кодировании звуковой, видео информации и решения задач по кодированию информации.
· Образовательные: ознакомление учащихся с волновой формой представления звука, основными характеристиками звука, способами кодирования звуковой информации в компьютере, стандартным программным обеспечением звукозаписи, стандартными форматами звуковых файлов;
· Развивающие: развитие логического мышления, умений анализировать представленный материал и обобщать;
· Воспитательные: воспитание самостоятельности, усидчивости, внимательности
Приветствие, проверка отсутствующих, проверка готовности учащихся к уроку.
2. Повторение предыдущего материала
Смотри приложение (кодирование графической информации)
3. Изучение нового материала
Временная дискретизация звука. Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой. Чем больше амплитуда сигнала, тем он громче для человека, чем больше частота сигнала, тем выше тон. Для того чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц).
В процессе кодирования непрерывного звукового сигнала производится его временная дискретизация. Непрерывная звуковая волне разбивается на отдельные маленькие временные участки (см. рис. 1.2), причем для каждого такого участка устанавливается определенная величина амплитуды. Непрерывная зависимость амплитуды сигнала от времени A Глубина кодирования. Каждой «ступеньке» присваивается определенное значение уровня громкости звука. Уровни громкости звука можно рассматривать как набор возможных состояний N, для кодирования которых необходимо определенное количество информации I, которое называется глубиной кодирование звука. Глубина кодирования звука — это количество информации, которое необходимо для кодирования дискретных уровней громкости цифрового звука. Если известна глубина кодирования, то количество уровней громкости цифрового звука можно рассчитать по формуле (1.1). Пусть глубина кодирования звука составляет 16 битов, тогда количество уровней громкости звука равно: N = 2J= 2 16 = 65 536. Частота дискретизации. Качество цифрового звука зависит от количества измерений уровня громкости звука в единицу времени, т. е. частоты дискретизации. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем, точнее «лесенка» цифрового звукового сигнала повторяет кривую аналогового сигнала. Частота дискретизации звука — это количество измерений громкости звука за одну секунду. Качество оцифрованного звука. Чем больше глубина и частота дискретизации звука, тем более качественных будет звучание оцифрованного звука. Самое низкое качество оцифрованного звука, соответствующее качеству телефонной связи, будет при частоте дискретизации 8000 раз в секунду, глубине дискретизации 8 битов и записи одной звуковой дорожки (режим моно). Самое высокое качество оцифрованного звука, соответствующее качеству аудио-CD, будет при частоте дискретизации 48 ООО раз в секунду, глубине дискретизации 16 битов и записи двух звуковых дорожек (режим стерео). Необходимо помнить, что чем выше качество цифрового звук, тем больше информационный объем высококачественного звукового файла. Можно оценить информационный объем цифрового стереозвукового файла длительностью звучания 1 секунда при среднем качестве звука (16 битов, 48 ООО измерений в секунду). Для этого глубину кодирования необходимо умножить на количество измерений в 1 секунду и умножить на 2 (стереозвук): 16 бит х 48 ООО х 2 = 1 536 ООО бит = = 192 ООО байт = 187,5 Кбайт. Звуковые редакторы. Звуковые редакторы позволяют не только записывать и воспроизводить звук, но и редактировать его. Оцифрованный звук представляется в звуковых редакторах в наглядной форме, поэтому операции копирования, перемещения и удаления частей звуковой дорожки можно легко осуществлять с помощью мыши. Кроме того, можно накладывать звуковые дорожки друг на друга (микшировать звуки) и применять различные акустические эффекты (эхо, воспроизведение в обратном направлении и др.). Глубина кодирования звука Уровни громкости звука можно рассматривать как набор возможных состояний N, для кодирования которых необходимо определенное количество информации I, которое называется глубиной кодирования звука N – Количество уровней громкости I – Глубина кодирования Видеоинформация формируется в результате организации потокового видео – последовательности «движущихся изображений». Оцифровка видеофрагмента связана с проблемами обеспечения очень больших скорости обмена и объема данных. Проблема повышения скорости обмена решается путем разработки быстродействующих накопителей данных. Для уменьшения объема данных, содержащихся в видеопотоке (до 9 Мб/с), для записи информации в ЭВМ обычно применяют кодирование со сжатием потока данных. Размер файла сжатого дискретного неподвижного изображения зависит от четырех параметров: площади изображения, разрешения, числа битов, необходимых для представления пикселя, и коэффициента сжатия. В видеофильме к этому еще добавляется число образующих его неподвижных изображений. Выбор коэффициента сжатия – компромисс между пропускной способностью системы и качеством восстанавливаемого изображения. Чем выше коэффициент сжатия, тем ниже качество изображения. Поэтому выбор указанных параметров обосновывается технико-экономическим анализом и алгоритмом сжатия. Существует немало технологий сжатия/восстановления изображений. Наиболее популярная предложена объединенной группой экспертов в области фотографии (Joint Photographic Experts Group, JPEG) и позволяет сократить размеры графического файла в 10–12 раз. Для сжатия видеоинформации применяют технологию стандарта MPEG (Motion Picture Expert Group). Алгоритм MPEG преобразует изображение η поток сжатых данных, учитывая то, что человек, видящий движущийся объект, сосредоточивает внимание на нем, а неподвижный фон воспринимает в меньшей степени. Это позволяет выделять меняющиеся и «замороженные» фрагменты в кадре: актер движется, а декорация не меняется, что позволяет экономить на размере информации, основную картинку оцифровать один раз, а далее фиксировать и передавать только изменения. Видеоформат MPEG-1, созданный в конце 1980-х гг. и использовавшийся в Video-CD, уступил место более качественному MPEG-2, а новый стандарт MPEG-4, разработанный фирмой Microsoft в 1999 г., и его модификация DivX позволили размещать видеофильм хорошего качества на обычном компакт-диске. Мультимедиаинформация – сочетание текстовой, звуковой, графической, видеоинформации, представляемой на экране компьютера или мультимедиапроектора. Мультимедиаинформация обладает огромными объемами, поэтому сжимается программами сжатия, а перед воспроизведением восстанавливается, как говорят, «на лету» по мере поступления потока данных. Мультимедийные компьютерные программы позволяют формировать параллельные потоки информации: текстовой, визуальной и звуковой. 4. Закрепление материала. Решение задач Оценить информационный объем цифрового стереозвукового файла длительность звучания 1 секунда при глубине 16 бит и частоте дискретизации 24 кГц. Задача 2 Определите объем памяти для хранения цифрового аудиофайла, время звучания которого составляет 2 минуты при частоте дискретизации 44,1 кГц и разрядности (глубине звука) 16 бит. Определите объем памяти для хранения цифрового аудиофайла, время звучания которого составляет 2 минуты при частоте дискретизации 44,1 кГц и разрешении 16 бит. Одна минута записи цифрового аудиофайла занимает на диске 1,3 Мбайт, разрядность звуковой платы – 8 бит. С какой частотой дискретизации записан звук? N =16 бит*24000Гц*2(стереозвук!)*1сек=768000 бит = 93,75 Кбайт. N =16 бит*44,1*1000Гц 2*60сек= 84672000бит = 10Мбайт. N = 16 бит*44,1*1000Гц 2*60сек*= 84672000бит = 10Мбайт. частота дискретизации (в Гц)=N/(глубина звука (в бит) * время звучания (в сек) ) T=1,3 * 1024 * 1024 * 8(бит)/(8(бит) * 1 *60( сек))=22719Гц=22КГц 5. Практическая работа «Создание и редактирование оцифрованного звука» 6. Подведение итогов. A. В чем состоит принцип двоичного кодирования звука? B. От каких параметров зависит качество двоичного кодирования звука? 7. Домашнее задание Если Вы считаете, что материал нарушает авторские права либо по каким-то другим причинам должен быть удален с сайта, Вы можете оставить жалобу на материал. Оцифровка звука Звук — это колебания среды (воздуха, воды), которые воспринимает человеческое ухо. С помощью микрофона звук преобразуется в аналоговый электрический сигнал. В любой момент времени аналоговый сигнал на выходе микрофона (ток или напряжение) может принимать любое значение в некотором интервале (рис. 2.24). Как вы знаете, современные компьютеры обрабатывают только дискретные сигналы (двоичные коды). Поэтому для работы со звуком необходима звуковая карта 1 — специальное устройство, которое преобразует аналоговый сигнал, полученный с микрофона, в двоичный код, т. е. в цепочку нулей и единиц. Эта процедура называется оцифровкой. 1 В современных персональных компьютерах функции звуковой карты часто выполняет специальная микросхема материнской платы — аппаратный аудиокодек. Оцифровка — это преобразование аналогового сигнала в цифровой код. Ситуация напоминает ту, с которой мы столкнулись при кодировании рисунка: любая линия состоит из бесконечного числа точек, поэтому, чтобы закодировать «по точкам», нужна бесконечная память. Здесь тоже придётся использовать дискретизацию — представить аналоговый сигнал в виде набора чисел, т. е. записать в память только значения сигнала в отдельных точках, взятых с некоторым шагом Т по времени (рис. 2.25). Число Т называется интервалом дискретизации, а обратная ему величина 1/Т — частотой дискретизации. Частота дискретизации обозначается буквой f и измеряется в герцах (Гц) и килогерцах (кГц). Один герц — это один отсчёт в секунду, а 1 кГц — 1000 отсчётов в секунду. Чем больше частота дискретизации, тем точнее мы записываем сигнал, тем меньше информации теряем. Однако при этом возрастает количество отсчётов, т. е. информационный объём закодированного звука. Для кодирования звука в компьютерах чаще всего используются частоты дискретизации 8 кГц (минимальное качество, достаточное для распознавания речи), 11 кГц, 22 кГц, 44,1 кГц (звуковые компакт-диски), 48 кГц (фильмы в формате DVD), а также 96 кГц и 192 кГц (высококачественный звук в формате DVD- audio). Выбранная частота влияет на качество цифрового звука. Дело в том, что наушники и звуковые колонки — это аналоговые (не цифровые) устройства, и при проигрывании звука через звуковую карту компьютеру нужно как-то восстановить исходный аналоговый сигнал и передать его на наушники или звуковые колонки. В памяти есть только значения, снятые с интервалом Т, остальная информация была потеряна при кодировании. В простейшем случае по ним можно восстановить ступенчатый сигнал, который будет существенно отличаться от исходного (до кодирования) (рис. 2.26). В современных звуковых картах для повышения качества звука этот ступенчатый сигнал сглаживается с помощью специальных фильтров. Для повышения качества звука, т. е. для большего соответствия между сигналом, принятым микрофоном, и сигналом, выведенным из компьютера на колонки, нужно увеличивать частоту дискретизации, однако при этом, как вы уже знаете, увеличивается и объём файла. Как же выбрать оптимальную частоту при кодировании? Ответ на этот вопрос во многом зависит от свойств звука, который нужно закодировать. С точки зрения математики, любой сигнал можно представить в виде суммы очень большого числа колебаний разных частот (гармоник). Если выбрать частоту дискретизации больше, чем удвоенная частота самой быстрой гармоники, то теоретически по отдельным отсчётам можно точно восстановить исходный аналоговый сигнал. Этот результат известен в радиотехнике как теорема Котельникова-Шеннона. К сожалению, на практике всё несколько сложнее. Дело в том, что в реальных сигналах содержатся гармоники с очень высокими частотами, так что частота дискретизации, полученная с помощью теоремы Котельникова-Шеннона, будет также высока и объём файла — недопустимо велик. Однако средний человек слышит только звуки с частотами от 16 Гц до 20 кГц, поэтому все частоты выше 20 кГц можно «потерять» практически без ухудшения качества звука (человек не почувствует разницу!). Удвоив эту частоту (по теореме Котельникова-Шеннона), получаем оптимальную частоту дискретизации около 40 кГц, которая обеспечивает наилучшее качество, различимое на слух. Поэтому при высококачественном цифровом кодировании звука на компакт-дисках и в видеофильмах чаще всего используют частоты 44,1 и 48 кГц. Более низкие частоты применяют тогда, когда важно всячески уменьшать объём звуковых данных (например, для трансляции радиопередач через Интернет), даже ценой ухудшения качества. Кроме того что при кодировании звука выполняется дискретизация с потерей информации, нужно учитывать, что на хранение одного отсчёта в памяти отводится ограниченное место. При этом вносятся дополнительные ошибки. Представим себе, что на один отсчёт выделяется 3 бита. При этом код каждого отсчёта — это целое число от 0 до 7. Весь диапазон возможных значений сигнала, от 0 до максимально допустимого, делится на 8 полос, каждой из которых присваивается номер (код). Все отсчёты, попавшие в одну полосу, получают одинаковый код (рис. 2.27). Преобразование измеренного значения сигнала в целое число называется дискретизацией по уровню или квантованием. Эту операцию выполняет аналого-цифровой преобразователь (АЦП) — специальный блок звуковой карты. Разрядность кодирования — это число битов, используемое для хранения одного отсчёта. Недорогие звуковые карты имеют разрядность 16-18 битов, большинство современных — 24 бита, что позволяет использовать 2 24 = 16 777 216 различных уровней. Объём данных, полученный после оцифровки звука, зависит от разрядности кодирования и частоты дискретизации. Например, если используется 16-разрядное кодирование с частотой 44 кГц, то за 1 с выполняется 44 000 измерений сигнала, и каждое из измеренных значений занимает 16 битов (2 байта). Поэтому за 1 секунду накапливается 44 000 • 2 = 88 000 байтов данных, а за 1 минуту: 88 000 • 60 = 5 280 000 байтов ≈ 5 Мбайт. Если записывается стереозвук (левый и правый каналы), это число нужно удвоить. С помощью оцифровки можно закодировать любой звук, который принимает микрофон. В частности, это единственный способ кодирования человеческого голоса и различных природных звуков (шума прибоя, шелеста листвы и т. п.). Однако у этого метода есть и недостатки: • при оцифровке звука всегда есть потеря информации (из-за дискретизации); Среди форматов оцифрованных звуковых файлов наиболее известны: • WAV (англ. Waveform Audio File Format; файлы с расширением wav) — стандартный формат звуковых файлов в операционной системе Windows; сжатие данных возможно, но используется редко; Все эти форматы являются потоковыми, т. е. можно начинать прослушивание до того момента, как весь файл будет получен (например, из Интернета). Следующая страница Инструментальное кодирование звука Cкачать материалы урока Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны. Размещено на http://www.allbest.ru/ Кодирование звуковой информации Характеризуется звуковая волна изменением во времени частоты и амплитуды сигнала. Графически звуковая волна описывается кривой, задающей зависимость амплитуды от времени. Частота основных колебаний определяет высоту звука. Но звуки одной частоты могут иметь разный тембр. Чтобы закодировать звук, необходимо измерять амплитуду сигнала через определенные промежутки времени. На каждом временном отрезке определяется средняя амплитуда сигнала. Графически такое преобразование описывается множеством столбиков. При восстановлении исходной кривой ее вид будет искажен. Искажения тем больше, чем больше ширина столбиков, то есть чем реже мы определяем текущую амплитуду. Чем промежутки времени меньше, тем выше будет качество закодированного звука. Частота, с которой определяется амплитуда сигнала, называется частотой дискретизации. Для кодирования звуков следует использовать частоту вдвое большую, чем частота кодируемого звука. Так как человек воспринимает звуки в диапазоне частот от 20 до 20000 Гц, то для качественного кодирования необходимо использовать частоту вдвое большую, чем 20000, то есть 40000 Гц. Принято иметь некоторый запас, поэтому для качественного кодирования звука используется частота дискретизации 44100 Гц и 48000 Гц. Современные компьютеры часто используются при создании и воспроизведении музыки. Для воспроизведения музыки компьютер синтезирует разнообразные звуки, которые издают музыкальные инструменты. В компьютерной музыке используется аббревиатура MIDI, которая расшифровывается как Musical Instrument Digital Interface (Цифровой интерфейс музыкальных инструментов). В последнее время стало модным караоке, и в компьютере стали кодировать музыку вместе с текстом. Фактически караоке является вариантом MIDI. Музыка закодирована обычным способом, но дополнительно добавлен текст, заменивший описание одного из инструментов. кодирование звуковой видео информация Компьютерные цифровые методы кодирования видео могут использовать частоту телевизионных стандартов PAL/SECAM или NTSC, т. к. видеозаписи многих цифровых форматов могут воспроизводиться как специальными компьютерными программами, так и бытовыми DVD-плеерами, а также путем подключения телевизора к компьютеру (для передачи видео и звука следует использовать порт HDMI). Качество видеоизображения в цифровых методах постоянно улучшается. Широкое распространение цифрового видео было связано с появление вначале CD-дисков, затем DVD, далее Blu-Ray дисков, на которых, в основном, и распространялись кинофильмы, и емкостью которых ограничивались качественные возможности. Размещено на Allbest.ru Кодирование как процесс представления информации в виде кода. Кодирование звуковой и видеоинформации, характеристика процесса формирования определенного представления информации. Особенности универсального дружественного интерфейса для пользователей. контрольная работа [20,3 K], добавлен 22.04.2011 Сущность универсального метода упаковки, его преимущества и недостатки. Кодирование путем учета числа повторений. Примеры схем распаковки последовательности байтов. Алгоритмы сжатия звуковой, графической и видеоинформации. Разновидности формата МРЕG. презентация [96,2 K], добавлен 19.05.2014 Понятие информации и основные принципы ее кодирования, используемые методы и приемы, инструментарий и задачи. Специфические особенности процессов кодирования цифровой и текстовой, графической и звуковой информации. Логические основы работы компьютера. курсовая работа [55,8 K], добавлен 23.04.2014 Критерий разработки кодирующих устройств. Международный стандарт кодирования для передачи речи в телефонном канале PCM. Оценка качества сигнала. Задача спектрального оценивания. Гармонический алгоритм Берга. Системы синтеза речи. Форматы звуковых файлов. дипломная работа [905,3 K], добавлен 17.10.2012 Представление информации в двоичной системе. Необходимость кодирования в программировании. Кодирование графической информации, чисел, текста, звука. Разница между кодированием и шифрованием. Двоичное кодирование символьной (текстовой) информации. реферат [31,7 K], добавлен 27.03.2010Урок 9
Кодирование графической информации, звуковой и видеоинформации
§16. Кодирование графических изображений. §17. Кодирование звуковой и видеоинформацииСодержание урока
§16. Кодирование графических изображений
§17. Кодирование звуковой и видеоинформации
§17. Кодирование звуковой и видеоинформации
Оцифровка звука
• звуковые файлы имеют, как правило, большой размер, поэтому в большинстве современных форматов используется сжатие.
• MP3 (файлы с расширением mp3) — самый популярный формат звуковых файлов, использующий сжатие с потерями: для значительного уменьшения объёма файла снижается качество кодирования для тех частот, которые практически неразличимы для человеческого слуха;
• WMA (англ. Windows Media Audio; файлы с расширением wma) — формат звуковых файлов, разработанный фирмой Microsoft; чаще всего используется сжатие для уменьшения объема файла;
• Ogg Vorbis (файлы с расширением ogg) — свободный (не требующий коммерческих лицензий) формат сжатия звука с потерями.Кодирование звуковой и видеоинформации
Технологические особенности кодировки звуковой информации. Анализ метода кодирования амплитуды звукового сигнала через короткие промежутки времени. Кодирование музыки вместе с текстом. Компьютерные цифровые методы и стандарты кодирования видеоинформации.
Рубрика Программирование, компьютеры и кибернетика Вид реферат Язык русский Дата добавления 05.05.2015 Размер файла 13,5 K Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Подобные документы