Глубина кодирования звука - это что? Определение, Формула
Опубликованно 23.11.2017 17:01
Кодирование звука относится к способу хранения и передачи аудио данных. В следующей статье будет описано, как работают такие кодирования.
Обратите внимание, что это довольно сложная тема - "глубина кодирования звука". Определение этого понятия также даны в нашей статье. В статье понятия только служить обзор. Выкройки концепции глубина кодирования звука. Некоторые из этих справочных данных можно сформулировать может быть полезным для понимания того, как работает API, а также как и обработка звука в приложениях. Как глубокий аудио кодирования
Формат звука не соответствует добавить. Например, популярный формат файлов, таких как WAV, определяет формат заголовка звукового файла, но сам не кодированного звука. WAV-аудио файл часто, но не всегда используют линейный PCM-кодирования.
В свою очередь, FLAC формат файла и кодировки, что иногда приводит к некоторой путанице. В Speech API-Флак-глубина кодирования звука — это единственная кодировка, которая требует, чтобы звуковые данные содержат заголовки. Все остальные кодировки показывают без звука звуковых данных. Если мы ссылаемся на FLAC to Speech API, мы всегда ссылаемся на кодек. Если мы ссылаемся на файл формата FLAC, который мы используем формат «.FLAC».
Вы не обязаны кодирования и частота дискретизации WAV или FLAC. Если этот параметр опущен, будет API облачных речь автоматически распознает кодировки и частота дискретизации WAV или FLAC на основе заголовка файла. Если указать значение кодирования или частота кадров, не значение в заголовке файла, API облачных речь возвращает ошибку. Глубина кодирования звука — это что?
Аудио состоит из осциллограмм, интерполяции из волн различных частот и амплитуд. Представить эту форму сигналов в цифровой среде, сигналы должны быть отбракованы со скоростью, звуки высокой частоты, которые вы хотите воспроизвести могут представлять. Для вас также сохранение достаточной глубиной бит для корректного отображения амплитуды (громкости и мягкости) формы сигнала по образцу звука.
Способность устройства обработки звука перестройки частоты известен, как его частотные характеристики, и способности, адекватные объем и мягкость известный как динамический диапазон. Вместе эти понятия часто используются как верность звукового устройства. Глубина кодирования звука-это инструмент, с помощью которого можно восстановить звук снова, сохранив эти два основополагающих принципах, а также способность эффективно собирать и передавать такие данные.Частота дискретизации
Звук есть как аналоговые волновые формы. Сегмент цифровой аудио-вычисляет количество этих аналогов валом и Empire моделировать их амплитуды с достаточно высокой скоростью собственной частоты волны. Частота дискретизации цифрового звукового сигнала определяет количество образцов стежков, взято из исходного материала аудио (в секунду). Высокая частота дискретизации увеличивает способность цифрового аудио-точное воспроизведение высоких частот.
В результате Найквиста теорема-Шеннона, надо попробовать из обычно, как минимум, вдвое большую частоты звуковой волны, которую можно записать в цифровой форме. Например, для презентации звуки в диапазоне человеческого слуха (20-20000 Гц), цифровой аудио формат дисплея должна быть не менее 40000 раз в секунду (это причина того, что аудио-CD используется частота дискретизации 44100 Гц).Бит Глубина
Глубина кодирования звука это влияет на динамический диапазон заданного образца глины. Выше Разрядность точной амплитуды можно представить. Если у вас есть много громких и тихих звуков в одном звуковом образец, вам нужно больше бит, чтобы эти звуки могут быть переданы правильно.
Выше Разрядность также отношение сигнал-шум аудио уменьшаться в образцах. Если глубина будет отправлено кодирования звука 16 бит, музыкальный звук с компакт-диска, с данными значениями. Некоторые методы сжатия в качестве компенсации за меньшую Разрядность, но они, как правило, убытки. DVD-Audio использует 24 бита глубины, в то время как в большинстве телефонов глубина кодирования звука составляет 8 бит.Несжатый Звук
Большая часть обработки цифровых аудио данных использует эти два метода (частота дискретизации и Разрядность) для удобного хранения звуковых данных. Одним из самых популярных цифровых аудио-технологий (поляризовыванные при использовании CD-Rom) известен как импульсно-кодовой модуляции (PCM). Аудио выберите с фиксированными интервалами, а амплитуда обсуждать волн в этой точке.как числовое значение с помощью битовой глубины образца
Линейный PCM (который указывает, что АЧХ является линейно однородной образца), используемый стандарт на компакт-диски и закодированных LINEAR16 Speech API. Оба кодируют создать поток байтов, несжатый, непосредственно соответствующий аукционы, и оба стандарта содержат 16 бит глубина. Линейный PCM использует частоту дискретизации 44 100 Гц на CD-Rom, подходит для поверхностного музыка. Однако, частота дискретизации 16000 Гц лучше подходит для композиции речи.
Линейный PCM (LINEAR16) является примером для несжатого видео, поскольку цифровые данные таким же образом. При чтении одноканального потока данных с использованием кодированных Linear PCM, можно рассчитать по 16 бит (2 байта), значение амплитуды сигнала. Почти все устройства могут быть подделаны, такие цифровые данные сначала — вы можете линейным обрезать PCM аудио файлов с помощью текстового редактора, но несжатый звук - не самый эффективный способ транспортировки или хранения цифровых аудио данных. По этой причине большинство из них использует цифровые аудио-сжатия.Сжатый Звук
Аудио-данные, как и все данные, часто сжаты, хранение и облегчает транспортировку. Сжатие в добавить может чревато либо потерь или убытка. Сжатие без потерь можно распаковать и восстановить цифровые данные в их первоначальном виде. Компрессию обязательно удаляет некоторую информацию во время декомпрессии и параметра, чтобы указать, что степень толерантности к технике для сжатия данных.Без Потерь
Без потерь цифровой аудио-записей без сжатия, со сложными перестановками хранимых данных, что приводит к ухудшению качества цифрового образца. При сжатии без потерь при распаковке данных в исходной информации не оцифрованы потеряли.
Так почему же методы сжатия без потерь иногда есть варианты оптимизации? Эти параметры часто размер файла обработаны за время декомпрессии. Например, FLAC параметр уровень сжатия от 0 (самый быстрый) до 8 (самый маленький размер файла) использует. Сжатия FLAC высокого уровня, не потерять никакой информации по сравнению со сжатием нижнем уровне. Вместо этого алгоритм сжатия больше вычислительной мощности энергии при строительстве или конструировать исходные цифровые аудио данные придется потратить легко.
API Speech поддерживает два кодирования без потерь: FLAC и LINEAR16. Технически LINEAR16 не «без потерь», потому что в первую очередь компрессии не участвует. Если размер файла или передачи данных важна для вас, выберите FLAC как их кодирования аудио-вариант.Потеря компрессии
Сжатие аудиоданных устранены или уменьшены некоторые виды информации при создании сжатых данных. Speech API поддерживает несколько форматов с потерями, хотя вам следует избегать, поскольку потеря данных может повлиять на точность распознавания.
Популярный MP3-кодек-это метод пример кодирования с потерями. Все методы сжатия MP3 удалить звук из вне обычных Edition человека и регулировать уровень сжатия, фактическую скорость передачи данных MP3-кодек или количество битов в секунду для сохранения даты звуков.
Например, стерео-CD с использованием линейного PCM 16 бит имеет эффективную битрейт. Формула Глубина Кодирования Звука:
441000 * 2 канала * 16 бит = 1411200 бит в секунду (bit/s) = 1411 Кбит/с
Например, MP3-компрессии удаляется рассрочку этот тип данных с данными, например 320 кбит/с, 128 кбит/с или 96 кбит/с, что приводит привести к заметному ухудшению качества звука. MP3 также поддерживает переменную скорость передачи битов, дополнительно сжать аудио. Оба способа потерять информацию и влияет на качество. Можно с уверенностью сказать, что большинство людей могут сделать разницу между кодировкой MP3 музыка 96 кбит/с или 128 Кбит/с.Другие формы сжатия
MULAW является 8-битный PCM-кодирования, где амплитуда образца модулируется логарифмический, а не линейный. В результате uLaw эффективно снижает динамический диапазон сжатого звука. Хотя uLaw был специально разработан для оптимизации кодирования речи в отличие от других видов аудио -, 16-разрядные LINEAR16 (несжатый PCM) по-прежнему значительно превосходит 8-битный сжатый звук uLaw.
АМР AMR_WB и модулировать кодированный аудио, установив переменную скорость в битах в оригинальной звуковой образец.
Хотя Speech API поддерживает несколько форматов с потерями, которые вы должны избегать, если вы контролируете исходные аудио. Хотя удаление таких данных может иметь счет сжатия с потерями, не оказывает заметного влияния на звук, слышны для человеческого уха, потеря таких данных для механизма распознавания речи может существенно повлиять на точность.
Категория: Строительство