Программа Для Анализа Частоты Звука
- Программа Для Обновления Windows 10
- Программа Для Удаления Программ
- Программа Для Просмотра Фотографий
После установки звукового адаптера и драйвера для него, а также после регулировки чувствительности микрофона, описанной в предыдущей главе, можно провести собственные небольшие исследования в области распознавания и синтеза речи. В этой главе мы расскажем о некоторых таких исследованиях, которые Вы сможете провести самостоятельно у себя дома при помощи обычного компьютера и доступного программного обеспечения. Разумеется, эти исследования не могут претендовать на полноту и глубину, однако они дадут Вам некоторое представление о проблеме распознавания речи и возможных путях ее решения. Те из Вас, кто когда-либо учился в техническом вузе, знакомы с таким прибором, как осциллограф. Основное назначение этого прибора — визуальное определение формы электрических сигналов и измерение его параметров, таких как амплитуда, частота, длительность импульсов и период их следования и так далее.
Если Ваш компьютер оборудован звуковым адаптером, то при установке специального программного обеспечения Вы сможете использовать его как цифровой осциллограф для изучения электрических колебаний, полученных от микрофона. Таким способом Вы увидите форму звуковых колебаний, образующихся при формировании речи. Произнося в микрофон отдельные звуки и слова, Вы сможете попытаться разглядеть на осциллограмме отдельные элементы, составляющие речь, проследить изменения амплитуды речевого сигнала и длительности пауз. И хотя информация, полученная в ходе осциллографических исследований, сама по себе не позволит Вам выделить из речи отдельные фонемы и аллофоны, она имеет большое значение для изучения процесса образования речи. GoldWave Для проведения исследований нам, прежде всего, потребуется программное обеспечение, позволяющее просматривать осциллограммы звуковых сигналов. В качестве такого программного обеспечения мы рекомендуем редактор GoldWave (рис. Пробную версию этого редактора, работоспособную в течении месяца, можно бесплатно загрузить через Интернет с Web-сайта разработчика Рис.
Редактор GoldWave Программа GoldWave может записывать, проигрывать, редактировать и конвертировать звуковые файлы. Эта программа предназначена в первую очередь для создания высококачественных звуковых файлов, но ее с успехом можно использовать и для исследования речи. В частности, программа снабжена фильтрами (верхних и нижних частот, а также полосовыми частотными фильтрами). В ней имеется анализатор спектра, который можно использовать для исследования речи. Пользуясь редактором, можно комбинировать отдельные звуки речи, формируя таким способом синтезированную речь (о том, как устроены синтезаторы речи, мы поговорим позже в 7 главе). Ниже мы рассмотрим основные приемы работы с программой GoldWave.
Подробное описание этой программы можно найти в электронной справочной документации, доступной через меню Help. В предыдущей главе мы рассказывали о записи звуковых файлов с помощью программы Sound Recorder, входящей в комплект операционной системы Microsoft Windows.
- Сверхпортативный виброакустический анализатор спектра звука. К настоящему времени коммерческие программы для модального анализа.
- Анализ частоты звука. Материал предоставляется для ознакомительных и учебных целей.
Надо сказать, что по сравнению с программой GoldWave возможности Sound Recorder весьма и весьма ограничены. Для того чтобы записать звук в программе GoldWave, запустите эту программу, а затем выберите из меню File строку New. На экране появится диалоговое окно New Sound, с помощью которого можно выбрать параметры записи (рис. Выбор параметров записи В группе элементов управления Quick settings предусмотрены кнопки Voice, Radio и CD, при помощи которых можно быстро выбрать параметры звука, соответственно, для записи голоса, радиопередачи или компакт-диска.
SPECTROGRAM - программа спектрального анализа звуковых сигналов - (версия 16), автор Richard Horne. Совместима с 24-х битными звуковыми платами и частотой дискретизации 96 кГц. Работает в операционных системах Windows Vista, Windows XP. Программа Spectrogram версии 16 - свободно распространяемое программное обеспечение для двухканального спектрального анализа звуковых сигналов. Совместима с операционными системами Windows 2000/XP/Vista.. Звуки человеческой речи. Человеческое пение. Сигналы радиоспектра низких частот (VLF). Пайлап сигналов любительских радиостанций (CW mode). Звук низколетящего реактивного самолета. Звуки от множества авиамоделей. Удаление ненужного звука из записи в Adobe Audition Auditionrich.com. Быстрая ОБРАБОТКА ЗВУКА в программе AUDACITY.
Нас интересует запись голоса, поэтому щелкните кнопку Voice. При этом будет создана монофоническая запись (отмечен флажок Mono в группе элементов управления Channels).
Также автоматически в списке Sampling rate будет выбрана частота дискретизации входного сигнала, равная 11 025 Гц. Вы можете оставить эту частоту дискретизации, так как она вполне достаточна для оцифровки голоса, либо выбрать при помощи списка Sampling rate другую частоту в диапазоне от 5 500 Гц до 96 000 Гц. Однако не увлекайтесь высокими частотами дискретизации — при обработке речи их применение не даст никакого выигрыша, а приведет лишь к непроизводительным тратам ресурсов компьютера. При помощи элемента управления Length можно задать длительность записи. Для наших экспериментов достаточно, если запись будет продолжаться одну минуту. Выбрав параметры записи, щелкните кнопку OK. Сразу после этого в главном окне программы GoldWave появится новое окно SoundXX, где ХХ — последовательный номер записей с момента запуска программы, а также окно Device Controls.
Первое из этих окон представляет собой окно звукового редактора, где будет показана осциллограмма звукового сигнала. Во втором окне находятся элементы управления для запуска записи и проигрывания звука, а также дополнительные окна просмотра осциллограммы и спектрограммы записанного сигнала. Запись нового звукового файла Чтобы начать запись, щелкните в окне Device Controls кнопку Record с красным кружком, держа при этом нажатой клавишу Control. Теперь запись включена, и Вы можете произносить слова в микрофон!
Чтоб остановить запись звука, щелкните в окне Device Controls кнопку Stop. На этой кнопке нарисован квадрат малинового цвета. Для временной приостановки записи воспользуйтесь кнопкой Pause с изображением двух вертикальных черточек черного цвета.
При изучении речи мы советуем Вам записывать слова и фразы в отдельные wav-файлы небольшого размера. В дальнейшем эти файлы можно будет исследовать программой GoldWave или другими программными средствами. Для сохранения сделанной записи выберите из меню File строку Save As. В результате на экране появится диалоговое окно Save As, показанное на рис. Обратите внимание на список File Attributes, при помощи которого можно выбрать формат создаваемого файла. Для записи речи можно использовать формат, выбранный по умолчанию.
Сохранение звукового файла Осциллограмму звукового сигнала, редактируемого в окне программы GoldWave, можно растягивать и сжимать как по вертикали, так и по горизонтали. 3-5 мы показали исходную осциллограмму, полученную при записи одного повествовательного и трех вопросительных предложений. Вот эти предложения: Мама мыла раму. `Мама мыла раму?
Мама `мыла раму? Мама мыла `раму? Квадратными скобками отмечены слова, выделенные интонацией при произнесении предложений.
Исходная осциллограмма Чтобы лучше разглядеть эту осциллограмму, Вы можете растянуть ее по вертикали. Для этого нужно воспользоваться комбинацией клавиши Control и клавиши перемещения курсора вверх по вертикали. Нажимайте эту комбинацию клавиш несколько раз до тех пор, пока не получите нужный масштаб отображения. 3-6 мы показали результат растяжения исходной осциллограммы по вертикали. Как видите, теперь на ней появились незаметные ранее детали. Растяжение по вертикали Сжатие осциллограммы по вертикали выполняется при помощи комбинации клавиш Control и клавиши перемещения курсора вниз по вертикали. Чтобы растянуть осциллограмму по горизонтали, воспользуйтесь комбинацией клавиши Shift и клавиши перемещения курсора вверх по вертикали.
Результат такого растяжения исходной осциллограммы показан на рис. Растяжение по горизонтали Сжатие осциллограммы по горизонтали выполняется при помощи комбинации клавиш Shift и клавиши перемещения курсора вниз по вертикали. Перед проведением дальнейших исследований записанных ранее файлов мы рекомендуем провести нормализацию этих файлов. Нормализация заключается в таком масштабировании амплитуды файла, при котором максимальная амплитуда сигнала будет приведена к максимально возможному значению амплитуды, определяемого разрядностью формата звукового файла. Чтобы выполнить нормализацию, загрузите в программу GoldWave исходный звуковой файл.
Затем выберите из меню Effects строку Volume, а затем из меню второго уровня — строку Maximize. Одной из часто выполняемых при редактировании звуковых файлов операций является выделение фрагментов с целью их вырезки или перемещения в новый файл. Выделить нужный фрагмент в окне редактора GoldWave можно с помощью мыши. Для этого вначале нужно щелкнуть левой клавишей мыши в начале выделяемого фрагмента, а затем — правой клавишей мыши в конце выделяемого фрагмента. Выделенный фрагмент выделяется синим цветом. Это показано на рис. Выделение фрагмента звукового файла После того как фрагмент выделен, с ним можно выполнять различные операции, доступные через меню Edit и Effects.
Вы можете скопировать фрагмент в универсальный буфер обмена Clipboard, удалить его, наложить фильтр и т.п. При проведении собственных исследований речи Вам придется вырезать фрагменты записанных звуковых файлов, сохраняя их в отдельных файлах. Таким способом можно вручную выделять слова, слоги, фонемы, морфемы и другие лексические конструкции. Операция вырезки фрагмента выполняется очень просто. Вначале Вам нужно выделить фрагмент файла, используя технику, описанную в предыдущем разделе.
Далее надо скопировать выделенный фрагмент в Clipboard, выбрав из меню Edit строку Copy. И, наконец, нужно создать из содержимого буфера обмена Clipboard новый звуковой файл, выбрав из меню Edit строку Paste new.
Вырезанный фрагмент звукового файла Теперь остается только сохранить новый файл, воспользовавшись для этого строкой Save As меню File. При записи повествовательного предложения «Мама мыла раму» мы намеренно делали паузу между словами и слогами для того, чтобы впоследствии было легче выделить на осциллограмме лексические элементы. 3-10 показана осциллограмма этого предложения.
Всплески сигнала мы отметили соответствующими им слогами предложения. Повествовательное предложение Что можно заметить, разглядывая эту осциллограмму? Прежде всего, на осциллограмме отчетливо видно, что в начале предложения громкость звука резко увеличивается, а затем уменьшается от слога к слогу. Как вы скоро увидите, характер изменения амплитуды речевого сигнала для вопросительных предложений будет несколько иным. Далее, на этой осциллограмме видны отдельные аллофоны, составляющие речь.
Обратите внимание, что в слове мама первый слог выглядит несколько иначе, чем второй. Это хорошо видно на рис. 3-11, где мы растянули осциллограмму слова мама по горизонтали. Осциллограмма слова мама На первый взгляд, можно было бы классифицировать фонемы и аллофоны по форме линий, огибающих соответствующий фрагмент осциллограммы. Однако на деле этот путь ведет в тупик, так как форма этой линии несет лишь информацию об энергии звукового сигнала, но не о его частотном спектре. Для сравнения на рис. 3-12 и 3-13 мы показали увеличенные фрагменты слов мыла и раму.
Как видите, формы огибающей линии довольно близки, хотя есть и отличия. Осциллограмма слова мыла Рис. Осциллограмма слова раму Далее в этой главе мы проведем спектральный анализ, позволяющий выделять фонемы и аллофоны более надежно по сравнению с анализом формы огибающей линии. Мы уже говорили, что интонация может полностью менять смысл предложения. Посмотрим, как видно изменение интонации на осциллограмме речевого сигнала. В предыдущем разделе была приведена осциллограмма повествовательного предложения «Мама мыла раму». Одним лишь изменением интонации это предложение может быть легко преобразовано в три различных по смыслу вопросительных предложения: `Мама мыла раму?
Мама `мыла раму? Мама мыла `раму? В первом случае интонационное ударение делается на слове мама. При этом мы подчеркиваем интонацией, что нас интересует, кто мыл раму — мама или кто-то еще.
Осциллограмма первого предложения наглядно демонстрирует увеличение амплитуды при произнесении слова мама (рис. Ударение на первом слове Во втором вопросе выясняется, мыла мама раму, или нет. Важное слово мыла при этом подчеркивается изменением интонации. 3-15 мы видим увеличение амплитуды фрагмента сигнала, соответствующего второму слову. Ударение на втором слове И, наконец, на рис.
3-16 мы показали осциллограмму третьего вопросительного предложения, в котором выясняется, мыла мама раму или она мыла что-то еще. Соответственно, увеличение амплитуда сигнала приходится на последнее слово. Ударение на последнем слове При проектировании синтезаторов речи необходимо учитывать наличие интонационных ударений. Если расставить такие ударения неправильно, синтезированная речь будет звучать неестественно.
Спектральные исследования речи позволяют проследить изменение содержания в звуках речи тех или иных частотных компонентов. В результате этих исследований было обнаружен факт наличия формантных частот, несущих в себе основную речевую информацию. Отслеживание изменений этих частот, а также изменений амплитуды звукового сигнала позволяет выделять из сигнала лексические элементы — фонемы и аллофоны. В этом разделе мы расскажем Вам об использовании двух инструментальных средств, позволяющих проводить спектральные исследования речи.
Это уже знакомая Вам программа GoldWave, а также система анализа речи SAS, созданная Алексеем Москаленко 3. Программный комплекс SAS можно бесплатно загрузить из Интернета по адресу Этот комплекс поставляется вместе с документацией и исходными текстами, написанными на языке программирования C в среде Borland C Builder 4.0. Исходные тексты доступны для бесплатной загрузки с целью изучения и дальнейшей модификации исследователями проблемы речевого интерфейса. GoldWave Помимо окон редактирования звуковых файлов, в главном окне программы GoldWave имеется окно Device Controls, при помощи которого можно управлять записью, перемоткой и проигрыванием звуковых файлов (3-17).
Программа Для Обновления Windows 10
Но это окно имеет еще одно назначение, а именно просмотр формы и спектра сигнала. Сейчас нас интересуют в первую очередь возможности этого окна, имеющие отношение к просмотру спектра. В окне Device Controls можно просматривать форму и спектр сигнала Как видно на рис.
3-17, в нижней части окна Device Controls имеется два окна просмотра. Первое из них используется для отображения информации о первом канале стереофонического звука, а второе — о втором канале. Мы исследуем монофонические звуки речи, поэтому вся информация будет отображаться только в левом окне. Если щелкнуть правой клавишей мыши в этом окне, на экране появится контекстное меню, задающее режимы просмотра.
Программа Для Удаления Программ
Вот строки этого меню: Amplitude; Spectrum; Log bar spectrum; Colour Spectrum; Spectrogram; Fire Spectrum; X-Y mode Строка Amplitude переключает окно в режим просмотра амплитуды исходного сигнала. Отображение происходит во время проигрывания сигнала, как это показано на рис. Вы также можете щелкнуть левой клавишей мыши внутри окна редактирования звукового файла и, не отпуская эту клавишу, перемещать курсор мыши вправо и влево, рассматривая в окне Device Controls осциллограмму сигнала как под увеличительным стеклом. Если выбрать из контекстного меню строку Spectrum, во время воспроизведения звука в окне будет отображаться текущий спектр звукового сигнала в виде графика, показанного на рис. 3-18. Просмотр спектра звукового сигнала в виде графика К сожалению, этот график (как, впрочем, и все другие спектральные графики, создаваемые программой GoldWave) позволяет получить только качественную, а не количественную характеристику спектра. Получить с ее помощью какие-либо числовые параметры спектра текущая версия программы GoldWave не позволяет.
Режим Log bar spectrum позволяет просматривать спектр в виде диаграммы (рис. 3-19). Чем больше высота прямоугольника на диаграмме, тем больше содержание соответствующей частоты. Опять же, здесь мы можем только оценить спектр, но не получить его точное распределение в виде чисел.
Просмотр спектра в виде диаграммы В режиме Colour Spectrum отображается цветная диаграмма. Мы показали эту диаграмму на рис. В нашей книге нельзя разместить цветные иллюстрации, поэтому изменение цвета на этом и других аналогичных рисунках видно как изменение оттенков серого цвета. Просмотр спектра в виде цветной диаграммы Режим Spectrogram позволяет получить спектрограмму звукового сигнала (рис. Спектрограмма звукового сигнала На спектрограмме видно, как спектр изменяется со временем. При этом по горизонтальной оси откладывается время, а по вертикальной — частота сигнала.
Что же касается интенсивности, то она обозначается цветом. Частота, имеющая малую интенсивность, отображается черным цветом, затем следуют цвета пурпурный, голубой, циан, зеленый, желтый и красный.
Красный цвет соответствует максимальной интенсивности. Обратите внимание, что спектрограмма, показанная на рис. 3-21, была снята для повествовательного предложения «Мама мыла раму».
На этой спектрограмме четко видны отдельные фонемы и аллофоны. Используя нейронные сети, можно выделить эти лексические элементы из речи. SAS Система анализа речи SAS была создана как открытый проект, доступный для использования и модификации другими исследователями. Эта система позволяет исследовать проблемы, возникающие при практическом применении нейросетевых моделей и алгоритмов. Она представляет собой удобную интегрированную среду, пригодную для проведения исследований и визуализации результатов работы (рис. При этом исследователю предоставляется возможность контроля многочисленных параметров системы.
Центральным компонентом системы SAS является программная нейронная сеть, снабженная средствами ввода, обработки и вывода сигналов. В системе SAS также имеются следующие инструментальные средства: спектральный анализатор речи, способный работать со звуковыми файлами, а также со звуком, полученным в реальном времени от микрофона (или другого источника звука); синтезатор речи, основанный на базе формантно-голосовой модели; модуль визуализации процессов обучения и распознавания в используемой нейросетевой модели. На данном этапе мы изучим только спектральный анализатор речи, входящий в состав системы анализа речи SAS. Что же касается нейронных сетей и их применения для распознавания речи, то эти вопросы будут изложены в 4 главе. Система анализа речи SAS Помимо отображения спектра и волновой формы звукового сигнала, записанного в wav-файлах и получаемых в реальном времени от звукового адаптера, анализатор спектра используется для отображения синтезируемого звука. Запустив программу SAS, выполните настройку параметров сигнала. Для этого выберите из меню Файл строку Настройки.
На экране появится диалоговое окно настройки параметров, показанное на рис. Параметры ввода и преобразования сигнала Откройте вкладку Ввод сигнала. На данном этапе нам требуется установить на этой вкладке только один параметр — частоту дискретизации входного сигнала. Эту частоту нужно выбрать из списка Рабочая частота дискретизации. Учтите, что система SAS может работать только с монофоническими 16-разрядными звуковыми файлами PCM. При этом частота дискретизации может принимать одно из трех значений: 11 025 Гц; 22 050 Гц; 44 100 Гц Наши файлы с предложением «Мама мыла раму» были записаны при помощи редактора GoldWawe с частотой дискретизации 11 025 Гц, поэтому мы установили именно это значение на вкладке Ввод сигнала.
Чтобы получить спектрограмму звукового сигнала, записанного в файле, откройте этот файл. Для этого воспользуйтесь строкой Открыть в меню Файл, или кнопкой Открыть, расположенной на инструментальной панели. После открытия звукового файла в главном окне программы появляется окно анализатора спектра Анализатор, показанное на рис. Открыт звуковой файл Если появление окна Анализатор сопровождается сообщениями об ошибках, проверьте формат звукового файла и настройку частоты дискретизации, о которой мы говорили в предыдущем разделе. В левой части панели Контроллер находятся элементы управления выбора источника звука и кнопки управления проигрыванием, а в правой части — окно просмотра волновой формы звукового сигнала.
Чтобы просмотреть спектр в заданной точке файла, переместите в эту точку движок окна просмотра волновой формы звукового сигнала. Теперь в окне анализатора появится изображение нового спектрального распределения (рис. Просмотр спектра в различных точках файла В окне Развертка спектра можно просмотреть развертку спектра во времени. На рис. 3‑25 такая развертка отображается в двумерном виде. Однако стоит щелкнуть кнопку 3 D Развертка, и в окне анализатора появится трехмерная развертка спектра исследуемого сигнала (рис.
Трехмерная развертка спектра исследуемого сигнала При этом используются следующие измерения: время, частота и амплитуда. Автор программы рекомендует применять этот режим для отображения формантного состава и динамики речи. Так же как и программа GoldWave, описанная ранее в этой главе, программа SAS не позволяет производить точных количественных измерений спектра.
Программа Для Просмотра Фотографий
Она предназначена только для визуального просмотра формы спектра. При этом Вы можете узнать частоту в любой точке спектра, поместив в эту точку курсор мыши.
Значение частоты будет показано в правом нижнем углу окна Спектр (рис. Чтобы настроить параметры работы анализатора спектра, выберите из меню Файл строку Настройки. На экране появится диалоговое окно настройки параметров, в котором нужно открыть вкладку Анализатор (рис.
Настройка параметров анализатора спектра Выбирая значения из списка Размер окна, можно задавать разрешение анализатора в пространстве частот. Список Окно сглаживания позволяет выбрать тип окна сглаживания, накладываемого на временную форму сигнала перед вычислением быстрого преобразования Фурье (БПФ).
Прямоугольное окно соответствует отсутствию окна сглаживания. Если Вам интересна только часть спектра исследуемого сигнала, Вы можете задать нижнюю и верхнюю границу отображения спектра в полях Первая частота и Последняя частота, соответственно.
При помощи списка Показывать спектр как можно выбрать один из вариантов отображения спектра. Эта настройка действует при просмотре двухмерного спектрального распределения. Что же касается трехмерного изображения спектра, то здесь Вы можете задать в поле Число срезов количество отдельных спектральных линеек, одновременно отображаемых в окне Спектр. Отметив флажок Развертка всего файла, можно включить режим отображения, при котором окна спектральных преобразований располагаются так, чтобы охватить сразу весь файл. Если же этот флажок не отмечен, окна будут расположены последовательно друг за другом. Каждая компания, профессионально занимающаяся речью, создает свой набор инструментальных средств. Некоторые из этих средств доступны, и их можно купить либо загрузить с Web-сервера компании.
Компания «Центр речевых технологий» ( www. Ru) специализируется в области исследований и разработки систем распознавания речи, очистки речевых сигналов от шума и сжатии речи. Эта компания была образована в 1990 году небольшой группой инженеров- разработчиков, работавших до этого в крупнейших Научно-исследовательских институтах военно-промышленного комплекса Санкт-Петербурга. Сотрудники «Центра речевых технологий» — опытные ученые и инженеры, имеющие за плечами множество успешных проектов в области создания компьютеризированных электронных приборов и аппаратуры.
Созданная ими аппаратура использовалась, главным образом, в фундаментальных исследованиях и в военных целях. Системы, созданные «Центром речевых технологий», проверяются для разграничения доступа с использованием голоса, для проведения судебных фонетических экспертиз и расшифровки записей, сделанных «черными ящиками» самолетов. В этой главе мы расскажем о следующих программах и комплексах, созданных центром: инструментальный комплекс анализа и очистки от шума звуковых сигналов Икар; программа трехмерного графического отображения спектра звукового сигнала в реальном времени VisiVoice Эти средства предназначены для анализа речи и звуковых сигналов. Что же касается распознавания речи и других технологий, созданных «Центром речевых технологий», то мы рассмотрим их в 6 главе нашей книги.
Комплекс анализа и очистки от шума звуковых сигналов Икар представляет собой систему, предназначенную для ввода, анализа и обработки акустических сигналов. Этот комплекс создавался специально для работы в экспертных лабораториях МВД, ФСБ и МЮ России как универсальный инструмент, предназначенный для решения различных задач, возникающих при проведении фонографической экспертизы.