Новости

Автоматическое выделение отдельно произнесённых слов в речи и их идентификация

Работа добавлена:






Автоматическое выделение отдельно произнесённых слов в речи и их идентификация на http://mirrorref.ru

Лабораторная работа №4

ИДЕНТИФИКАЦИЯ И РАСПОЗНАВАНИЕ РЕЧИ.

Цель:автоматическое выделение отдельно произнесённых слов в речи и их идентификация.

Основные теоретические сведения.

Основным подходом к проблеме распознавания речи в настоящее время является ИМЗ-подход. Он базируется на иерархическом (И) принципе обработки информации и на использовании многозначных решений (МЗ) на всех уровнях этой обработки. Опыт исследований показывает, что для достижения приемлемой для практики надежности распознавания речи требуется решение проблемных задач на всех уровнях. А это требует больших затрат и времени. Поэтому выдвигается ряд промежуточных, но важных для практики задач:

  1. распознавание отдельно произносимых слов;
  2. выделение ключевых слов в потоке речи;
  3. распознавание слитной речи, составленной из слов заданного словаря.

Оказалось, однако, что и решение перечисленных задач для произвольного диктора или неограниченного словаря требует серьезных усилий и остается еще целый ряд принципиальных вопросов, требующих глубокой проработки.

В данной работе ставится несколько иная задача. Отличительной особенностью этой задачи является то, что заранее известно, какую фразу должен произнести человек. Требуется распознать лишь то, что он ее действительно правильно произнес. То есть задача состоит в сравнении поступающего нового произнесения фразы с эталонным произнесением для проверки того, что это произнесения одной и той же фразы. Качество распознавания можно оценить по контрольным произношеньям фраз, про которые уже ясно, правильные ли они или ошибочные. Задача находит применение в системе обучения немецкому языку.

Цифровое представление речевого сигнала

Частотный диапазон речи находится в пределах 70-7000 Гц. При оценке уровня громкости звука в качестве эталона звукового давленияP0 выбирается его минимальное значение на частоте 1 кГц, при котором звук становится уже слышимым, т.е.P0=2×10-5Н/м2. Уровень звукового давления определяется соотношением

,

гдеP - значение звукового давления. Под динамическим диапазоном понимают разность между максимальным и минимальным уровнями сигналов. Динамический диапазон речи составляет 35-45 Дб.

Цифровая система звукозаписи требует представления аналогового речевого сигнала в цифровом виде. В результате аналого-цифрового преобразования (АЦП) непрерывный сигнал переводится в ряд дискретных отсчетовsk каждый из которых представляет собой целое число, характеризующее аналоговый сигнал в этой точке с определенной точностью. Точность представления зависит от ширины диапазона получаемых чисел, а следовательно от разрядности АЦП. Процесс разбиения сигнала на отсчеты носит название дискретизации. Число отсчетов в секунду называется частотой дискретизации. Частота дискретизации νD согласно теореме Котельникова должна быть, по крайней мере, в два раза выше максимальной частоты преобразуемого аналогового сигнала. Дело в том, что спектр сигнала, преобразованного с помощью АЦП в цифровую форму, имеет периодический характер. (Спектр сигнала - это его отображение, характеризующее интенсивность и распределение частотных составляющих сигнала.)

Сигнал после АЦП имеет кроме низкочастотной части спектра, отображающей аналоговый сигнал, еще и высокочастотные компоненты: низкочастотный спектр сигнала повторяется в виде боковых полос с центрами в точках, кратных частоте дискретизации. (νD, 2νD, 3νD и т.д.) При уменьшении частоты дискретизации произойдет наложение низкочастотной части спектра и боковой полосы с центром в точке νD. Наложение спектров приводит к появлению новых спектральных составляющих в сигнале, а значит, к его искажению. В звукозаписи наложение спектров можно убрать, установив перед АЦП фильтр низких частот, подавляющий все частоты, лежащие выше половины частоты дискретизации. Так как на практике нельзя выполнить фильтр с отвесным спадом частотной характеристики, значение частоты дискретизации выбирается несколько больше, чем удвоенное значение верхней частоты спектра речевого сигнала, например, νD=22,05 кГц.

Процесс измерения сигнала с округлением до разряда АЦП носит название квантования. Задаваясь требуемым динамическим диапазоном цифровой системы звукозаписи, необходимое число разрядов квантования можно определить из выраженияD=6n+1.8 , гдеD - динамический диапазон (в Дб),n - число двоичных разрядов. Отсюда получаем, что для записи речи необходимо отводить не менее восьми бит на каждый отсчет.

Определение 1.

КадрX (длиныN) - конечная последовательность отсчетов речевого сигналаs1,...,sk,...,sN.

Определение 2.

Реализация фразы - цифровая запись произнесения фразы в виде последовательности кадровX(1),...,X(t),...,X(L), гдеL - длина реализации,X(t)=s(t)1,...,s(t)k,...,s(t)N. Длина кадра фиксирована, например,N=256, что при частоте дискретизации νD=22,05 кГц соответствует длительности по времени 11,6 мс.

Параметры речевого сигнала

При распознавании речевых сигналов, как правило, оперируют не с исходным речевым сигналом, а с его параметрами, вычисленными на кадре. Длина кадра обычно выбирается такой, чтобы длительность кадра по времениT=N/ν (сек.) составляла 10-20 мс. Пусть на текущем кадре длиныN наблюдается последовательность отсчетовs1,...,sk,...,sN . Рассмотрим основные параметры речевого сигнала, используемые ниже.

  1. Кратковременная энергия речевого сигнала

.

  1. Число нулей интенсивностиZ

,

где .

  1. Коэффициенты разложения в ряд Фурьеc0,c1,...,cN/2

Кадр определяет периодическую функцию с периодом 1, заданную на сетке из точек видаxl=l/N:

fl=f(xl)=sk+1, еслиl=Nt+k, где 0≤kN-1,t - целое.

Такую функцию можно разложить в ряд Фурье, т.е. представить в виде

.

Скалярное произведение для функций на сетке определяется следующим образом:

.

Функцииgq(xl)=exp{2πiqxl} при 0≤q<N образуют ортонормированную систему относительно так введенного скалярного произведения. Коэффициенты Фурье можно найти по формуле

(*)

Непосредственное осуществление этих преобразований требуетO(N2) арифметических операций. Для сокращения этого числа применяется алгоритм быстрого преобразования Фурье. Алгоритм основан на том, что приN=2m в слагаемых правой части выражений (*) можно выделить группы, входящие в выражения различных коэффициентовAq. Вычисляя каждую группу только один раз можно сократить число операций доO(N×log2N). ЕслиN≠2m, то в нашем случае можно добавить нулевые отсчеты. Разложение в ряд Фурье дает представление речевого сигнала в виде суммы гармонических колебаний с частотами ν(q). Запишем соотношение между частотой ν(q) и индексомq:

ν(q) =qνD/N = 2-mqνD приq=0,1,...,N/2.

Здесь νD - частота дискретизации.

Значения спектра отq =N/2 + 1 доN-1 не содержат новой информации, т.к. значенияfl действительны. Более точно

приq=0,1,...,N/2.

Удвоенное значениеAq - это комплексная амплитуда. Вещественные амплитуды получаются из них по формулам:

c0=A0,cq=2|Aq|приq=1,...,N/2.

  1. Распределение энергии сигнала по частотным группамp1,...,p20

Одним из важнейших свойств слуха является разделение спектра звука на частотные группы. Слух может образовывать частотные группы на любом участке шкалы частот. В области частот ниже 500 Гц ширина частотных групп почти не зависит от средней частоты групп и составляет примерно 100 Гц. В области выше 500 Гц она увеличивается пропорционально средней частоте. Если частотные группы совместить в один ряд, то в диапазоне от 70 Гц до 7 кГц разместятся 20 частотных групп. Распределение энергии по частотным группам можно найти либо непосредственно с помощью гребенки соответствующих фильтров, либо с помощью коэффициентов разложения в ряд Фурье. Значениеpi для частотной группы от частоты νi-1 до νi с ширинойHiii-1 определяется по формуле:

.

Алгоритм разделения реализации фразы на речь и паузы

Эталонная реализация фразы не содержит кадров с паузами и поделена на слова. Поэтому алгоритм применяется только к поступающей новой реализации фразыX(1),...,X(t),...,X(L), гдеL - длина новой реализации фразы. Требуется отделить кадры, содержащие речь, от кадров, содержащих паузу. Звонкие звуки речи, особенно гласные, имеют высокий уровень кратковременной энергии. По этому параметру они легко отделяются от пауз. Глухие звуки имеют низкий уровень кратковременной энергии. Однако большая часть их энергии лежит в области высоких частот, что приводит к большому числу переходов интенсивности сигнала через нуль. Это используется для отделения от пауз глухих звуков речи. Таким образом, совместное использование контуров кратковременной энергииEt и числа нулей интенсивностиZt позволяет точнее отделить речь от пауз. Под контуром параметра понимается последовательность значений параметра, вычисленных на каждом кадреX(t).

Предполагается, что первые 10 кадров не содержат речевого сигнала. По этому участку вычисляются среднее значение и дисперсия каждой из величинEt,Zt для определения статистических характеристик шума. Затем с учетом этих характеристик и максимальных на реализации фразы значенийEt,Zt вычисляются порогиTE для кратковременной энергии сигнала иTZ для числа нулей интенсивности. Экспериментально были выбраны следующие формулы:

,

,

где ,

.

Например, на рисунке 1 изображены графики кратковременной энергии и числа нулей интенсивности речевого сигнала словосочетания «корневой каталог».

Рис. 1 - Графики зависимостей параметров речевого сигнала для каждого кадра и соответствующие пороговые значения

Каждому кадруX(t) мы должны поставить в соответствие двоичный признакbt, равный 1, если кадр содержит речь,и 0 - в противном случае. Сначала отмечают единицами кадры, на которых кратковременная энергияEtTE, и нулями - остальные кадры. Полученные отметки сглаживают медианной фильтрацией с окном шириной в 2h+1 кадров. (Например,h=3.) Признакиbt могут принимать всего два значения. Поэтому фильтрация сводится к тому, что последовательно дляt=h+1,...,L-h значениеbt заменяется на единицу, если . В противном случае значениеbt заменяется на ноль. В результате выделяются непрерывные участки, содержащие речь. Далее каждый такой участок пытаются расширить. Пусть, например, участок начинается с кадраX(N1) и заканчивается на кадреX(N2). Перемещаются влево отX(N1) (вправо отX(N2)) и сравнивают число нулей интенсивностиZt с порогомTZ. Это перемещение не должно превышать 20 кадров слева отX(N1) (справа отX(N2)). ЕслиZt превысило порог в три и более раз, то начало речевого участка переносится туда, гдеZt впервые превышает порог. В противном случае началом участка считается кадрX(N1). Аналогично поступают и сX(N2). Если два участка перекрываются, то их объединяют в один. Таким образом, окончательно выделяются непрерывные участки, содержащие речь. Такие участки будем называть реализациями слов. Приведенный алгоритм позволяет перейти от сравнения реализаций фраз к сравнению реализаций слов.

На рис; 2 отображен речевой сигнал словосочетания «корневой каталог». После проведения Медианной фильтрации маскирующая функция точно выделила два изолированных слова.

Рис. 2 - Речевой сигнал словосочетания «корневой каталог»

Нелинейный метод временной нормализации

Реализация слова, в отличие от реализации фразы, не содержит кадров с паузами. Пусть даны две реализации слова:

X(0),...,X(i),...,X(m) и

Y(0),...,Y(j),...,Y(n) .

Первая реализация слова считается эталонной, вторая - новой.

Прежде чем сравнивать их между собой необходимо провести временную нормализацию, т.е. привести реализации слов к одинаковой длине. Линейное сжатие или растяжение одной реализации слова до величины другой не решает вопрос вследствие одного важного свойства речевого сигнала - неравномерности его протекания во времени. Это свойство речи выражается в трудно контролируемой зависимости времени образования и звучания ее элементов от контекста, темпа, диалектных и индивидуальных особенностей диктора. Поэтому сравнение должно опираться на нелинейную временную нормализацию.

Для этого находится деформирующая функция, применение которой минимизирует расхождение между эталонной и новой реализациями слов. Точнее находятся две функции:

ωX : {1,...,l} → {1,...,m}

ωY : {1,...,l} → {1,...,n}

(max{m,n}≤l<m+n )

такие, что

ωX(1)=1, ωY(1)=1, ωX(l)=m, ωY(l)=n,

ωX(i+1)=ωX(i)илиωX(i)+1i=1,...,m-1

ωY(j+1)=ωY(j)илиωY(j)+1j=1,...,n-1

Здесь ρi,j=(SX(i)-SY(j))2, гдеSX(i),SY(j) - значения сегментирующей функции из соответствующих контуров.

Сегментирующая функция должна характеризовать суммарное изменение используемых ею параметров речевого сигнала и зависит от двух кадров: текущего и предыдущего. В качестве параметров речевого сигнала мы будем использовать распределение энергии сигнала по частотным группам. Опишем процедуру нахождения контура сегментирующей функцииSX(1),...,SX(i),...,SX(m) для эталонной реализации слова.

  1. На каждом кадреX(i) находится распределение энергии сигнала по частотным группам:p1(i),...,p20(i);i = 0,1,...,m;
  2. Вычисляются модули конечных разностей:

Δk(i)=|pk(i)-pk(i-1) | ;i =1,...,m;k =1,...,20;

  1. Вычисляются средние разности:

;k =1,...,20;

  1. Вычисляются средневзвешенные разности:

;i =1,...,m;k =1,...,20;

  1. Контур сегментирующей функцииSX :

;i =1,...,m.

Аналогично находится контур сегментирующей функцииSY(1),...,SY(j),...,SY(n) для новой реализации слова.

Процедура нахождения деформирующих функций ωX, ωY реализуется методом динамического программирования и дает возможность произвести внутреннее нелинейное выравнивание реализаций слов по времени.

Сначала строится матрица расстояний R = { ρi,j } размера (m×n). По ней затем вычисляется матрица D = {di,j } такого же размера (m×n):

  1. dm,n =ρm,n;
  2. di,n =ρi,n +di+1,n ,i =m-1,...,1;
  3. dm,j =ρm,j +dm,j+1 ,j =n-1,...,1;
  4. di,j =ρi,j + min{di+1,j+1 ,di+1,j ,di,j+1 } ,i =m-1,...,1;j =n-1,...,1;

МатрицаD в свою очередь используется для нахождения функций ωX, ωY. Cначала присваивают: ωX(1)=1, ωY(1)=1. Далее наk-ом шаге находят ωX(k+1) и ωY(k+1). Возможны четыре случая:

  1. Если ωX(k)=m и ωY(k)=n, то деформирующие функции найдены;
  2. Если ωX(k)=m, а ωY(k)<n, то присваивают: ωX(k+1)=m, ωY(k+1)=ωY(k)+1;
  3. Если ωX(k)<m, но ωY(k)=n, то присваивают: ωX(k+1)=ωX(k)+1, ωY(k+1)=n;
  4. Если ωX(k)<m и ωY(k)<n, то сравниваютсяdi1,j1 ,di2,j2 ,di3,j3 для нахождения среди них минимального и соответствующихimin ,jmin. Здесьi1=i2=ωX(k)+1,i1=ωX(k),j1=j3=ωY(k)+1,j2=ωY(k).Затемприсваивают:ωX(k+1)=imin,ωY(k+1)=jmin.

Зная деформирующие функции ωX , ωY мы можем для любого участка эталонной реализации слова найти соответствующий ему участок новой реализации. Применим это для разделения новой реализации слова на звуковые диады. Звуковая диада - переходный процесс от фонемы к фонеме, отображающий перестройку артикуляционного аппарата. В отличие от реализаций фонемы, реализации звуковой диады значительно меньше подвержены влиянию контекста и отражают взаимосвязь соседних фонем речевого потока. Границами диад являются центры квазистационарных участков фонем. Таким образом, диада состоит из второй половины первой фонемы и первой половины второй фонемы.

Эталонная реализация слова делится на звуковые диады вручную: отмечаются номераa0,...,aL кадров, являющихся центрами квазистационарных участков фонем. Затем выбираются точкиnl ,l = 0,...,L такие, что ωX(nl)=al. Теперь с помощью функции ωY можно определить номераb0,...,bL кадров, являющихся центрами квазистационарных участков фонем в новой реализации слова:blY(nl),l = 0,...,L. Приведенный алгоритм позволяет перейти от сравнения реализаций слов к сравнению реализаций звуковых диад.

Сравнение двух реализаций слов

Пусть задана эталонная реализация слова:X(0),...,X(i),...,X(m) и получена некая новая реализация слова:Y(0),...,Y(j),...,Y(n). Требуется сравнить их и определить, являются ли они реализациями одного и того же слова. Будем считать, что мы уже провели временную нормализацию и нашли деформирующие функции ωX , ωY. Пусть также известны границы звуковых диадn0,n1,...,nL. Сравнение новой реализации слова с эталоном заключается в сравнении звуковых диад из новой реализации с соответствующими диадами из эталонной реализации. При сравнении соответствующих диад с номеромl вычисляется расстояниеRl между ними и сравнивается с порогомTφl. Здесь φl - код типа звуковых диад, известный заранее. ЕслиRlTφl, то считается что, диада номерl в новой реализации произнесена правильно. Если все диады правильно произнесены, то новая реализация слова считается правильной. РасстояниеRl вычисляется, например, так:

,

где ρi,j было определено в описании алгоритма временной нормализации. Однако, удачно выбрать порогиTφl пока не удалось. Возможно, что это получится с каким-то другим расстоянием между звуковыми диадами.

Задание.

Моделирование автоматической системы распознавания речи в call-центе.

Создать алгоритм выделения отдельно произнесенных слов и, на основании корреляционного метода (или предложенный вами метод), произвести их идентификацию. Привести пример распознавания слов “да” и “нет”, а также слов “ноль”, “один”, …, “девять”.

Литература

  1. Бахвалов Н.С., Жидков Н.П., Кобельков Г.М. Численные методы.-М.:Наука,1987.
  2. Вентцель Е.С. Исследование операций.-М.:Наука,1988.
  3. Вокодерная телефония. Методы и проблемы. Под ред. А.А.Пирогова.М.:Связь,1974.
  4. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. Пер. с англ.-М.:Радио и связь,1981.
  5. Цвикер Э., Фельдкеллер Р. Ухо как приемник информации. Пер. с нем. под общ. ред. Б.Г.Белкина.-М.:Связь,1971.

Автоматическое выделение отдельно произнесённых слов в речи и их идентификация на http://mirrorref.ru


Похожие рефераты, которые будут Вам интерестны.

1. Реферат ИДЕНТИФИКАЦИЯ И РАСПОЗНАВАНИЕ РЕЧИ

2. Реферат Основные способы русского словообразования. Их роль в образовании слов разных частей речи. Продуктивность разных словообразовательных способов

3. Реферат Релігія у слов’ян. Поширення християнства у слов’ян

4. Реферат Фаза контроля типов. Идентификация. Работа с таблицами Идентификация. Работа с типами. Причины использования промежуточных языков в компиляторах

5. Реферат Проект отдельно стоящего быстровозводимого защитного сооружения для ЗЗПУ

6. Реферат АВТОМАТИЧЕСКОЕ РЕФЕРИРОВАНИЕ И АННОТИРОВАНИЕ ТЕКСТА

7. Реферат АВТОМАТИЧЕСКОЕ УПРАВЛЕНИЕ ЗЕНИТНЫМ УГЛОМ ИСКРИВЛЕНИЯ СТВОЛА СКВАЖИНЫ

8. Реферат Отношение мышления и речи. Роль внутренней речи в процессе мышления (по А.Н.Соколову). Методы исследования внутренней речи

9. Реферат Фильтр Выделение краев

10. Реферат Выделение языковых типов