автореферат разослан «08» октября 2007 г. 




Скачать 85.35 Kb.
PDF просмотр
Название  автореферат разослан «08» октября 2007 г. 
Дата конвертации17.02.2013
Размер85.35 Kb.
ТипАвтореферат

На правах рукописи 
 
 
 
 
Квасов Алексей Николаевич 
 
 
 
 
 
МОДЕЛЬ ГОЛОСООБРАЗОВАНИЯ И 
АНАЛИЗ РЕЧЕВОГО СИГНАЛА В НОРМЕ 
И ПРИ ПАТОЛОГИИ 
 
 
 
 
 
 
Специальность 05.13.18 - Математическое моделирование, 
численные методы и комплексы программ 
 
 
Автореферат  
диссертации на соискание ученой степени 
кандидата технических наук 
 
 
 
Томск - 2007 


 
2
Работа  выполнена  в  Томском  государственном  университете  систем 
управления и радиоэлектроники (ТУСУР) 
 
 
Научный руководитель – 
доктор технических наук, профессор 
Бондаренко Владимир Петрович 
 
 
Официальные оппоненты: 
доктор технических наук, профессор 
Светлаков Анатолий Антонович 
(ТУСУР) 
 
 
кандидат физико-математических наук,с.н.с.  
Афонин Геннадий Иванович 
(НИИ Прикладной математики и механики) 
 
 
 
Ведущая организация –   
Алтайский государственный университет 
                                                         (г.Барнаул) 
                                               
 
 
 
 
Защита  состоится «08» ноября 2007г.  в 15.00 часов  на  заседании 
диссертационного  совета  Д.212.268.02  в  Томском  государственном 
университете систем управления и радиоэлектроники по адресу: 
634034, г.Томск, ул. Белинского, 53, НИИ АЭМ при ТУСУР. 
 
С диссертацией можно ознакомиться в библиотеке ТУСУРа по адресу: 
634045, г.Томск, ул. Вершинина, 74. 
 
Автореферат разослан «08» октября 2007 г. 
 
 
 
Ученый секретарь  
диссертационного совета 
 
  
 
А.Я. Клименко 
 

 
3
Актуальность  работы.  Построение  речевых  диалоговых  систем, 
кодирование  речи,  медицинские  приложения,  распознавание  и  синтез  речи, 
идентификация  диктора  по  голосу  требуют  детального  знания  структуры 
речевого  сигнала  и  механизмов  его  образования.  Особенно  это  актуально  в 
задачах идентификации диктора по голосу, ранней диагностики заболеваний 
органов  речеобразования,  постановке  певческого  голоса  и  др.  Задача 
моделирования процесса речеобразования при формировании звуков, как для 
речи  в  норме,  так  и  в  случае  образования  опухолей  в  области  гортани,  на 
сегодняшний  день  остается  актуальной  и  решенной  неполностью.  При  этом 
необходимо  принимать  во  внимание  особенности  строения  речевого 
аппарата,  связанные  с  полом  диктора,  его  возрастом,  телосложением  и 
состоянием здоровья.  
Необходимо  отметить,  что  до  сих  пор  не  установлена  связь  между 
параметрами  анатомии  речеобразующей  системы,  ее  динамикой  и 
параметрами  голоса.  Большой  вклад  в  развитие  данной  области  внесли 
ученые  Г.Фант,  Дж.Фланаган,  М.А.Сапожков,  В.Н.Сорокин,  В.И.Галунов, 
Б.М.Лобанов, 
Т.К.Винцюк, 
Л.В.Златоустова, 
А.В.Аграновский, 
Н.Г.Загоруйко,  Р.К.Потапова,  Ю.А.Косарев,  А.Л.Ронжин,  М.В.Хитров, 
С.Л.Коваль, В.Г.Михайлов, В.П.Бондаренко, Л.Н.Балацкая, Е.Л.Чойнзонов. 
Основным  недостатком  существующих  систем  является  их  ориентация 
на  использование  статистических  данных  без  учета  особенностей 
речеобразования, связанных с анатомией и физиологией человека. Точность 
результата  работы  подобных  систем  напрямую  зависит  от  полноты  и 
адекватности  используемых  баз  данных  голосов,  ведение  которых  является 
очень  трудоемким  и  дорогостоящим  процессом.  Еще  одна  проблема – 
локализация,  адаптация  существующих  систем  для  языков,  отличных  от 
базового (для которого разрабатывалась система). 
Учет особенностей анатомии человека позволяет существенно повысить 
точность  работы  систем  распознавания  речи  и  определения  личности 
диктора, может использоваться при сортировке телефонных звонков, поиске 
образцов  речи  в  базах  данных,  существенно  сокращая  время  получения 
результата.  В  медицинских  системах  исследование  влияния  опухоли  в 
области гортани позволяет отслеживать динамику болезни при реабилитации 
больных, упрощает задачу ранней диагностики. Наиболее распространенный 
на сегодняшний день зеркальный осмотр дает долю ошибок от 30% до 50%. 
Использование  томографии  на  ранних  стадиях  не  позволяет  выявить 
изменений тканей и является дорогостоящей процедурой; кроме того, данный 
метод  не  может  применяться  часто.  Между  тем,  на  ранних  стадиях 
заболевания  отмечается  изменение  голоса  пациента,  связанное  с 
изменениями параметров речевого аппарата. 
Таким образом, задача исследования особенностей формирования голоса 
на  уровне  гортани  в  норме  и  при  патологиях  в  зависимости  от  параметров 
системы речеобразования человека, является актуальной. 

 
4
Цель  исследования  –  выявление  влияния  параметров  системы 
речеобразования  на  формирование  звуков  на  уровне  гортани  в  норме  и  при 
патологии.  
Для  достижения  поставленной  цели  необходимо  решить  следующие 
задачи
1.  провести  анализ  системы  речеобразования  человека:  исследовать 
строение  системы  речеобразования,  выявить  механизмы  функционирования 
и взаимодействия органов речевого аппарата в процессе образования звучной 
речи, а также определить их параметры; 
2.  исследовать 
структуру 
речевого 
сигнала, 
выявить 
характеристические  параметры,  связанные  с  полом  диктора  или  опухолью 
гортани; 
3.  разработать  математическую  модель  голосообразования  на  уровне 
гортани при патологиях; 
4.  разработать  численные  методы  определения  отклонений  речевого 
сигнала при патологиях; 
5.  разработать 
алгоритмическое 
и 
программное 
обеспечение, 
реализующее модель и алгоритмы; 
6.  исследовать разработанные модели и алгоритмы. 
Методы  исследования.  Для  решения  задач,  сформулированных  в 
работе,  использовались  методы  системного  анализа,  цифровой  обработки 
сигналов,  имитационного  моделирования,  численных  методов,  фонетики, 
психоакустики. 
Достоверность  полученных  результатов  обеспечивается  адекватностью 
модели,  установленной  путем  сравнения  результатов  работы  модели  с 
тестовыми  сигналами;  экспериментальными  данными,  подтверждающими 
теоретические результаты. 
Научная  новизна  результатов,  полученных  в  работе,  состоит  в 
следующем: 
1.  разработана  модель  образования  голоса  на  участке  гортани, 
отличающаяся от известных изменяемыми параметрами голосовых складок; 
2.  определено влияние особенностей анатомии в норме и при патологии 
на  характеристики  голоса,  представленное  в  виде  математических 
зависимостей; 
3.  сформулированы  требования  к  анализу  речевого  сигнала  при 
речевой реабилитации больных заболеваниями гортани. 
Практическая  значимость.  Разработанные  модель  и  алгоритмы 
позволяют: 
1.  создавать программное обеспечение для детального анализа речевого 
сигнала; 
2.  формировать  описание  речевого  сигнала  для  его  распознавания, 
идентификации диктора и кодирования речи в цифровых системах связи; 

 
5
3.  разрабатывать  программное  обеспечение  по  диагностике  изменений 
в речеобразующей системе человека. 
Положения, выносимые на защиту
1.  модель образования голоса для несимметричных голосовых складок; 
2.  зависимости  параметров  вокализованных  звуков  от  особенностей 
строения речевого аппарата для речи в норме и при патологии и методики их 
определения; 
3.  алгоритм  оценки  эффективности  лечения  опухолей  гортани  путем 
анализа речевого сигнала. 
Внедрение  результатов.  Разработанный  программный  комплекс 
используется  в  научно-исследовательской  и  медицинской  деятельности  ГУ 
НИИ  онкологии  ТНЦ  РАМН,  ООО  «НПФ  «Информационные  системы 
безопасности», ООО «ЛМЭ «Биоток», а также в учебном процессе ТУСУР по 
дисциплине «Вычислительная математика». 
Апробация  работы.  Основные  результаты  по  теме  диссертационной 
работы  отражены  в 9 публикациях  (в  том  числе 5 статьях,  из  них 3 в 
журналах, рекомендованных ВАК). 
Личный  вклад.  Автором  разработана  модель  речеобразования  при 
несимметричных 
характеристиках 
голосовых 
складок. 
Проведены 
исследования  влияния  изменения  параметров  речеобразующего  тракта  на 
голос  человека,  разработан  алгоритм  и  осуществлена  программная 
реализация  модулей  для  оценки  эффективности  лечения  опухолей  гортани. 
Постановка задачи осуществлялась совместно с руководителем – д.т.н., проф. 
В.П. Бондаренко. 
Структура и объем работы. Диссертация состоит из введения, четырех 
глав,  заключения,  списка  литературы  из 92 наименований  и 3 приложений. 
Общий объем работы составляет 108 страниц, в том числе 35 рисунков и 32 
таблицы. 
СОДЕРЖАНИЕ РАБОТЫ 
Во введении 
обоснованы актуальность и научная новизна исследования, 
определены цель работы и основные задачи, которые необходимо решить для 
ее  достижения,  дана  общая  характеристика  исследования,  сформулированы 
основные положения, выносимые на защиту. 
В  первой  главе  проводится  анализ  анатомического  строения 
речеобразующего  тракта  (РОТ)  и  механизмов  взаимодействия  его 
составляющих  в  процессе  формирования  звучной  речи,  определение 
диапазонов допустимых значений этих параметров. 
В  результате  анализа  определено,  что  строение  мужского  и  женского 
речевых  аппаратов  имеют  существенные  различия,  основные  из  которых 
сведены в таблицу 1. Наиболее существенные различия в анатомии системы 
речеобразования состоят в длине речеобразующего тракта, размерах гортани, 
а также параметрах голосовых складок. 
 

 
6
 
Таблица 1. Основные отличия речевых аппаратов мужчин и женщин 
Название параметра 
Значение муж. 
Значение жен. 
Жизненная емкость легких, л 3,5-7,0 
2,5-6,0 
Диаметр трахеи, мм 13-27 
10-23 
Длина трахеи, см 9-13 
8-12 
Длина голосовых складок, мм 20-24 
18-20 
 
 
 
Ширина голосовых складок, мм 3-3,5  2,5-3 
Длина гортани, мм 44 
36 
Поперечный диаметр гортани, мм 43 
41 
Переднезадний диаметр гортани, мм 36 
26 
Длина речеобразующего тракта, см 16,5-18 
13,5-16 
Рассмотрены  основные  существующие  подходы  к  учету  характеристик 
голоса, связанных с полом диктора: 1) на основе метода двух формант; 2) на 
основе скрытых Марковских моделей; 3) на основе смешанных Гауссовских 
моделей. В результате был сделан вывод, что ни один подход не принимает 
во  внимание  особенности  речеобразования,  связанные  с  анатомией  и 
физиологией человека, а ориентируется на статистические данные. 
На  основе  проанализированных  данных  сделана  постановка  задачи, 
которая  заключается  в  построении  моделей  речеобразования  для  речи  в 
норме  и  при  патологии  и  определении  зависимостей  между  параметрами 
голоса и особенностями анатомии речеобразующего тракта. 
Во  второй  главе  рассмотрено  влияние  параметров  речеобразующего 
тракта на характеристики голоса. 
Были  рассмотрены  следующие  подходы  к  построению  математической 
модели речеобразующего тракта: 
1.  волновая модель Келли-Локбаума; 
2.  модель на основе уравнения Вебстера; 
3.  модель на основе длинных линий, или четырехполюсников; 
В  тексте  диссертации  приведены  акустические  схемы  для  мужской, 
женской речи в норме и при патологиях. 
Проведен  анализ  модели  формирования  формантной  структуры  на 
основе  известных  данных  о  площадях  сечений  речеобразующего  тракта  для 
различных звуков (Рисунок 1). 


 
7
 
Рисунок 1. Вид функции площади поперечного сечения РОТ для гласного /А/  
 
Сопоставлены  основные  модели  образования  вокализованных  звуков 
речи: 
1.  модель, основанная на миоэластической теории фонации, в которой 
голосовые  складки  раскрываются  под  действием  давления  в  трахее  и 
смыкаются под действием сил Бернулли; 
2.  модель, основанная на нейрохроноксической теории Рауля Юссона, в 
которой  на  движение  голосовых  складок  не  влияет  давление  в  трахее  и 
ротовой полости; 
3.  модель  Фанта,  в  которой  постулируется  независимость  источника 
возбуждения от параметров речевого тракта. 
С  использованием  каждой  из  перечисленных  моделей  образования 
вокализованных  звуков  речи  были  найдены  частоты  первых  двух  формант 
для  звуков  /А/, /Е/, /И/, /О/, /У/,  с  длиной  речеобразующего  тракта,  равной 
17 см  для  мужского  организма,  и 14,5 см  для  женского.  Полученный 
результат  сравнивался  с  известными  данными  о  частотах  первых  двух 
формант для мужчин и женщин. В результате были определены расхождения, 
представленные в таблице 2. 
Таблица 2. Средние отклонения расчетных частот формант от реальных 
значений для мужчин и женщин 
Мужчина 
Женщина 
 
∆F1 
∆F2 
∆F1 
∆F2 
Голосовые складки – источник напряжения 
∆ср. 
146 180 216 290 
Голосовые складки – источник тока 
∆ср. 
22 74 4 30 
Голосовые складки – движение за счет разности давлений 
∆ср. 
22 32 8 32 


 
8
Здесь  ∆F1, ∆F2 – полученные расхождения для частот первой и второй 
формант соответственно. Из представленных данных видно, что наименьшее 
расхождение  имеют  значения,  полученные  с  помощью  модели  движения 
голосовых  складок  за  счет  разности  давлений,  следовательно,  эта  модель 
является наиболее адекватной процессам образования звучной речи и может 
быть использована для решения поставленных задач. 
Анализ влияния изменения длины речеобразующего тракта на параметры 
голоса показал, что уменьшение длины речеобразующего тракта приводит к 
существенному  росту  частот  формант  (Рисунок 2), что  объясняет  наличие 
более высоких частот формант в женском голосе по сравнению с мужским.  
Также  проводилась  оценка  чувствительности  для  определения  степени 
чувствительности для каждой форманты как:
 
d
                                   
F

=
=
                                                   
dL
L

РОТ
РОТ                                   (1) 
где  ∆F – изменение  частоты  исследуемой  форманты,  которая 
определялась  разницей  соседних  значений  (Гц),  ∆LРОТ – изменение  длины 
РОТ (м).  
 
Рисунок 2. Зависимость частот формант для звука /А/ от длины 
речеобразующего тракта 



 
9
 
Рисунок 3. Чувствительность частот формант к изменению длины РОТ 
 
Анализ  чувствительности  показал,  что  наиболее  чувствительными  к 
изменению длины РОТ являются частоты верхних формант (Рисунок 3). 
Изменение  длины  Морганиева  желудочка  практически  не  оказывает 
никакого  влияния  на  частоты  первых  двух  формант  и  наиболее  сильно 
сказывается на частоте третьей форманты (Рисунок 4), за исключением звука 
/И/, где наиболее сильно изменяется частота четвертой форманты. 
 
Рисунок 4. Зависимость частот формант для звука /А/ от длины 
Морганиева желудочка 
 

 10
При  исключении  Морганиева  желудочка  из  речеобразующего  тракта 
исчезла третья форманта для всех звуков, кроме /И/, из чего можно сделать 
вывод,  что  Морганиев  желудочек  отвечает  за  формирование  третьей 
форманты в гласных звуках /А/, /Е/, /О/, /У/. 
Пропорциональное  изменение  площади  поперечного  сечения  для  всего 
речеобразующего тракта не оказывает никакого влияния на частоты формант. 
Пропорциональное 
увеличение 
площади 
поперечного 
сечения 
Морганиева  желудочка  приводит  к  незначительному  росту  частот 4-й  и 3-й 
формант и уменьшению 1-й и 2-й. 
Был проведен анализ историй болезни 43-х пациентов, предоставленных 
НИИ  онкологии  ТНЦ  СО  РАМН,  с  диагнозом  рак  гортани.  Частота 
распространения опухоли на органы гортани представлена в таблице 3. 
Таблица 3. Частота распространения опухоли на органы гортани 
Органы и отделы гортани и РОТ % 
Одна голосовая складка 67,4 
Обе голосовые складки 14 
Одна ложная голосовая складка 44,2 
Обе ложные голосовые складки 4,6 
Морганиев желудочек 41,9 
Основание надгортанника 30,2 
Черпало – надгортанная складка 23,3 
Корень языка 4,6 
Гортанная поверхность надгортанника 4,6 
Из  обработанных  данных  (таблица 3) следует,  что  преимущественно 
опухоли  подвержена  одна  голосовая  складка (67,4%), также  большое 
внимание  следует  уделить  распространению  опухоли  на  стенки  гортани  в 
области голосовых складок и Морганиева желудочка. 
Появление  посторонних  образований  в  просвете  гортани  в  области 
голосовых  складок  и  Морганиева  желудочка  наибольшим  образом 
сказывается  на  увеличении  частоты 3-й  форманты  пропорционально  росту 
размера образования. 
В  третьей  главе  приведен  обзор  моделей  голосовых  складок, 
разработана модель образования гласных звуков на уровне гортани для речи 
при  патологии,  описано  влияние  изменения  массы  голосовых  складок  на 
речевой сигнал для нормальной и патологической речи. 
Были рассмотрены следующие модели голосовых складок: 



 11
1.  одномассовая модель (James L. Flanagan, Lorinda L. Landgraf, 1968); 
2.  одномассовая модель с имитацией второй массы (Federico Avanzini, 
Paavo Alku, Matti Karjalainen, 2001); 
3.  двухмассовая модель (K.Ishizaka, J.L.Flanagan, 1972); 
4.  трехмассовая модель (B.H.Story and I.R.Titze, 1995); 
5.  шестнадцатимассовая модель (I.R.Titze, 1973). 
Анализ  моделей  голосовых  складок  показал,  что  для  исследования 
влияния  массы  голосовых  складок  на  речевой  сигнал  наиболее  подходит 
одномассовая  модель.  Достоинством  данной  модели  является  простота 
реализации  при  учете  большинства  изменяемых  параметров,  низкая 
вычислительная сложность. Основным недостатком перечисленных моделей 
по сравнению с одномассовой является трудоемкость обнаружения областей 
устойчивых колебаний. Вместе с тем, постановка задачи требует того, чтобы 
области  колебаний  были  обширны,  поскольку  необходимо  варьировать 
параметры модели в широких пределах. 
В связи с тем, что для речи в норме параметры обеих складок одинаковы 
и  их  движения  синхронны,  в  моделях  голосовых  складок  обе  голосовые 
складки заменяются одной эквивалентной с массой, равной сумме масс обеих 
складок (Рисунок 5). 
В  случае,  когда  параметры  складок  различны  (например,  при  раке 
гортани), приведенные модели голосовых складок становятся неприемлемы. 
При  моделировании  голосовых  складок  с  различными  параметрами 
возникает  необходимость  моделировать  каждую  складку  в  отдельности 
(Рисунок 6). 
 
Рисунок 5. Двухмассовая модель голосовых складок 
 
Рисунок 6. Двойная двухмассовая модель голосовых складок 


 12
 
Модель  образования  звуков  для  речи  при  патологии  примет  вид, 
показанный  на  рисунке 7. Здесь:   – емкость,  представляющая 
эквивалентный  объем  легких;  ,  ,  ,   – элементы 
четырехполюсника – электрического  эквивалента  трахеи;  в  модели 
используется  одномассовая  модель  голосовых  складок,  представленная 
переменными  элементами  Ls  и  Rs;  соединение  элементов  ,  ,   
представляет  собой  электрический  эквивалент  Морганиева  желудочка; 
речеобразующий  тракт  представлен  в  виде  последовательного  соединения 
четырехполюсников  L0,  G0,  R0,  C0 – L4,  G4,  R4,  C4;  E – эквивалент 
атмосферного давления. 
 
Рисунок 7. Модель речевого аппарата для речи при патологии 
 
Таблица 4. Выражения для расчета 
d
Ul d
it
Ul =
⋅ −  
Скорость изменения 
dt
C dt
C
давления в легких 
d
Ul Ut − it ⋅ Rt
it =
 
Скорость изменения тока 
dt
Lt
трахеи 
d
1
Ut =
⋅(it − is − Gt Ut)  
Изменение давления в 
dt
Ct
трахее 
1
= 11
 
Скорость движения 1-й 
dt
голосовой складки 

 13
Изменение скорости 
d
kc
11
F(t) − δ ⋅ 11

⋅ 1
 
движения 1-й складки, где 
dt
1
ms
ms1 – масса первой 
складки 
d
Ut − Um
 β
11

λ
Изменение тока голосовой 
2
1
is =
⋅ 1
− 

 ⋅ 1
is 
⋅ 1
⋅ 1
is  
щели через первую 
dt
2 ⋅α
 α
1

α
складку 
d x2 = x22
Скорость движения 2-й 
 
dt
голосовой складки 
Изменение скорости 
d
kc
x22 = F(t) − δ ⋅ x22 −
⋅ x2  
движения 2-й складки, где 
dt
ms2
ms2 – масса второй 
складки 
2
d
Ut − Um
 β
x22 
λ
Изменение тока голосовой 
is2 =
⋅ x2 −  −
 ⋅ is2 − ⋅ x2is2  
щели через вторую 
dt
2 ⋅α
 α
x2 
α
складку 
d
is
( 1+ is − im Um Gm
Um =
)
2
 
Изменение давления 
dt
Cm
Морганиева желудочка 
d
Um − im ⋅ Rm
im =
0
 
Изменение тока 
dt
Lm
Морганиева желудочка 
d
im − i0 −0 ⋅ G0
0 =
 
Изменение давления 
dt
C0
нулевого звена РОТ 
d
0 −U1− i0 ⋅ R0
i0 =
 
Изменение тока нулевого 
dt
L0
звена РОТ 
d
i0 − 1
U1⋅ 1
G
U1 =
 
Изменение давления 
dt
1
C
первого звена РОТ 
d
U1−2 − 1
⋅ 1
R
1
=
 
Изменение тока первого 
dt
1
L
звена РОТ 
d
1
− i2 −2 ⋅G2
2 =
 
Изменение давления 
dt
C2
второго звена РОТ 
d
2 −U3 − i2 ⋅ R2
i2 =
 
Изменение тока второго 
dt
L2
звена РОТ 
d
i2 − i3 −U3⋅G3
3 =
 
Изменение давления 
dt
C3
третьего звена РОТ 
d
3 −4 − i3⋅ R3
i3 =
 
Изменение тока третьего 
dt
L3
звена РОТ 

 14
d
i3 − i4 −4 ⋅ G4
4 =
 
Изменение давления 
dt
C4
четвертого звена РОТ 
d
4 − − i4 ⋅ R4
i4 =
 
Изменение тока 
dt
L4
четвертого звена РОТ 
 
Ниже  приведены  основные  параметры,  используемые  в  модели,  их 
обозначение и размерности. 
Таблица 5. Перечень параметров 
Параметр 
Обозначение 
Размерность 
СИ 
Масса первой голосовой 
ms1 
складки 
М  
кг  
Масса второй голосовой 
ms2 
складки 
М  
кг  
Н
Коэффициент жесткости kc 
−2
МТ  
 
м
Коэффициент соответствия 
между площадью голосовой 
α 
4
2
2
L MT Г  
2
Гн ⋅ м  
щели и ее индуктивностью 
Коэффициент соответствия 
между площадью голосовой 
β 
4
3
2
L MT Г  
2
Ом ⋅ м  
щели и ее сопротивлением 
Коэффициент затухания 
Н ⋅ с
δ 
1

колебаний 
МТ  
м  
 
Коэффициент для учета 
2
кг ⋅ м
λ 
2
3
3
 
влияния сил Бернулли 
L MT Г  
3
3
 
с ⋅ А
  
В  ходе  исследования  влияния  на  речевой  сигнал  изменения  массы 
голосовых  складок  в  норме  и  при  патологии  не  выявлено  взаимосвязей 
изменения  массы  с  изменением  величины  относительных  интенсивностей 
гармоник частоты основного тона, рассчитываемой по формуле 2.  
(t)
I
(t) = ln n

 
 
(2) 
n,отн
n
(t)
0
0
Для  нормальной  речи  были  получены  результаты,  представленные  на 
Рисунке 8.  
Из  приведенных  данных  видно,  что  при  увеличении  массы  голосовых 
складок  частота  основного  тона  уменьшается,  что  объясняет  более  низкую 
частоту  основного  тона  у  мужчин  по  сравнению  с  женской,  поскольку 
мужские голосовые складки в большинстве случаев тяжелее женских.  




 15
 
Рисунок 8. Зависимость частоты основного тона от массы голосовых 
складок 
При речи c патологией гортани, в связи с распространением опухоли на 
часть  голосовой  складки,  масса  складки,  участвующая  в  процессе 
речеобразования,  уменьшается,  так  как  пораженная  часть  становится 
неподвижной (Рисунок 9).  
 
Рисунок 9. Движение здоровой голосовой складки – слева, движение 
пораженной складки – справа (серым показано распространение опухоли) 
 
Рисунок 10. Зависимость частоты основного тона от массы активной 
части второй голосовой складки 



 16
         Для  определения  влияния  на  речевой  сигнал  неравномерности  масс 
голосовых  складок  при  распространении  опухоли  на  одну  из  них,  масса 
первой  голосовой  складки  была  взята 0,07 
г,  масса  второй  складки, 
участвующая в процессе речеобразования, варьировалась от 0,06 до 0,01 г. С 
ростом площади поражения и, как следствие, уменьшением массы активной 
части  голосовой  складки,  частота  основного  тона  увеличивается  (Рисунок 
10). 
Анализ траектории движения голосовых складок с различными массами 
показал, что они двигаются в разной фазе (Рисунок 11). 
Токи  через  голосовые  складки  также  имеют  разную  фазу  и  отличаются 
по форме (Рисунок 12). 
 
Рисунок 11. Траектории движения голосовых складок по времени 
  
 
Рисунок 12. Ток голосовых складок по времени  
 

 17
С помощью анализа записей голосов при опухолях голосовых складок и 
голосов  в  норме  было  установлено,  что  расчетные  значения  для 
интенсивностей  и  частоты  основного  тона  совпали  с  измеренными 
значениями  для  реальных  голосов,  что  говорит  об  адекватности  модели  и 
правильности используемых подходов. 
В  четвертой  главе  представлены  алгоритм  и  программная  реализация 
оценки  отклонения  параметров  речевого  сигнала  и  эффективности 
проведения лечения при раке гортани. Обоснована возможность применения 
разработанных  моделей  в  медицинских  исследованиях  при  получении 
параметров  речевого  сигнала.  Это  позволяет  определить  изменения  органов 
речеобразования,  характерных  для  рака  гортани  различных  стадий,  а  также 
при ранней диагностике рака гортани.  
Представлены 
результаты 
исследований 
речевых 
сигналов 
онкологических больных на разных стадиях заболевания.  
Использование  разработанных  программных  модулей  может  служить 
основой  методик  диагностики  наличия  заболеваний,  которые  вызывают 
изменения на уровне гортани (в том числе рака гортани), а также программ, 
позволяющих  производить  контроль  качества  проводимого  лечения  при 
лучевой  и  химиотерапии.  На  сегодняшний  день  методы,  при  помощи 
которых  производится  оценка  размеров  опухоли,  либо  требуют 
дополнительного дорогостоящего оборудования, либо не могут применяться 
слишком  часто,  например,  рентген  или  томография,  либо  недостаточно 
точны,  например,  зеркальная  ларингоскопия,  дающая  процент  ошибок  от 
30% до 50%. 
Приведены  результаты  анализа  записей  голосов  онкологических 
больных с распространением раковой опухоли на одну голосовую складку до 
проведения операции. Не удалось установить какую-либо взаимосвязь между 
развитием  заболевания  и  относительными  максимумами  интенсивностей 
гармоник,  однако  отмечается  значительное  увеличение  разброса  соседних 
значений  относительных  максимумов  интенсивностей  частоты  основного 
тона с ростом тяжести заболевания.  
При  этом  происходит  значительное  увеличение  частоты  основного 
тона  (Таблица 6), что  соответствует  данным,  полученным  в  результате 
моделирования (Рисунок 10). 
Таблица 6. Динамика частоты основного тона 
Тяжесть заболевания 
ЧОТ ср. 
ЧОТ min 
ЧОТ max 
1 90 
70 
100 
2 100 
95 
110 
3 260 
220 
300 
4 170 
130 
200 
5 160 
120 
180 


 18
Полученные  результаты  были  использованы  при  разработке 
программного комплекса (Рисунок 13). 
 
 
Рисунок 13. Структура программного комплекса на уровне блоков 
 
Программный  комплекс  по  исследованию  речевого  сигнала  состоит  из 
программно реализованных модулей, объединенных в семь блоков. 
Блок создания файлов для обработки речевого сигнала предназначен 
для расчета весовых функций hc(tk), hs(tk), W0(kki) и формирования набора 
масок Pм(k) на основе W0(k,  ki); 
Блок предварительной обработки речевого сигнала предназначен для 
выполнения  свертки  речевого  сигнала  S(t)  с  весовыми  функциями  системы 
фильтров hc(t k) и hs(t k). 
Блок  выделения  параметров  речевого  сигнала  предназначен  для 
вычисления  массива  значений  интенсивностей  I(t,  k)  и  массива  значений 
мгновенных частот основного тона F(t k). 
Блок  выделения  вокализованных  участков  речевого  сигнала 
осуществляет  одновременную  маскировку  речевого  сигнала  и  его 
сегментацию по наличию голосового источника. 

 19
Блок  выделения  параметров  вокализованных  сегментов  речевых 
сигналов  предназначен  для  определения  номеров  каналов  kn  и  вычисления 
величины девиации частоты основного тона. 
Блок визуализации параметров речевого сигнала позволяет сохранять 
полученные  графики  как  в  автоматическом,  так  и  в  автоматизированном 
режиме. 
Блок  анализа  отклонений  параметров  речевого  сигнала  содержит 
следующие модули: 
1.  модуль для выделения средней частоты основного тона; 
2.  модуль  для  вычисления  среднего  отклонения  первых  трех 
относительных интенсивностей гармоник частоты основного тона; 
3.  модуль  для  анализа  исторических  данных,  позволяющий  оценивать 
динамику  протекания  заболевания  и  проводить  оценку  эффективности 
лечения. 
В заключении приведены основные научные и практические результаты 
диссертационной работы. 
1. Разработана  модель  голосообразования  при  различных  параметрах 
голосовых складок. 
2. Установлены  основные  зависимости  между  параметрами  анатомии  и 
параметрами голоса, в том числе зависящие от пола диктора. 
3. Разработан  алгоритм  анализа  отклонений  речевого  сигнала  для 
создания  систем  диагностики  и  более  эффективного  лечения  заболеваний 
речеобразующих органов, в том числе рака гортани. 
4. Создано 
алгоритмическое 
и 
программное 
обеспечение 
по 
исследованию речевых сигналов. 
Основные  результаты  диссертации  опубликованы  в  следующих 
работах: 
В рецензируемых ВАК журналах: 
1.  Квасов,  А.  Н.  Влияние  параметров  системы  речеобразования  на 
структуру речевого сигнала / А. Н. Квасов // Вестник СибГАУ. – Красноярск, 
2006. – С. 15-17.  
2.  Квасов,  А.  Н.  Рекурсивная  система  фильтров / А.  Н.  Квасов,  А.  С. 
Солуянов // Вестник СибГАУ. – Красноярск, 2006. – С. 17-20.  
3.  Квасов, А. Н. Особенности речевого сигнала при опухоли гортани / 
Л. Н. Балацкая, А. Н. Квасов, А. А. Конев, С. Ю. Чижевская, Е. Л. Чойнзонов 
// Известия ВУЗов «Физика», 2006. – Т. 49 – Вып. 9. – С. 290-293. 
В других изданиях: 
4.  Квасов,  А.  Н.  Идентификация  пола  диктора  по  речевому  сигналу  с 
учетом  особенностей  речеобразования / А.  Н.  Квасов // Научная  сессия 
ТУСУР – 2005: Материалы Всероссийской научно-технической конференции 
студентов,  аспирантов  и  молодых  специалистов – Томск:  Издательство 
ТУСУРа, 2005. – С. 135-138. 

 20
5.  Квасов,  А.  Н.  Отличия  женских  и  мужских  голосов  в  задачах 
идентификации  диктора / А.  Н.  Квасов // Научная  сессия  ТУСУР – 2005: 
Материалы  Всероссийской  научно-технической  конференции  студентов, 
аспирантов и молодых специалистов – Томск: Издательство ТУСУРа, 2005. – 
С. 138-140. 
6.  Квасов,  А.  Н.  Распознание  речи  с  учетом  особенностей 
речеобразования / А. Н. Квасов // Научная сессия ТУСУР – 2006: Материалы 
Всероссийской  научно-технической  конференции  студентов,  аспирантов  и 
молодых специалистов – Томск: Издательство ТУСУРа, 2006. – С. 26-29. 
7.  Квасов,  А.  Н.  Анализ  речевого  потока  в  задачах  идентификации 
диктора / А.  Н. Квасов // Научная  сессия  ТУСУР – 2006: Материалы 
Всероссийской  научно-технической  конференции  студентов,  аспирантов  и 
молодых специалистов – Томск: Издательство ТУСУРа, 2006. – С. 29-31. 
8.  Квасов, А. Н. Влияние параметров речеобразовательной системы на 
речевой сигнал / А. Н. Квасов, Е. Ю. Костюченко, А. С. Солуянов // Сборник 
трудов XVII сессии  Российского  акустического  общества.  Том III – М.: 
ГЕОС, 2006. – С. 14-17. 
9.  Квасов, А. Н. Особенности мужского и женского речевых сигналов / 
А.  Н.  Квасов,  А.  С.  Солуянов // Сборник  трудов XVII сессии  Российского 
акустического общества. Том III – М.: ГЕОС, 2006. – С. 17-21. 
 
 
 
 

 21
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Тираж 100. Заказ _______ 
Томский государственный университет 
систем управления и радиоэлектроники 
пр. Ленина, 40 
 


Похожие:

  автореферат разослан «08» октября 2007 г.  icon  автореферат разослан 16 октября 2009 г. 

  автореферат разослан «08» октября 2007 г.  icon  автореферат диссертации разослан «30» октября 2012 года. 
В. С. Елистратова,  С. И. Левиковой,  В. М. Мокиенко,  Т. Г. Никитиной  и  др.,  со
  автореферат разослан «08» октября 2007 г.  icon  автореферат разослан « 14 »  октября  2010 года. 
Удк [535. 343+544. 541]: 29. 19. 22                                                На правах рукописи 
  автореферат разослан «08» октября 2007 г.  icon  автореферат разослан « 13  » апреля 2007 года 
Ведущая организация: фгу  Всероссийский государственный центр                                            
  автореферат разослан «08» октября 2007 г.  icon  автореферат разослан «       » сентября 2007 г. 
Гоу впо «Российский государственный   профессионально-педагогический университет»  
  автореферат разослан «08» октября 2007 г.  iconАвтореферат разослан «23» октября  2011 г. 
Несмотря на то, что эти два состояния могут иметь аналогичные клинические проявления 
  автореферат разослан «08» октября 2007 г.  icon  автореферат разослан « 18 » октября 2008г. 
Специальность: 12. 00. 03 – гражданское право, предпринимательское право, семейное 
  автореферат разослан «08» октября 2007 г.  icon  автореферат разослан “             “                         “ 2003 г. 

  автореферат разослан «08» октября 2007 г.  icon  автореферат разослан « 03 »   июля   2009 г. 

  автореферат разослан «08» октября 2007 г.  icon  автореферат разослан  «    » сентября 2010 года. 

Разместите кнопку на своём сайте:
kak.znate.ru


База данных защищена авторским правом ©kak.znate.ru 2012
обратиться к администрации
KakZnate
Главная страница