Номер патенту: 41913

Опубліковано: 15.10.2001

Автор: Вінн Вудсон Дейл

Є ще 7 сторінок.

Дивитися все сторінки або завантажити PDF файл.

Формула / Реферат

1.Способ обработки входного сигнала с речевой и шумовой мощностью в телекоммуникационной сети с использованием итерируемого фильтра на базе речевой модели кодирования с линейным предсказанием (КЛП), имеющего узлы установления порядка и эквивалентного представления полярных позиций речевой модели КЛП с позиционными корнями и разностными корнями линейной спектральной пары (ЛСП) и предназначенного для оценки спектра речевой мощности входного сигнала для каждого текущего кадра, передаваемого в эту сеть, отличающийся тем, что он включает в себя операции :

- преобразования упомянутого входного сигнала в последовательности информационных кадров спектральной области;

-выбора из означенной последовательности подмножества последовательных информационных кадров, включающего в себя группу предшествующих кадров, текущего кадра и до двух последующих кадров;

-выполнения выбранного числа итераций по текущему информационному кадру в указанном подмножестве информационных кадров, причем каждая итерация формирует величины позиционных корней и разностных корней ЛСП, и итерации включают в себя операции;

- создания последовательности фильтров Винера , в которой спектр сигнала, поступающего на начальный фильтр Винера, имеет оценку спектра шумовой мощности;

-определения лучших текущих оценок спектра речевой мощности и спектра шумовой мощности на каждой данной итерации и суммирования двух оценок для получения текущего фильтра Винера, и суммирования большого фрагмента выходного сигнала с указанного

текущего фильтра Винера с малым количеством, равным 1, за вычетом указанного большого фрагмента не отфильтрованного входного сигнала для получений входного сигнала для следующего фильтра Винера;

-сглаживания на каждой итерации в итерационной последовательности позиционных корней ЛСП, полученных для предыдущих информационных кадров, позиционным корнем ЛСП текущего кадра с использованием величин позиционных корней ЛСП, вычисленных для текущей итерации указанной последовательности;

-получения оценок спектра речевой мощности входного сигнала из выходного сигнала непрерывного ряда итерационных последовательностей текущих кадров;

-формирования речевого сигнала с пониженным уровнем шума на основании оценок спектра речевой мощности входного сигнала, и передачи речевого сигнала с пониженным уровнем шума в телекоммуникационную сеть.

2. Способ по п.1, отличающийся тем, что десятичный эквивалент  большого фрагмента выходного сигнала выбирают равным от 0,8 до 0,95.

3.Способ по п. 2, отличающийся тем, что операция определения   лучшей текущей оценки спектра шумовой мощности включает в себя :

-определение последовательности информационных кадров, которые в соответствии с заранее установленным порогом содержат только шумовую мощность, и получение и постоянное обновление оценки указанного спектра шумовой мощности с использованием только спектров информационных кадров, содержащих шумовую мощность.

4.Способ по п.3, отличающийся тем, что операция получения и постоянного обновления оценки спектра шумовой мощности в свою очередь включает следующие подоперации:

-измерения разностей в спектре шумовой мощности между новой оценкой спектра шумовой мощности и предшествующей оценкой этой характеристики, и придания большего веса в процессе обновления кадрам новой оценки спектра шумовой мощности на величину, пропорциональную вышеупомянутым разностям.

5.Способ по. п.4, отличающийся тем, что операцию получения и постоянного обновления оценки спектра шумовой мощности осуществляют только при обнаружении по меньшей мере небольшого заранее установленного числа кадров только шумового сигнала.

6.Способ по п.5, отличающийся тем, что заранее установленное число кадров составляет от 5 до 6.

7.Способ по п.6, отличающийся тем, что он дополнительно содержит операции:

-обнаружения в информационных кадрах речевой мощности, которая в соответствии с заранее установленным порогом относится к звонкой и речевой мощности, которая относится к глухой, и установления по существу десятого порядка для итерируемого фильтра речевой модели КЛП в случае обнаружения звонкой речевой мощности.

8.Способ по п.7, отличающийся тем, что он дополнительно включает операцию

-установления по существу от четвертого до шестого порядка для итерируемого фильтра речевой модели КЛП при обнаружении глухой речевой мощности.

9.Способ по п. 8, отличающийся тем, что он дополнительно включает операцию:

-подключения речевого сигнала с пониженным уровнем шума к сети только при обнаружении либо звонкой, либо глухой речи.

10.Способ по п.9, отличающийся тем, что он дополнительно включает операции :

-ослабления оценки спектра шумовой мощности;

-пропускания ослабленной оценки спектра шумовой мощности в сеть при не обнаружении ни звонкой ни глухой речи.

11.Способ по п. 10, отличающийся тем, что он дополнительно включает операцию

-перекрывания соседних кадров подмножества последовательных кадров до

выполнения ряда итераций.

12.Способ по п.11, отличающийся тем, что перекрытие соседних кадров составляет порядка 50 %.

13.Способ по п. 12, отличающийся тем, что телекоммуникационную сеть выполняют содержащей дистанционный переключатель на первой стороне международной границы, центральный офис со вторым переключателем, расположенным на противоположной стороне границы, и коммуникации между дистанционным переключателем и вторым переключателем, при этом с помощью второго переключателя принимают входной сигнал с речевой и шумовой мощностью.

14.Способ по п.13, отличающийся тем, что подмножество последовательных кадров включает в себя до четырех предшествующих кадров.

15. Способ по п.1 или п.14, отличающийся тем, что он дополнительно включает операции:

-установления порога шумовой мощности входного сигнала до момента обработки в реальном масштабе времени;

-определения, имеется ли шумовая мощность во входном сигнале, превышающая установленный порог;

-определения, содержит ли входной сигнал какую-либо из речевых мощностей;

-определения, является ли входной сигнал вызовом в указанную сеть, потребующим для его пользователя уменьшения шумовой мощности;

-задействования способа обработки в реальном масштабе времени в случае, если имеется подтверждение по всем трем из предыдущих операций определения.

16.Способ по п. 15, отличающийся тем, что он дополнительно включает в себя операции:

-обнаружения перехода во входном сигнале любого одного из возможных состояний шумового, звонкого или глухого речевого , в другие состояния;

повторной инициализации корней ЛСП предыдущих четырех кадров перед началом итераций на текущем кадре.

17.Способ по п. 16, отличающийся тем, что число итераций выбирают от 4 до 7.

18.Способ по п. 17, отличающийся тем, что он дополнительно включает в себя ограничение каждого корня разности ЛСП до значения, большего заданного минимального расстояния от его ближайшего сглаженного позиционного корня.

19. Способ обработки входного сигнала с речевой и шумовой мощностью в телекоммуникационной сети с использованием итерируемого фильтра на базе речевой модели кодирования с линейным предсказанием.(КЛП), имеющего узлы установления порядка и эквивалентного представления полярных позиций речевой модели КЛП с позиционными корнями позиций и разностными корнями линейной спектральной пары (ЛСП) и предназначенного для оценки спектра речевой мощности входного сигнала для каждого текущего кадра, передаваемого в эту сеть, отличающийся тем, что он включает в себя операции :

-преобразования упомянутого входного сигнала в последовательности информационных кадров спектральной области;

-выбора из означенной последовательности подмножества последовательных информационных кадров, включающего в себя группу предшествующих кадров, текущего кадра и до двух последующих кадров;

-выполнения выбранного числа итераций по текущему информационному кадру в указанном подмножестве информационных кадров, причем каждая итерация формирует величины позиционных корней и разностных корней ЛСП,

-сглаживания для каждой итерации в итерационной последовательности позиционных корней ЛСП, полученных для предыдущих информационных кадров, позиционным корнем ЛСП текущего кадра с использованием величин позиционных корней ЛСП, вычисленных для текущей итерации указанной последовательности;

-получения оценок спектра речевой мощности входного сигнала из выходного сигнала непрерывного ряда итерационных последовательностей текущих кадров;

-формирования речевого сигнала с пониженным уровнем шума на основании оценок спектра речевой мощности входного сигнала, и передачи речевого сигнала с пониженным уровнем шума в телекоммуникационную сеть.

20. Способ по п. 19, отличающийся тем. что указанные итерации включают в себя операции:

-создания последовательности фильтров Винера , в которой спектр сигнала, поступающего на начальный фильтр Винера, имеет оценку спектра шумовой мощности, и определения лучших текущих оценок спектра речевой мощности и спектра шумовой мощности на каждом этапе данной итерации и суммирование двух оценок для получения текущего фильтра Винера.

Текст

1 Способ обработки входного сигнала с речевой и шумовой мощностью в телекоммуникационной сети с использованием итерируемого фильтра на базе речевой модели кодирования с линейным предсказанием (КПП), имеющего узлы установления порядка и эквивалентного представления полярных позиций речевой модели КПП с позиционными корнями и разностными корнями линейной спектральной пары (ЛСП) и предназначенного для оценки спектра речевой мощности входного сигнала для каждого текущего кадра, передаваемого в эту сеть, отличающийся тем, что он включает в себя операции преобразования упомянутого входного сигнала в последовательности информационных кадров спектральной области, выбора из означенной последовательности подмножества последовательных информационных кадров, включающего в себя группу предшествующих кадров, текущего кадра и до двух последующих кадров, выполнения выбранного числа итераций по текущему информационному кадру в указанном подмножестве информационных кадров, причем каждая итерация формирует величины позиционных корней и разностных корней ЛСП, и итерации включают в себя операции создания последовательности фильтров Винера, в которой спектр сигнала, поступающего на начальный фильтр Винера, имеет оценку спектра шумовой мощности, определения лучших текущих оценок спектра речевой мощности и спектра шумовой мощности на каждой данной итерации и суммирования двух оценок для получения текущего фильтра Винера, и суммирования большого фрагмента выходного сигнала с указанного текущего фильтра Винера с малым количеством, равным 1, за вычетом ука Зоя занного большого фрагмента неотфильтрованного входного сигнала для получения входного сигнала для следующего фильтра Винера, сглаживания на каждой итерации в итерационной последовательности позиционных корней ЛСП, полученных для предыдущих информационных кадров, позиционным корнем ЛСП текущего кадра с использованием величин позиционных корней ЛСП, вычисленных для текущей итерации указанной последовательности, получения оценок спектра речевой мощности входного сигнала из выходного сигнала непрерывного ряда итерационных последовательностей текущих кадров, формирования речевого сигнала с пониженным уровнем шума на основании оценок спектра речевой мощности входного сигнала, и передачи речевого сигнала с пониженным уровнем шума в телекоммуникационную сеть 2 Способ по п 1 , отличающийся тем, что десятичный эквивалент большого фрагмента выходного сигнала выбирают равным от 0,8 до 0,95 3 Способ по п 2, отличающийся тем, что операция определения лучшей текущей оценки спектра шумовой мощности включает в себя определение последовательности информационных кадров, которые в соответствии с заранее установленным порогом содержат только шумовую мощность, и получение и постоянное обновление оценки указанного спектра шумовой мощности с использованием только спектров информационных кадров, содержащих шумовую мощность 4 Способ по п 3, отличающийся тем, что операция получения и постоянного обновления оценки спектра шумовой мощности в свою очередь включает следующие подоперации измерения разностей в спектре шумовой мощности между новой оценкой спектра шумовой мощности и предшествующей оценкой этой характеристики, и придания большего веса в процессе обновления кадрам новой оценки спектра шумовой мощности на величину, пропорциональную вышеупомянутым разностям 5 Способ по п 4, цию получения и спектра шумовой при обнаружении отличающийся тем, что операпостоянного обновления оценки мощности осуществляют только по меньшей мере небольшого о ГО 41913 заранее установленного числа кадров только шумового сигнала 6 Способ по п 5, отличающийся тем, что заранее установленное число кадров составляет от 5 до 6 7 Способ по п 6, отличающийся тем, что он дополнительно содержит операции обнаружения в информационных кадрах речевой мощности, которая в соответствии с заранее установленным порогом относится к звонкой и речевой мощности, которая относится к глухой, и установления по существу десятого порядка для итерируемого фильтра речевой модели КПП в случае обнаружения звонкой речевой мощности 8 Способ по п 7, отличающийся тем, что он дополнительно включает операцию установления по существу от четвертого до шестого порядка для итерируемого фильтра речевой модели КПП при обнаружении глухой речевой мощности 9 Способ по п 8, отличающийся тем, что он дополнительно включает операцию подключения речевого сигнала с пониженным уровнем шума к сети только при обнаружении либо звонкой, либо глухой речи 10 Способ по п 9, отличающийся тем, что он дополнительно включает операции ослабления оценки спектра шумовой мощности, пропускания ослабленной оценки спектра шумовой мощности в сеть при необнаружении ни звонкой, ни глухой речи 11 Способ по п 10, отличающийся тем, что он дополнительно включает операцию перекрывания соседних кадров подмножества последовательных кадров до выполнения ряда итераций 12 Способ по п 11, отличающийся тем, что перекрытие соседних кадров составляет порядка 50 % 13 Способ по п 12, отличающийся тем, что телекоммуникационную сеть выполняют содержащей дистанционный переключатель на первой стороне международной границы, центральный офис со вторым переключателем, расположенным на противоположной стороне границы, и коммуникации между дистанционным переключателем и вторым переключателем, при этом с помощью второго переключателя принимают входной сигнал с речевой и шумовой мощностью 14 Способ по п 13, отличающийся тем, что подмножество последовательных кадров включает в себя до четырех предшествующих кадров 15 Способ по п 1 или п 14, отличающийся тем, что он дополнительно включает операции установления порога шумовой мощности входного сигнала до момента обработки в реальном масштабе времени, определения, имеется ли шумовая мощность во входном сигнале, превышающая установленный порог, определения, содержит ли входной сигнал какуюлибо из речевых мощностей, определения, является ли входной сигнал вызовом в указанную сеть, потребующим для его пользователя уменьшения шумовой мощности, задействования способа обработки в реальном масштабе времени в случае, если имеется подтверждение по всем трем из предыдущих операций определения 16 Способ по п 15, отличающийся тем, что он дополнительно включает в себя операции обнаружения перехода во входном сигнале любого одного из возможных состояний-шумового, звонкого или глухого речевого, в другие состояния, повторной инициализации корней ЛСП предыдущих четырех кадров перед началом итераций на текущем кадре 17 Способ по п 16, отличающийся тем, что число итераций выбирают от 4 до 7 18 Способ по п 17, отличающийся тем, что он дополнительно включает в себя ограничение каждого корня разности ЛСП до значения, большего заданного минимального расстояния от его ближайшего сглаженного позиционного корня 19 Способ обработки входного сигнала с речевой и шумовой мощностью в телекоммуникационной сети с использованием итерируемого фильтра на базе речевой модели кодирования с линейным предсказанием (КЛП), имеющего узлы установления порядка и эквивалентного представления полярных позиций речевой модели КЛП с позиционными корнями позиций и разностными корнями линейной спектральной пары (ЛСП) и предназначенного для оценки спектра речевой мощности входного сигнала для каждого текущего кадра, передаваемого в эту сеть, отличающийся тем, что он включает в себя операции преобразования упомянутого входного сигнала в последовательности информационных кадров спектральной области, выбора из означенной последовательности подмножества последовательных информационных кадров, включающего в себя группу предшествующих кадров, текущего кадра и до двух последующих кадров, выполнения выбранного числа итераций по текущему информационному кадру в указанном подмножестве информационных кадров, причем каждая итерация формирует величины позиционных корней и разностных корней ЛСП, сглаживания для каждой итерации в итерационной последовательности позиционных корней ЛСП, полученных для предыдущих информационных кадров, позиционным корнем ЛСП текущего кадра с использованием величин позиционных корней ЛСП, вычисленных для текущей итерации указанной последовательности, получения оценок спектра речевой мощности входного сигнала из выходного сигнала непрерывного ряда итерационных последовательностей текущих кадров, формирования речевого сигнала с пониженным уровнем шума на основании оценок спектра речевой мощности входного сигнала, и передачи речевого сигнала с пониженным уровнем шума в телекоммуникационную сеть 20 Способ по п 19, отличающийся тем, что указанные итерации включают в себя операции создания последовательности фильтров Винера , в которой спектр сигнала, поступающего на начальный фильтр Винера, имеет оценку спектра шумовой мощности, и определения лучших текущих оценок спектра речевой мощности и спектра шумовой мощности на каждом этапе данной итерации и суммирования двух оценок для получения текущего фильтра Винера 41913 Настоящее изобретение относится к улучшению качества речи в зашумленном телекоммуникационном канале или в сети и, в частности, к устройству, которое повышает разборчивость речи путем непрерывного удаления шумового содержимого благодаря новому использованию кодирования с линейным предсказанием Предпосылки создания изобретения Во всех видах систем речевой связи шум, вызываемый множеством причин, может мешать осуществлению пользовательских связей Искажающий шум может появиться вместе с речью на входе системы, в тракте(ах) передачи на приемном конце Наличие шума раздражает и отвлекает пользователей, может неблагоприятно повлиять на качество речи и может ухудшить характеристики кодирования речи и работу устройства распознавания речи Техника повышения разборчивости речи важна для сотовых радиотелефонных систем, которые подвергаются автомобильным шумам и канальным шумам, для таксофонов, расположенных в шумных местах, для связи на большие расстояния по зашумленным линиям связи или другим низкокачественным трактам и соединениям, для систем конференц-связи с шумом в источнике речи и для систем связи "воздух-земля", где громкий шум в кабине искажает речь пилота и является как утомительным, так и опасным Кроме того, в системе распознавания речи для автоматического набора номера точность распознавания может ухудшаться в шумовой обстановке, если алгоритм распознавания основан на статистической модели чистой речи Особенно трудно преодолевать шум в тракте передачи, одной из причин чего является невозможность установить источник шумового сигнала Следовательно, подавление не может быть выполнено путем выработки сигнала '"ошибки" из прямого измерения шума, а затем исключением сигнала ошибки инверсией фазы Предприняты попытки различных подходов к повышению разборчивости зашумленного речевого сигнала, когда шумовая составляющая непосредственно не различима Обзор этих методов представлен в статье J S Lim и А V Oppenheim "Enhancement and Bandwidth Compresion of Noisy Speech", Proceedings of the IEEE, т 67, № 12, декабрь 1979, раздел V, стр 1586-1604 Эти методы включают в себя спектральное вычитание оцененного шумового амплитудного спектра из всего спектра, вычисленного для доступного зашумленного сигнала, и итеративный основанный на модели фильтр, предложенный Lim и Oppenheim, который пытается найти наилучшую всеполюсную модель речевой составляющей, данной в полностью зашумленном сигнале, и оценку спектра шумовой мощности Основанный на модели подход использован J Н L Hansen и М A Clements в статье "Constrained Iterative Speech Enhancement with Application to Speech Recognition", IEEE Transactions on Signal Processing, т 39, № 4, апрель 1991, стр 795-805, для разработки сглаживающего речевого фильтра, работающего не в реальном масштабе времени, где на модель речи наложены дополнительные ограничения по времени в про цессе итераций Lim-Oppenheim, чтобы ограничить модель в изменениях характеристик речи Результаты ранних способов в статье LimOppenheim служат для улучшения отношения «сигнал-шум» после обработки, но с плохим улучшением качества речи из-за введения нестационарных шумов в отфильтрованные выходные сигналы Нестационарный шум даже очень низкого уровня может быть неприятен человеческому слуху Преимуществом сглаживания по временным кадрам в сглаживающем фильтре Hansen, работающем не в реальном масштабе времени, является дальнейшее снижение уровня остающихся нестационарных шумов Сглаживающий подход Hansen обеспечивает значительное повышение качества речи по сравнению со способами в статье Lim-Oppenheim, но этот метод не может действовать в реальном масштабе времени, поскольку он обрабатывает все данные, прошлые и будущие, в каждом временном кадре Кроме того, это улучшение не может эффективно работать в телекоммуникационной среде Одно из улучшений, описанных ниже, служит изменению сглаживающего фильтра Hansen так, чтобы он работал как фильтр, который совместим с этой средой Краткое описание изобретения Изобретение представляет собой способ обработки сигналов для сети связи, который отфильтровывает шум с использованием итеративного оценивания речевой модели кодирования с линейным предсказанием (КПП) с добавлением действующего в реальном масштабе времени непрерывного оценивания спектра шумовой мощности, модификации заново отфильтрованного сигнала на каждой итерации и временных ограничений числа полюсов и их перемещений по временным кадрам Искаженный шумом входной речевой сигнал подается на специальный итерируемый линейный фильтр Винера, назначением которого является выдача в реальном масштабе времени оценки, которая затем передается в сеть Фильтр требует точной оценки функции спектральной плотности текущей шумовой мощности Она получается из спектральной оценки входного сигнала в шумовых промежутках, которые типичны для речи Обнаружение этих только шумовых кадров выполняется детектором голосовой активности (ДГА) Когда ДГА обнаруживает только шум, выходной сигнал фильтра ослабляется так, что полная шумовая мощность не распространяется по сети Когда в рассматриваемом временном кадре фильтром обнаруживается речь плюс шум, то выполняется оценка того, звонкая или глухая речь Порядок предполагаемой модели КПП в итерируемом фильтре изменяется в соответствии с обнаруженным видом речи Как правило, порядок модели КПП во временном кадре равен М = Fs + (4 или 5) для звонкой речи и М = Fs для глухой речи, где Fs является частотной полосой речи в кГц Эта динамическая адаптация порядка модели используется для подавления помеховых полюсов модели, от которых в отфильтрованной речи могут появляться зависящие от времени модулированные шумы, похожие на тональный сигнал В соответствии с другим аспектом изобретения слежение за изменениями в шумовом спек 41913 тре обеспечивается посредством обновления шумового спектра новыми только шумовыми кадрами до степени, которая зависит от «расстояния» между новой и старой оценками Параметры могут устанавливаться на минимальное число смежных новых шумовых кадров, которые должны обнаруживаться до того, как оценивается обновление нового шумового спектра, и на этот вес обновляется новый шумовой спектр Эти и другие усовершенствованные варианты изобретения в области использования итеративных оценок фильтра, который включает в себя адаптивную речевую модель и шумовую спектральную оценку с корректировками для подавления шума того вида, который не может измеряться прямо, подробно описаны ниже в описании специального нового варианта выполнения изобретения, используемого в телекоммуникационных сетях Описание чертежей Фиг 1 - схема иллюстративной телекоммуникационной сети, включающая изобретение, Фиг 1 А - ресурсы для обработки сигнала, Фиг 2 - схема сглаживающей операции, применяемая в изобретении, Фиг 3 - блок-схема алгоритма, показывающая структуру для повышения разборчивости речи, Фиг 4 - схема устройства, которое вырабатывает итеративную последовательность для ограниченного повышения разборчивости речи, Фиг 5А, 5Б и 5В - схемы, показывающие межкадровую сглаживающую операцию для корней речевой модели КПП, и релаксацию внутрикадровой автокорреляционной матрицы КПП от итерации к итерации, Фиг 6А - схема, показывающая способ обновления каждой итерации текущего кадра, Фиг 6Б - схема, показывающая усовершенствованный способ, используемый для обновления каждой итерации текущего кадра, Фиг 7А и 7Б - таблицы весов сглаживания для позиционных корней ЛСП для сглаживания по семи речевым кадрам вокруг текущего кадра, Фиг 8 и 9 - временные диаграммы сигналов, показывающие аспекты оценивателя шума, и Фиг 10 - описание операций, используемых в фильтре Винера для обновления требуемого шумового спектра Подробное описание пояснительного варианта выполнения изобретения Изобретение представляет собой по существу процесс улучшения разборчивости речи для фильтрации канальной смеси речи с шумами, когда недоступен отдельный шумовой опорный источник, и который действует в реальном масштабе времени Изобретение описано для телекоммуникационной сети, хотя принципы изобретения применимы ко множеству ситуаций, где в среде электронной передачи речи должны быть снижены шумы Примерная телекоммуникационная сеть показана на фиг 1 Она состоит из удаленного коммутатора 10, с которым соединены множество терминалов связи, таких, как телефон 11, по местным линиям связи, таким, как 12, которая может быть витой парой Выходящие каналы, такие, как тракт 13, исходят из удаленной станции 10 Тракт 13 может пересекать международную границу 14 Тракт 13 продолжается до расположенной в США центральной станции 15 с комутатором 16, который может быть коммутатором № 4ESS, обслуживающим множество входящих трактов, обозначенных позицией 17, включая и тракт 13 Коммутатор 16 устанавливает внутренний тракт, такой, как тракт 18, связывающий, например, входящий вызов из канала 13 с возможным исходящим передающим каналом 19, который является одним из группы 19 исходящих каналов Предполагается, что входящий вызов из канала 13 содержит шум, генерируемый в любом из сегментов 10, 11, 12, 13 линии связи, поэтому источник шума не может измеряться непосредственно Согласно изобретению в логическом блоке 20 выполняется определение того, имеется ли в выходном сигнале коммутатора из канала 13 шум, превышающий некоторый предварительно заданный порог Логический блок 20 определяет также, является ли вызов речью путем исключения факса, модема и других возможностей Кроме того, логический блок 20 определяет, является ли вызывающий номер клиентом службы снижения передаваемого шума Если логический блок 20 выполняет все три определения, вызов направляется к блоку 21 обработки переключателем 22, в противном случае вызов проходит прямо в канал 19 Хотя показан лишь один блок 21 обработки, все каналы, выходящие из коммутатора 16, могут подключаться к другим процессорам 21 (не показаны) Сигнал, поступающий из зашумленного канала 13, может для получения преимущества обрабатываться аналоговым фильтром (не показан), имеющим частотный отклик, ограниченный диапазоном телефонного сигнала В рассматриваемой системе зашумленная речь, подаваемая в процессор 21, дискретизирована со скоростью 8 кГц, и временные последовательности обрабатываются в кадрах Используемый размер кадра представляет собой 160 отсчетов (20 мс), и на эти блоки наложено условие 50%ного перекрытия для обеспечения непрерывности восстановленной отфильтрованной речи На фиг 1А процессор 21 состоит из фильтра Винера, причем спектр сигнала для этого фильтра оценивается в предположении всеполюсной модели КПП и посредством итерации каждого кадра для получения неизвестных параметров Им является фильтр 23, на который направляется зашумленный вызов Вызов направляется также по обходному пути 24 на детектор 25 голосовой активности (ДГА), который непрерывно обнаруживает шумовые или речевые-с-шумом кадры и определяет, звонкие или нет речевые кадры Требуемый для использования в фильтре Винера шумовой спектр оценивается из только шумовых кадров, обнаруживаемых посредством ДГА Когда обрабатываемый кадр детектируется как только шумовой, ДГА 25 сигнализирует шумоподавляющей схехе 26 о включении подавителя 27 В этом режиме только шумовой входной сигнал на фильтр 23 ослабляется по существу перед тем, как он поступает в исходящий тракт 19 к удаленному слушателю на терминале 28 Кроме того, когда детектируется только шумовой кадр, ДГА 41913 сигнализирует элементу 29 обновляющей функции в фильтре 23 о выполнении новой оценки шумового спектра на основании текущих шумовых кадров и осуществлении ее взвешивания с предыдущими оценками шумового спектра Когда посредством ДГА детектируется речь, вход к элементу 26 подключается к элементу 23 так, что отфильтрованная речь проходит в исходящую линию 19 Кроме того, для речевой модели КЛП для итерируемого фильтра Винера в элементе 23 установлен десятый порядок, если детектируется звонкая речь, и с четвертого по шестой порядок для глухого речевого кадра Обоснование для этого адаптивного порядка речевой модели состоит втом, что итеративный поиск полюсов КЛП может привести к неправильным формантам в части речевого частотного диапазона, где низко отношение спектра сигнальной мощности к спектру шумовой мощности Это проявляется в шумовых тонах случайных частоты и длительности в отфильтрованном выходном сигнале, что может быть неприятным для человеческого слуха, даже хотя они имеют очень низкий уровень относительно средней амплитуды сигнала Следовательно, поскольку порядок КЛП, обычно необходимый для глухой речи, составляет лишь половину от порядка для звонкой речи для интересующего частотного диапазона и поскольку глухая речь как правило слабее звонкой речи, важно так менять порядок КЛП, чтобы речевая модель не была определена чрезмерно Происходящие в итеративном фильтре 23 процессы основаны на имеющемся в статье LimOppenheim подходе к фильтрации и на межкадровом и внутрикадровом сглаживании, примененном J Н L Hansen для улучшения сходимости итераций в его работающем не в реальном масштабе времени сглаживателе АВТО-ЛСП, описанном в статье Hansen/Clements К этому добавлены изменения, реализованные настоящим изобретением Фильтр 23 действует на поступающий шумовой сигнал, чтобы получить более близкое речевое содержание Далее описано действие этого фильтра Сглаживание на основе модели сигнала по смежным временным кадрам Если речь не представлена уже в цифровом виде, фильтр 21 содержит аналого-цифровой преобразователь 30 поступающего сигнала, который вырабатывает кадровые блоки дискретизированного входного сигнала Размер кадра в 160 отсчетов, или 20 мс, составляет временную длительность, достаточную для того, чтобы аппроксимировать речь как статистически стационарный процесс для целей моделирования КЛП Итерируемый фильтр Винера и модель КЛП речевого процесса, используемая в качестве одной из составляющих этого фильтра, основаны на предположении стационарного процесса Следовательно, существенным является то, что кадры обрабатываются в этих коротких временных блоках На фиг 2 входной сигнал вместе с шумом могут быть представлены выражением y[n]=s[n]+d[n], где у является доступным входным отсчетом, a s и d представляют сигнальную и шумовую части Отсчеты собраны в кадры, которые в значительной степени перекрываются, например, на 50% Каждый информационный блок взвешен временным окном, таким, как окно Хэннинга, так что сумма перекрывающихся финитно-взвешенных кадров, должным образом расположенных во времени, будет пополняться, чтобы дать первоначальные входные временные последовательности Использование окна снижает вариации модели КЛП, оцененные для информационного кадра, а кадровые перекрытия обеспечивают непрерывность в восстановленном отфильтрованном сигнальном выходе 19 на фиг 1А Как и в итеративном сглаживателе АВТОЛСП в статье Hansen/Clements, для настоящего изобретения имеется два вида ограничений, которые прикладываются к каждой итерации фильтра Винера во время обработки текущего кадра входных данных Это ограничение релаксации автокорреляционной матрицы КЛП, приложенное к каждой внутрикадровой итерации текущего кадра, и межкадровое сглаживание позиций полюсов речевой модели КЛП текущего кадра по позициям полюсов КЛП, осуществляемое на каждой итерации для смежных прошлого и будущего кадров Ограничения на полюса КЛП не приложимы непосредственно, поскольку они имеют место как комплексные числа в Z-плоскости, и должная связь для применения позиций комплексных полюсов в межкадровом сглаживании неясна Возможен непрямой, но более простой подход путем использования эквивалентного представления полюсов КЛП, именуемого линейной спектральной парой (ЛСП), подробно описанной в статье Hansen/Clements и в книге S Furun "Digital Speech Processing, Synthesis and Recognition", Marcel Dekker, Inc , Нью-Йорк, NY, 1989, глава V Позиции полюсов модели КЛП N-ro порядка имеют эквивалентное представление набором из N/2 корней «позиций» ЛСП и из N/2 корней «разностей» ЛСП, которые лежат на окружности единичного радиуса в комплексной Z-плоскости Преимущество этого эквивалентного представления ЛСП полюсов КЛП в том, что положения слегка ослабленных формант в сигнальном спектре модели КЛП в высокой степени коррелированы с корнями позиций ЛСП, а частотные полосы спектра КЛП на этих формантах в высокой степени коррелированы с корнями разностей ЛСП Для стабильной модели КЛП два вида корней ЛСП будут лежать точно на окружности единичного радиуса и будут изменяться по этой окружности Порядок позиций корней ЛСП очевиден, а их сглаживание по временным кадрам гораздо проще, чем сглаживание комплексных корней КЛП В итоге полюса КЛП на каждой итерации фильтруемого текущего кадра сглаживаются по плюсам КЛП в той же итерации в смежных кадрах путем сглаживания эквивалентных корней позиций ЛСП и путем приложения нижней границы минимального расстояния корня «разности» к смежному корню «позиции» Последнее связывание ограничивает остроту любых формант модели КЛП, чтобы сделать их речеподобными Изобретение требует выполнения сглаживания позиций ЛСП по близлежащим смежным временным кадрам, но в фильтре, применяемом в работающих в реальном масштабе времени приложениях в сети могут быть доступны лишь несколько кадров перед фильтруемым текущим ка 41913 дром Для 20-миллисекундных кадров с 50%-ным перекрытием минимальная задержка, налагаемая использованием двух будущих кадров, как отмечено на фиг 2, составляет 30 мс Даже эта малая задержка может быть значительной в некоторых сетях связи Рассматриваемый фильтр предполагает четыре прошлых кадра и два будущих кадра для сглаживания Хотя доступны все прошлые кадры, следует использовать только те, которые коррелированы с текущим кадром Процес итераций Принудительные итеративные операции, выполняемые для текущего кадра К, показаны на фиг 3 с итерациями 1, ,J, подробнее обозначенными на фиг 4 Цикл ЛСП фильтра Винера инициируется фильтрацией входного блока у[п] в частотной области фильтром Винера (ФВ), где используются спектральные оценки C-Sy(f) и Sd(f) сигнальной и шумовой мощности соответственно Т е исходный сигнальный спектр фильтра есть общий входной спектр, умноженный на С, чтобы ПОЛУЧИТЬ ОЖИДаемуЮ МОЩНОСТЬ СИГНала Рсигнал -Робщ - Ршун После инициализации петля на фиг 3 выполняет следующие шаги для итеративной фильтрации кадра К (1) Начать петлю итерации посредством оценки параметров КПП выходного сигнала ФВ во временной области, где вычисление автокорреляции КПП дает релаксацию по значениям автокорреляции предыдущих итераций для кадра Этот релаксационный шаг пытается дополнительно стабилизировать итеративный поиск наилучшей речевой модели КПП Это рассматривается ниже применительно к фиг 5 (2) Из модели КПП, найденной в (1), на итерации j для речевого кадра К определить позиционные корни Р, и разностные корни Q, Это требует решения в действительных корнях двух многочленов, каждый половинного порядка КПП (3) Сгладить позиционные корни Р, ЛСП для текущего кадра К по смежным кадрам, как обозначено на фиг 2 и фиг 5в, и отодвинуть разностные корни Q, ЛСП от сглаженных корней Р, Каждый разностный корень Q, отодвигается от ближайшего сглаженного корня Р, больше, чем на минимальное расстояние D m Это предохраняет позиm ции сглаженных полюсов КЛП от попадания на окружность единичного радиуса комплексной Zплоскости Подобное «раздвижение» являлось проблемой в итеративном фильтре LimOppenheim в статье Lim/Oppenheim, на которую имеется ссылка при рассмотрении сглаживателя в статье Hansen/Clements Это «раздвижение» желательно для естественной передачи речи В телекоммуникационных проверках способа использовалось значение D m = 0,086 радиан m (4) Преобразовать сглаженные корни ЛСП в сглаженные параметры КЛП, вычислить спектр Ss(f), мощности сигнальной модели КЛП, масштабированной так, чтобы средняя мощность равнялась оцененной сигнальной мощности Рсигнал=Робщ - Ршум ТЄКУЩЄГО К-ГО КЭДра (5) Использовать сглаженный сигнальный спектр Ss(f), модели КЛП и текущую спектральную оценку Sd(f) шумовой мощности для построения фильтра Винера H,(f) следующей итерации, как показано на фиг 3 и 4 В данном описании сво бодно используется термин «фильтр Винера», поскольку этот фильтр является обычным неслучайным ФВ, возведенным в степень pow В телекоммуникационных проверках способа использовались значения pow между 0,6 и 1,0 Чем больше pow, тем значительнее изменения, которые происходят на каждой итерации, но с меньшим pow итеративный поиск сигнальной компоненты будет более стабильным (6) Отфильтровать комбинацию выходного сигнала s, i[n] временной последовательности итерируемого ФВ и исходных входных данных у[п] текущим H,(f), чтобы получить следующую итерацию сигнальной оценки s,[n] Используется линейная комбинация (1-B)-y[n] + B-s, i[n], где 0 < В < 1 Если В = 0, фильтр становится неограниченным итеративным фильтром Lim-Oppenheim, а если В = 1, входом следующего ФВ является выход предыдущего ФВ, как это сделано в сглаживателе АВТО-ЛСП Hansen в статье Hansen/Clements В большинстве экспериментов на этом фильтре использовались значения В между 0,80 и 0,95 Этими значениями В объединялись некоторые желательные свойства как фильтра LimOppenheim, так и сглаживателя Hansen Эта концепция взвешивания является новой в данном способе Она дает дополнительное управление величиной конечного шумового содержимого при степени высокочастотной фильтрации, наблюдаемой в итерированной отфильтрованной речи Было субъективно обнаружено, что результатом объединения свойств двух предыдущих итеративных алгоритмов обработки сигналов на основе модели в статьях Lim/Oppenheim и Hansen/Clements, в частности, взвешенного объединения на каждой итерации входов фильтра Винера, является менее заглушённая оценка звучащей речи со слегка увеличенным остаточным шумом в выходном сигнале Объединение показано на фиг 2 и 3, где видно, что входной сигнал на фильтр на j-й итерации является общим входом у[п] и выходом фильтра Винера от (|-1)-й итерации (7) В настоящем варианте способа число итераций mtra является входным параметром, определяемым экспериментом Для результатов, полученных в экспериментах, использовалась величина от 4 до 7 внутрикадровых итераций в комбинациях [Intra, pow], таких, как [7, 0,65], [5, 0,8] и [4, 1,0], где значения коэффициента В обратной связи были между 0,80 и 0,95 Наилучшие значения зависят от класса шума и типа речи Для широкополосного шума с плоской вершиной типичным может быть значение intra=6, тогда как может оказаться достаточным 4 или 5 итераций, когда спектр шумовой мощности сильно смещен ниже 1 кГц в спектре голосового диапазона [0,4 кГц] Важным аспектом изобретения, который иллюстрируется на фиг 1А, позиция 25, а также фиг 3, является многостороннее использование детектора голосовой активности (ДГА) как для обнаружения только шумовых кадров, так и для определения наилучшего порядка модели для приложения в каждом кадре посредством обнаружения звонкой или глухой речи, если речь присутствует Как отмечалось выше, наилучший порядок для речевой модели КЛП отличается для кадров звонкой и глухой речи Кроме того, как отмечено 41913 ранее, шумовой спектр обновляется только в том случае, когда звонкий сигнал не обнаруживается в достаточном числе смежных кадров В течение временного интервала, когда обнаруживается только шум, активируется шумоподавитель 27 в переключателе 26 для ослабления выходного сигнала, а итеративный фильтр 23 при этом выключен Если же, однако, обнаруживается речь, то элемент 26 подключает элемент 30 к выходу 19 И класс речи, звонкая или глухая, задает порядок речевой модели КЛП для использования в итерациях Кроме того, обнаружение изменения между тремя возможными состояниями - шумовой кадр, звонкий кадр и глухой кадр - вызывает повторную инициализацию истории ЛСП для последних кадров К-4, К-3, К-2 и К-1 перед применением сглаживания к текущему К-му кадру Это необходимо и логично для наилучшей речевой фильтрации, поскольку цель сглаживания по прошлым кадрам состоит в усреднении неравномерного шума путем использования краткосрочной стационарности речи по усредняемым кадрам Обработка кадров Способ обработки кадров для достижения работы в реальном масштабе времени фильтра 23 показан на фиг 66 Предполагается, что К-й кадр является предметом рассмотрения в настоящее время вместе с ранее обработанными и архивированными кадрами К-4, К-3, К-2, К-1, тогда как кадры К+1 и К+2 являются кадрами, доступными в будущем Как и при сглаживающем подходе в статье Hansen/Clements, фильтр 23 сглаживает корни ЛСП речевой модели К-го кадра с указанными прошлыми и будущими кадрами на каждой итерации К-го кадра путем использования истории ЛСП прошлых кадров на некотором числе итераций при обработке Однако в отличие от сглаживателя в статье Hansen/Clements, работающего не в реальном масштабе времени, данное изобретение использует только два будущих кадра, а также хранит требуемые истории ЛСП прошлых кадров во время итераций, выполняемых для каждого кадра, так что оно накапливает эти истории для предыдущих четырех кадров, подлежащих сглаживанию вместе с текущим кадром в ходе внутрикадровых итераций Как и в способе из статьи Hansen/Clements, веса сужаются по кадрам и сужение от каждого шага ЛСП зависит как от отношения сигнал-шум (ОСШ) текущего кадра, так и от истории ОСШ вплоть до этого К-го кадра Другим усовершенствованием изобретения является использование табличного просмотра для кадровых весов ЛСП, применяемых в кадрах Весовые таблицы, применяемые в изобретении, относятся к типу, показанному на фиг 7, причем требуемые в статье Hansen/Clements веса получаются путем трудоемких вычислений по формулам Значения, применяемые в таблицах на фиг 7, могут легко и независимо регулироваться, в отличие от ограничений, налагаемых формулами, используемыми в статье Hansen/Clements Пороги речевых кадров, на которых прикладываемый к конкретному корню ЛСП весовой вектор переключается из одной таблицы в другую, выбираются независимо Общая стратегия построения сглаживающих векторов состоит в приложении большего сглаживания к позициям ЛСП более высокого порядка (те к более высоким формантным частотам), как обозначено при считывании слева направо в этих таблицах Это обусловлено более значительным влиянием шума при данном наблюдаемом ОСШ на речевых позициях ЛСП более высокого порядка Другим направлением, в котором используются табличные значения, является то, что сглаживание широко и однородно, когда кадровое ОСШ низко, и уменьшается по мере того, как ОСШ возрастает к точке, где не применяется никакого сглаживания при высоком ОСШ Эта тенденция вызвана эффектом снижения шума на отфильтрованной речи по мере улучшения кадрового ОСШ Кадровые пороги ОСШ, используемые для переключения из одной таблицы весовых векторов в другую, выбираются в настоящее время как кратные бегущей оценке Npow шумовой мощности, оцененной в ДГА Используемые возрастающие пороги составляют ni=2-Npow для перехода от таблицы Окно1 к Окно2, П2=3 Npow от Окно2 к ОкноЗ, n3=7-Npow от ОкноЗ к Окно4, |~|4=11-Npow от Окно4 к Окно5, с наложением ОкноО, если случается достаточно длинный прогон кадров с низким ОСШ ности Использование детектора голосовой актив Оценка спектральной плотности Sd(f) шумовой мощности из только шумовых кадров с использованием детектора голосовой активности (ДГА) согласно изобретению обеспечивает преимущество Процесс фильтрации, представленный на фиг 3, основан на предположении, что присутствующийво время речи шум имеет тот же средний спектр мощности, что и оцененный спектр Sd(f) Если шум является статистически стационарным в широком диапазоне, оценки шума не нуждаются в обновлении Однако для иллюстрируемых в данном описании приложений улучшения качества речи, а также для многих других приложений, связанный со снижением передаваемого шума, шумовая энергия лишь приблизительно стационарна В этих случаях необходима бегущая оценка спектра Sd(f) Соответственно, для определения отсутствия речи используется ДГА, такой, как детектор 25 на фиг 1А, имеющий хорошую невосприимчивость к шуму при действующем ОСШ Как показано на фиг 10, для обновления спектральной оценки шумовой мощности используются только шумовые кадры, обнаруживаемые между речевыми сегментами Пригодный ДГА для использования в приложении по фиг 1А получается из стандарта ДГА GSM 06 32, описанного в статье D К Freeman et al "The Voice Activity Detector for the PAN-EUROPEAN Digital Cellular Mobile Telephone Service", в IEEE Conf ICASSP 1989, раздел S7 6, стр 369-372 Примеры речи до фильтрования и после фильтрования, представленные на фиг 8 и 9, показывают, как используется детектор голосовой активности для запуска ослабления исходящего сигнала, когда голос не обнаруживается Как описано в статье D К Freeman et al , активация ДГА на шумовом кадре представляет собой сложное равновесие детектируемого входного уровня и решений в повторяющихся кадрах о состоянии «нет речи» 41913 Усовершенствованный выход с использованием классификатора речи Преимущественно решение речевого классификатора ДГА может быть встроено в начале шага модели КПП, как показано на фиг 3 Это имеет место потому, что установки параметров, такие, как порядок КПП в алгоритме АВТО-ЛСП, лучше всего настраиваются в соответствии с классом речи (звонкая или глухая), которая фильтруется в обрабатываемом в данный момент кадре Может быть достигнуто улучшение, если речь в обрабатываемом кадре может надежно классифицироваться в присутствии шума Шумовая спектральная оценка В соответствии с другим аспектом изобретения и со ссылкой на фиг 3 и 10, улучшенная чувствительность к изменениям в шумовых сигнальных спектрах обеспечивается устройством, которое обновляет спектр Sd(f) новыми «только шумовыми» кадрами до степени, которая зависит от того, насколько отличается новая шумовая спектральная оценка Sd(f)HoB от предыдущей оценки Sd(f) Если Sd(f)i_ 1 означает предыдущий шумовой спектр, то обновленный спектр равен Sd(f)L = (1-А) Sd(f)L і + A Sd(f)HoB, где 0

Дивитися

Додаткова інформація

Назва патенту англійською

Method for noise silencing in communication systems

Автори англійською

Winn Woodson Dail

Назва патенту російською

Способ шумоглушения в системах связи

Автори російською

Винн Вудсон Дейл

МПК / Мітки

МПК: H04B 15/02, H04B 15/00

Мітки: шумозаглушення, зв'язку, спосіб, системах

Код посилання

<a href="https://ua.patents.su/15-41913-sposib-shumozaglushennya-u-sistemakh-zvyazku.html" target="_blank" rel="follow" title="База патентів України">Спосіб шумозаглушення у системах зв’язку</a>

Подібні патенти