Спосіб стиснення мовного сигналу шляхом кодування зі змінною швидкістю, схема та пристрій для стиснення акустичного сигналу
Номер патенту: 43311
Опубліковано: 17.12.2001
Автори: Мінг-Чанг Цай, Клайн С. Гілхаузен, Пол Є. Джейкобс, Чонг Ю. Лі, Уільям Р. Гарднер, Кетрін С. Лем
Формула / Реферат
1. Способ сжатия речевого сигнала путем кодирования с переменной скоростью кадров оцифрованных выборок речевого сигнала, отличающийся тем, что включает операции определения уровня сигнала речевой активности для кадра оцифрованных выборок речевого сигнала, выбора для указанного кадра скорости кодирования из группы скоростей в зависимости от указанного определенного уровня сигнала речевой активности, кодирования указанного кадра в соответствии с заранее определенным форматом кодирования для выбранной скорости, причем каждой скорости соответствует отличный от других формат кодирования и различные форматы кодирования соответствуют различным наборам параметров сигналов, определяющих оцифрованные выборки речевого сигнала согласно речевой модели, и формирования для данного кадра соответствующего пакета данных с указанными параметрами сигналов.
2. Способ по п. 1, отличающийся тем, что операция определения уровня сигнала речевой активности включает операции измерения сигнала речевой активности в указанном кадре выборок речевого сигнала, сравнения указанного измеренного уровня сигнала речевой активности с, по меньшей мере, одним пороговым уровнем для такого сигнала из заранее определенного набора пороговых уровней активности, адаптивного изменения по результатам указанного сравнения, по меньшей мере, одного из указанных пороговых уровней сигнала речевой активности с учетом уровня активности предыдущего кадра оцифрованных выборок речевого сигнала.
3. Способ по п. 1, отличающийся тем, что дополнительно включает операции формирования команды скорости, определяющей требуемую скорость кодирования для указанного кадра, и изменения указанной выбранной скорости кодирования так, чтобы получить требуемую скорость кодирования для указанного кадра.
4. Способ по п. 3, отличающийся тем, что указанная выбранная скорость передачи меньше заранее определенной максимальной скорости и тем, что дополнительно включает операции формирования дополнительного пакета данных, и объединения указанного пакета данных с дополнительным пакетом данных в выходном кадре, предназначенном для передачи.
5. Способ по п. 1, отличающийся тем, что указанная операция формирования указанного пакета данных, соответствующего указанным параметрам сигналов, включает операции формирования переменного количества битов, представляющих сигналы вектора коэффициентов линейного предсказания для указанного кадра оцифрованных выборок речевого сигнала, которое изменяется в зависимости от указанного измеренного уровня сигнала речевой активности, формирования переменного количества битов, представляющих векторные сигналы тона указанного кадра оцифрованных выборок речевого сигнала, которое изменяется в зависимости от указанного измеренного уровня сигнала речевой активности, и формирования переменного количества битов, представляющих векторные сигналы активизации кодового словаря для указанного кадра оцифрованных выборок речевого сигнала, которое изменяется в зависимости от указанного измеренного уровня сигнала речевой активности.
6. Способ по п. 1, отличающийся тем, что указанная операция кодирования указанного кадра включает операции формирования переменного количества коэффициентов линейного предсказания для данного кадра, которое изменяется в зависимости от указанной выбранной скорости кодирования, формирования переменного количества коэффициентов тона для данного кадра, которое изменяется в зависимости от указанной выбранной скорости кодирования, формирования переменного количества значений активизации кодового словаря для данного кадра, которое изменяется в зависимости от указанной выбранной скорости кодирования.
7. Способ по п. 1, отличающийся тем, что указанная операция определения уровня сигнала речевой активности включает операцию суммирования квадратов значений указанных оцифрованных выборок речевого сигнала.
8. Способ по п. 7, отличающийся тем, что дополнительно включает операцию формирования битов защиты от ошибок для указанного пакета данных.
9. Способ по п. 8, отличающийся тем, что указанная операция формирования битов защиты от ошибок для указанного пакета данных учитывает зависимость количества битов защиты от указанного уровня сигнала речевой активности в кадре.
10. Способ по п. 1, отличающийся тем, что указанная операция адаптивного изменения пороговых уровней речевой активности включает операции сравнения измеренной речевой активности, по меньшей мере, с одним из указанных порогов речевой активности и пошагового увеличения этого порога до уровня речевой активности данного кадра, если указанный уровень речевой активности кадра превосходит указанный порог речевой активности, и сравнения измеренной речевой активности, по меньшей мере, с одним из указанных порогов речевой активности и пошагового уменьшения этого порога до уровня речевой активности данного кадра, если указанный уровень речевой активности кадра ниже указанного порога речевой активности.
11. Способ по п. 10, отличающийся тем, что указанный выбор скорости кодирования зависит от внешнего сигнала скорости.
12. Способ по п. 8, отличающийся тем, что операция формирования битов защиты от ошибок для указанного пакета данных дополнительно включает операцию определения значений этих битов с использованием контроля избыточным циклическим кодом.
13. Способ по п. 1, отличающийся тем, что дополнительно включает операцию предварительного увеличения количества указанных оцифрованных выборок речевого сигнала с использованием определенной окнообразующей функции.
14. Способ по п. 1, отличающийся тем, что дополнительно включает операцию преобразования указанных коэффициентов линейного предсказания в значения линейных спектральных пар.
15. Способ по п. 1, отличающийся тем, что указанные входные кадры оцифрованных выборок содержат цифровые значения речи продолжительностью приблизительно 20 мс.
16. Способ по п. 1, отличающийся тем, что указанные входные кадры оцифрованных выборок содержат приблизительно 160 оцифрованных выборок.
17. Способ по п. 1, отличающийся тем, что указанный пакет выходных данных содержит 171 битов, из которых 40 битов представляют значения коэффициентов линейного предсказания, 40 битов значения тона, 80 битов - значения активирующих векторов и 11 битов - защиту от ошибок, если выходные данные соответствуют полной скорости передачи, 80 битов, из которых 20 битов представляют значения коэффициентов линейного предсказания, 20 битов - значения тона и 40 битов - значения активирующих векторов, если выходные данные соответствуют половинной скорости передачи, 40 битов, из которых 10 битов представляют значения коэффициентов линейного предсказания, 10 битов·- значения тона и 20 битов - значения активирующих векторов, если выходные данные соответствуют четвертной скорости передачи, 16 битов, из которых 10 битов представляют значения коэффициентов линейного предсказания и 6 битов - значения активирующих векторов, если выходные значения соответствуют 1/8 полной скорости передачи.
18. Устройство для сжатия акустического сигнала в данные переменной скорости, отличающееся тем, что оно содержит средства определения уровня звуковой активности для входного кадра оцифрованных выборок указанного звукового сигнала, средства выбора скорости передачи выходных данных из заранее определенной группы скоростей в зависимости от указанного уровня звуковой активности в указанном кадре, средства кодирования указанного кадра в соответствии с форматом кодирования, принадлежащим набору таких форматов для выбранной скорости, для формирования набора параметров сигналов, причем каждой скорости соответствует отличный от других формат кодирования и различные форматы кодирования соответствуют различным наборам параметров сигналов, определяющих оцифрованные выборки речевого сигнала согласно речевой модели, и средства формирования для данного кадра соответствующего пакета с выбранной скоростью передачи.
19. Устройство по п. 18, отличающееся тем, что указанный пакет выходных данных содержит переменное количество битов, представляющих значения вектора коэффициентов линейного предсказания для указанного кадра оцифрованных выборок речевого сигнала, которое изменяется в зависимости от указанного уровня звуковой активности, переменное количество битов, представляющих значения вектора тонов для указанного кадра оцифрованных выборок речевого сигнала, которое изменяется в зависимости от указанного уровня звуковой активности, и переменное количество битов, представляющих векторные сигналы активизации кодового словаря для указанного кадра оцифрованных выборок речевого сигнала, которое изменяется в зависимости от указанного уровня звуковой активности.
20. Устройство по п. 18, отличающееся тем, что средства определения уровня звуковой активности содержат средства определения значения энергии для каждого входного кадра, средства сравнения указанного значения энергии для входного кадра, по меньшей мере, с одним из порогов звуковой активности, и средства оповещения о том, что указанное значение энергии для входного кадра превосходит соответствующий порог звуковой активности.
21. Устройство по п. 20, отличающееся тем, что дополнительно включает средства адаптивного изменения, по меньшей мере, одного из указанных порогов звуковой активности.
22. Устройство по п. 20, отличающееся тем, что указанные средства определения значения энергии для входных кадров содержат средства вычисления квадратов указанных оцифрованных выборок звукового сигнала для кадра, и средства суммирования указанных квадратов указанных оцифрованных выборок звукового сигнала для кадра.
23. Устройство по п. 18, отличающееся тем, что указанные средства определения уровня звуковой активности содержат средства вычисления коэффициентов линейного предсказания для указанного входного кадра оцифрованных выборок звукового сигнала и средства определения указанного уровня звуковой активности в соответствии с, по меньшей мере, одним из указанных коэффициентов линейного предсказания.
24. Устройство по п. 18, отличающееся тем, что дополнительно включает средства формирования битов защиты от ошибок для указанного пакета данных в соответствии с выбранной выходной скоростью передачи.
25. Устройство по п. 24, отличающееся тем, указанные средства формирования битов защиты от ошибок формируют значения этих битов, используя контроль избыточным циклическим кодом.
26. Устройство по п. 18, отличающееся тем, что дополнительно включает средства преобразования указанных коэффициентов линейного предсказания в значения линейных спектральных пар.
27. Устройство по п. 18, отличающееся тем, что указанный набор скоростей передачи включает полную скорость передачи, половинную скорость передачи, четвертную скорость передачи и 1/8 полной скоростипередачи.
28. Устройство по п. 18, отличающееся тем, что указанный набор скоростей передачи включает 16 кбит/с, 8 кбит/с, 4 кбит/с и 2 кбит/с.
29. Схема сжатия акустического сигнала в данные переменной скорости, отличающаяся тем, что она содержит схему определения уровня звуковой активности для входного кадра оцифрованных выборок указанного звукового сигнала, схему выбора скорости передачи выходных данных из заранее определенной группы скоростей в зависимости от указанного уровня звуковой активности в указанном кадре, схему кодирования указанного кадра в соответствии с форматом кодирования, принадлежащим набору таких форматов для выбранной скорости, для формирования набора параметров сигналов, причем каждой скорости соответствует отличный от других формат кодирования и различные форматы кодирования соответствуют различным наборам параметров сигналов, определяющих оцифрованные выборки речевого сигнала согласно речевой модели и схему формирования для данного кадра соответствующего пакета с выбранной скоростью передачи.
30. Схема по п. 29, отличающаяся тем, что указанная схема определения уровня звуковой активности содержит схему определения значения энергии для каждого входного кадра, схему сравнения указанного значения энергии для входного кадра, по меньшей мере, с одним из порогов звуковой активности и схему выработки сигнала о том, что указанное значение энергии для входного кадра превосходит соответствующий порог звуковой активности.
31. Схема по п. 30, отличающаяся тем, что дополнительно включает схему адаптивной подстройки, по меньшей мере, одного из указанных порогов звуковой активности.
32. Схема по п. 29, отличающаяся тем, что указанная схема определения значения энергии для входных кадров выполняет эту функцию, суммируя квадраты значений указанных оцифрованных выборок.
33. Схема по п. 29, отличающаяся тем, что указанная схема определения уровня звуковой активности выполняет эту функцию, вычисляя коэффициенты линейного предсказания для указанного входного кадра и определяя указанный уровень звуковой активности в соответствии, по меньшей мере, с одним из указанных коэффициентов.
34. Схема по п. 29, отличающаяся тем, что указанные входные кадры оцифрованных выборок содержат цифровые значения речи продолжительностью приблизительно 20 мс.
35. Схема по п. 29, отличающаяся тем, что указанные входные кадры оцифрованных выборок содержат приблизительно 160 оцифрованных выборок.
36. Схема по п. 29, отличающаяся тем, что дополнительно включает средства формирования битов защиты от ошибок для указанного пакета данных в соответствии с выбранной выходной скоростью передачи.
37. Схема по п. 36, отличающаяся тем, что указанные средства формирования битов защиты от ошибок формируют значения этих битов, используя контроль избыточным циклическим кодом.
38. Схема по п. 37, отличающаяся тем, что для указанного контроля избыточным циклическим кодом используется производящий полином 1+х3+х5+х6+х8+х9+х10.
39. Схема по п. 29, отличающаяся тем, что дополнительно включает схему предварительного увеличения количества указанных оцифрованных выборок с использованием определенной окнообразующей функции.
40. Схема по п. 39, отличающаяся тем, что указанная окнообразующая функция является окном Хемминга.
41. Схема по п. 29, отличающаяся тем, что указанный набор скоростей передачи включает полную скорость передачи, половинную скорость передачи, четвертную скорость передачи и 1/8 полной скорости передачи.
42. Схема по п. 18, отличающаяся тем, что указанный набор скоростей передачи включает 16 кбит/с, 8 кбит/с, 4 кбит/с и 2 кбит/с.
43. Схема по п. 29, отличающаяся тем, что указанный пакет выходных данных содержит переменное количество битов, представляющих значения вектора коэффициентов линейного предсказания для указанного кадра оцифрованных выборок речевого сигнала, которое изменяется в зависимости от указанного уровня звуковой активности, переменное количества битов, представляющих значения вектора тонов для указанного кадра оцифрованных выборок речевого сигнала, которое изменяется в зависимости от указанного уровня звуковой активности, и переменное количество битов, представляющих векторные сигналы активизации кодового словаря для указанного кадра оцифрованных выборок речевого сигнала, которое изменяется в зависимости от указанного уровня звуковой активности.
44. Схема по п. 43, отличающаяся тем, указанный пакет выходных данных дополнительно включает биты защиты от ошибок, количество которых зависит от уровня звуковой активности.
45. Схема по п. 29, отличающаяся тем, что указанный пакет выходных данных содержит 171 бит, из которых 40 битов представляют значения коэффициентов линейного предсказания, 40 битов - значения тона, 80 битов значения активирующих векторов и 11 битов - защиту от ошибок, если выходные данные соответствуют полной скорости передачи, 80 битов, из которых 20 битов представляют значения коэффициентов линейного предсказания, 20 битов - значения тона и 40 битов - значения активирующих векторов, если выходные данные соответствуют половинной скорости передачи, 40 битов, из которых 10 битов представляют значения коэффициентов линейного предсказания, 10 битов - значения тона и 20 битов - значения активирующих векторов, если выходные данные соответствуют четвертной скорости передачи, 16 битов из которых 10 битов представляют значения коэффициентов линейного предсказания и 6 битов - значения активирующих векторов, если выходные данные соответствуют 1/8 полной скорости передачи.
46. Схема по п. 29, отличающаяся тем, что указанное средство выбора скорости кодирования функционально зависит от внешнего сигнала скорости.
47. Схема по п. 29, отличающаяся тем, что дополнительно включает средства преобразования указанных коэффициентов линейного предсказания в значения линейных спектральных пар.
48. Способ сжатия речевого сигнала путем кодирования с переменной скоростью кадров оцифрованных выборок речевого сигнала, отличающийся тем, что включает операции создания из одного кадра оцифрованных выборок речевого сигнала последовательности указанных кадров оцифрованных выборок речевого сигнала путем использования окнообразующей функции для формирования окна кадров речевых данных, вычисления набора коэффициентов автокорреляции, используя кадры окна, определения скорости кодирования по указанному набору коэффициентов автокорреляции, вычисления набора коэффициентов линейного предсказания по указанному набору коэффициентов автокорреляции, преобразования указанного набора коэффициентов линейного предсказания в значения линейных спектральных пар, квантования указанного набора коэффициентов линейных спектральных пар в соответствии с командой скорости и указанной скоростью кодирования, выбора из имеющегося набора значения тона для каждого тонового подкадра для каждого кадра оцифрованной речи, квантования выбранного значения тона пар в соответствии с командой скорости и указанной скоростью кодирования, выбора из кодового словаря значения, соответствующего имеющемуся набору значений тона, чтобы сформировать значение тона для кадра, квантования выбранного значения из кодового словаря в соответствии с командой скорости и указанной скоростью кодирования, и формирования пакета выходных данных, содержащего указанные квантованные значения линейных спектральных пар, квантованное значение тона и квантованное выбранное значение из кодового словаря.
Текст
1 Способ сжатия речевого сигнала путем кодирования с переменной скоростью кадров оцифрованных выборок речевого сигнала, отличающийся тем, что включает операции определения уровня сигнала речевой активности для кадра оцифрованных выборок речевого сигнала, выбора для указанного кадра скорости кодирования из группы скоростей в зависимости от указанного определенного уровня сигнала речевой активности, кодирования указанного кадра в соответствии с заранее определенным форматом кодирования для выбранной скорости, причем каждой скорости соответствует отличный от других формат кодирования и различные форматы кодирования соответствуют различным наборам параметров сигналов, определяющих оцифрованные выборки речевого сигнала согласно речевой модели, и формирования для данного кадра соответствующего пакета данных с указанными параметрами сигналов 2 Способ по п 1, отличающийся тем, что операция определения уровня сигнала речевой активности включает операции измерения сигнала речевой активности в указанном кадре выборок речевого сигнала, сравнения указанного измеренного уровня сигнала речевой активности с, по меньшей мере, одним пороговым уровнем для такого сигнала из заранее определенного набора пороговых уровней активности, адаптивного изменения по результатам указанного сравнения, по меньшей мере, одного из указанных пороговых уровней Зоя сигнала речевой активности с учетом уровня активности предыдущего кадра оцифрованных выборок речевого сигнала 3 Способ по п 1, отличающийся тем, что дополнительно включает операции формирования команды скорости, определяющей требуемую скорость кодирования для указанного кадра, и изменения указанной выбранной скорости кодирования так, чтобы получить требуемую скорость кодирования для указанного кадра 4 Способ по п 3, отличающийся тем, что указанная выбранная скорость передачи меньше заранее определенной максимальной скорости и тем, что дополнительно включает операции формирования дополнительного пакета данных, и объединения указанного пакета данных с дополнительным пакетом данных в выходном кадре, предназначенном для передачи 5 Способ по п 1, отличающийся тем, что указанная операция формирования указанного пакета данных, соответствующего указанным параметрам сигналов, включает операции формирования переменного количества битов, представляющих сигналы вектора коэффициентов линейного предсказания для указанного кадра оцифрованных выборок речевого сигнала, которое изменяется в зависимости от указанного измеренного уровня сигнала речевой активности, формирования переменного количества битов, представляющих векторные сигналы тона указанного кадра оцифрованных выборок речевого сигнала, которое изменяется в зависимости от указанного измеренного уровня сигнала речевой активности, и формирования переменного количества битов, представляющих векторные сигналы активизации кодового словаря для указанного кадра оцифрованных выборок речевого сигнала, которое изменяется в зависимости от указанного измеренного уровня сигнала речевой активности 6 Способ по п 1, отличающийся тем, что указанная операция кодирования указанного кадра включает операции формирования переменного количества коэффициентов линейного предсказания для данного кадра, которое изменяется в зависимости от указанной выбранной скорости кодирования, формирования переменного количества коэффициентов тона для данного кадра, которое изменяется в зависимости от указанной выбранной скорости кодирования, формирования О го го 43311 переменного количества значении активизации кодового словаря для данного кадра, которое изменяется в зависимости от указанной выбранной скорости кодирования 7 Способ по п 1, отличающийся тем, что указанная операция определения уровня сигнала речевой активности включает операцию суммирования квадратов значений указанных оцифрованных выборок речевого сигнала 8 Способ по п 7, отличающийся тем, что дополнительно включает операцию формирования битов защиты от ошибок для указанного пакета данных 9 Способ по п 8, отличающийся тем, что указанная операция формирования битов защиты от ошибок для указанного пакета данных учитывает зависимость количества битов защиты от указанного уровня сигнала речевой активности в кадре 10 Способ по п 1, отличающийся тем, что указанная операция адаптивного изменения пороговых уровней речевой активности включает операции сравнения измеренной речевой активности, по меньшей мере, с одним из указанных порогов речевой активности и пошагового увеличения этого порога до уровня речевой активности данного кадра, если указанный уровень речевой активности кадра превосходит указанный порог речевой активности, и сравнения измеренной речевой активности, по меньшей мере, с одним из указанных порогов речевой активности и пошагового уменьшения этого порога до уровня речевой активности данного кадра, если указанный уровень речевой активности кадра ниже указанного порога речевой активности 11 Способ по п 10, отличающийся тем, что указанный выбор скорости кодирования зависит от внешнего сигнала скорости 12 Способ по п 8, отличающийся тем, что операция формирования битов защиты от ошибок для указанного пакета данных дополнительно включает операцию определения значений этих битов с использованием контроля избыточным циклическим кодом 13 Способ по п 1, отличающийся тем, что дополнительно включает операцию предварительного увеличения количества указанных оцифрованных выборок речевого сигнала с использованием определенной окнообразующей функции 14 Способ по п 1, отличающийся тем, что дополнительно включает операцию преобразования указанных коэффициентов линейного предсказания в значения линейных спектральных пар 15 Способ по п 1, отличающийся тем, что указанные входные кадры оцифрованных выборок содержат цифровые значения речи продолжительностью приблизительно 20 мс 16 Способ по п 1, отличающийся тем, что указанные входные кадры оцифрованных выборок содержат приблизительно 160 оцифрованных выборок 17 Способ по п 1, отличающийся тем, что указанный пакет выходных данных содержит 171 битов, из которых 40 битов представляют значения коэффициентов линейного предсказания, 40 битов значения тона, 80 битов - значения активирующих векторов и 11 битов - защиту от ошибок, если выходные данные соответствуют полной скорости передачи, 80 битов, из которых 20 битов пред ставляют значения коэффициентов линейного предсказания, 20 битов - значения тона и 40 битов - значения активирующих векторов, если выходные данные соответствуют половинной скорости передачи, 40 битов, из которых 10 битов представляют значения коэффициентов линейного предсказания, 10 битов - значения тона и 20 битов - значения активирующих векторов, если выходные данные соответствуют четвертной скорости передачи, 16 битов, из которых 10 битов представляют значения коэффициентов линейного предсказания и 6 битов - значения активирующих векторов, если выходные значения соответствуют 1/8 полной скорости передачи 18 Устройство для сжатия акустического сигнала в данные переменной скорости, отличающееся тем, что оно содержит средства определения уровня звуковой активности для входного кадра оцифрованных выборок указанного звукового сигнала, средства выбора скорости передачи выходных данных из заранее определенной группы скоростей в зависимости от указанного уровня звуковой активности в указанном кадре, средства кодирования указанного кадра в соответствии с форматом кодирования, принадлежащим набору таких форматов для выбранной скорости, для формирования набора параметров сигналов, причем каждой скорости соответствует отличный от других формат кодирования и различные форматы кодирования соответствуют различным наборам параметров сигналов, определяющих оцифрованные выборки речевого сигнала согласно речевой модели, и средства формирования для данного кадра соответствующего пакета с выбранной скоростью передачи 19 Устройство по п 18, отличающееся тем, что указанный пакет выходных данных содержит переменное количество битов, представляющих значения вектора коэффициентов линейного предсказания для указанного кадра оцифрованных выборок речевого сигнала, которое изменяется в зависимости от указанного уровня звуковой активности, переменное количество битов, представляющих значения вектора тонов для указанного кадра оцифрованных выборок речевого сигнала, которое изменяется в зависимости от указанного уровня звуковой активности, и переменное количество битов, представляющих векторные сигналы активизации кодового словаря для указанного кадра оцифрованных выборок речевого сигнала, которое изменяется в зависимости от указанного уровня звуковой активности 20 Устройство по п 18, отличающееся тем, что средства определения уровня звуковой активности содержат средства определения значения энергии для каждого входного кадра, средства сравнения указанного значения энергии для входного кадра, по меньшей мере, с одним из порогов звуковой активности, и средства оповещения о том, что указанное значение энергии для входного кадра превосходит соответствующий порог звуковой активности 21 Устройство по п 20, отличающееся тем, что дополнительно включает средства адаптивного изменения, по меньшей мере, одного из указанных порогов звуковой активности 43311 22 Устройство по п 20, отличающееся тем, что указанные средства определения значения энергии для входных кадров содержат средства вычисления квадратов указанных оцифрованных выборок звукового сигнала для кадра, и средства суммирования указанных квадратов указанных оцифрованных выборок звукового сигнала для кадра 23 Устройство по п 18, отличающееся тем, что указанные средства определения уровня звуковой активности содержат средства вычисления коэффициентов линейного предсказания для указанного входного кадра оцифрованных выборок звукового сигнала и средства определения указанного уровня звуковой активности в соответствии с, по меньшей мере, одним из указанных коэффициентов линейного предсказания 24 Устройство по п 18, отличающееся тем, что дополнительно включает средства формирования битов защиты от ошибок для указанного пакета данных в соответствии с выбранной выходной скоростью передачи 25 Устройство по п 24, отличающееся тем, указанные средства формирования битов защиты от ошибок формируют значения этих битов, используя контроль избыточным циклическим кодом 26 Устройство по п 18, отличающееся тем, что дополнительно включает средства преобразования указанных коэффициентов линейного предсказания в значения линейных спектральных пар 27 Устройство по п 18, отличающееся тем, что указанный набор скоростей передачи включает полную скорость передачи, половинную скорость передачи, четвертную скорость передачи и 1/8 полной скорости передачи 28 Устройство по п 18, отличающееся тем, что указанный набор скоростей передачи включает 16 кбит/с, 8 кбит/с, 4 кбит/с и 2 кбит/с 29 Схема сжатия акустического сигнала в данные переменной скорости, отличающаяся тем, что она содержит схему определения уровня звуковой активности для входного кадра оцифрованных выборок указанного звукового сигнала, схему выбора скорости передачи выходных данных из заранее определенной группы скоростей в зависимости от указанного уровня звуковой активности в указанном кадре, схему кодирования указанного кадра в соответствии с форматом кодирования, принадлежащим набору таких форматов для выбранной скорости, для формирования набора параметров сигналов, причем каждой скорости соответствует отличный от других формат кодирования и различные форматы кодирования соответствуют различным наборам параметров сигналов, определяющих оцифрованные выборки речевого сигнала согласно речевой модели и схему формирования для данного кадра соответствующего пакета с выбранной скоростью передачи 30 Схема по п 29, отличающаяся тем, что указанная схема определения уровня звуковой активности содержит схему определения значения энергии для каждого входного кадра, схему сравнения указанного значения энергии для входного кадра, по меньшей мере, с одним из порогов звуковой активности и схему выработки сигнала о том, что указанное значение энергии для входного кадра превосходит соответствующий порог звуковой активности 31 Схема по п 30, отличающаяся тем, что дополнительно включает схему адаптивной подстройки, по меньшей мере, одного из указанных порогов звуковой активности 32 Схема по п 29, отличающаяся тем, что указанная схема определения значения энергии для входных кадров выполняет эту функцию, суммируя квадраты значений указанных оцифрованных выборок 33 Схема по п 29, отличающаяся тем, что указанная схема определения уровня звуковой активности выполняет эту функцию, вычисляя коэффициенты линейного предсказания для указанного входного кадра и определяя указанный уровень звуковой активности в соответствии, по меньшей мере, с одним из указанных коэффициентов 34 Схема по п 29, отличающаяся тем, что указанные входные кадры оцифрованных выборок содержат цифровые значения речи продолжительностью приблизительно 20 мс 35 Схема по п 29, отличающаяся тем, что указанные входные кадры оцифрованных выборок содержат приблизительно 160 оцифрованных выборок 36 Схема по п 29, отличающаяся тем, что дополнительно включает средства формирования битов защиты от ошибок для указанного пакета данных в соответствии с выбранной выходной скоростью передачи 37 Схема по п 36, отличающаяся тем, что указанные средства формирования битов защиты от ошибок формируют значения этих битов, используя контроль избыточным циклическим кодом 38 Схема по п 37, отличающаяся тем, что для указанного контроля избыточным циклическим кодом используется производящий полином 1+х3+х5+х6+х8+х9+х10 39 Схема по п 29, отличающаяся тем, что дополнительно включает схему предварительного увеличения количества указанных оцифрованных выборок с использованием определенной окнообразующей функции 40 Схема по п 39, отличающаяся тем, что указанная окнообразующая функция является окном Хемминга 41 Схема по п 29, отличающаяся тем, что указанный набор скоростей передачи включает полную скорость передачи, половинную скорость передачи, четвертную скорость передачи и 1/8 полной скорости передачи 42 Схема по п 18, отличающаяся тем, что указанный набор скоростей передачи включает 16 кбит/с, 8 кбит/с, 4 кбит/с и 2 кбит/с 43 Схема по п 29, отличающаяся тем, что указанный пакет выходных данных содержит переменное количество битов, представляющих значения вектора коэффициентов линейного предсказания для указанного кадра оцифрованных выборок речевого сигнала, которое изменяется в зависимости от указанного уровня звуковой активности, переменное количества битов, представляющих значения вектора тонов для указанного кадра оцифрованных выборок речевого сигнала, которое изменяется в зависимости от указанного 43311 уровня звуковой активности, и переменное количество битов, представляющих векторные сигналы активизации кодового словаря для указанного кадра оцифрованных выборок речевого сигнала, которое изменяется в зависимости от указанного уровня звуковой активности 44 Схема по п 43, отличающаяся тем, указанный пакет выходных данных дополнительно включает биты защиты от ошибок, количество которых зависит от уровня звуковой активности 45 Схема по п 29, отличающаяся тем, что указанный пакет выходных данных содержит 171 бит, из которых 40 битов представляют значения коэффициентов линейного предсказания, 40 битов значения тона, 80 битов -значения активирующих векторов и 11 битов - защиту от ошибок, если выходные данные соответствуют полной скорости передачи, 80 битов, из которых 20 битов представляют значения коэффициентов линейного предсказания, 20 битов - значения тона и 40 битов - значения активирующих векторов, если выходные данные соответствуют половинной скорости передачи, 40 битов, из которых 10 битов представляют значения коэффициентов линейного предсказания, 10 битов - значения тона и 20 битов - значения активирующих векторов, если выходные данные соответствуют четвертной скорости передачи, 16 битов, из которых 10 битов представляют значения коэффициентов линейного предсказания и 6 битов - значения активирующих векторов, если выходные данные соответствуют 1/8 полной скорости передачи 46 Схема по п 29, отличающаяся тем, что указанное средство выбора скорости кодирования функционально зависит от внешнего сигнала скорости 47 Схема по п 29, отличающаяся тем, что дополнительно включает средства преобразования Предлагаемое изобретение относится к области обработки речевых сигналов Точнее, предлагаемое изобретение относится к созданию новых усовершенствованных способов и устройств для сжатия речевых сигналов, в которых степень сжатия динамически меняется с целью минимизации влияния сжатия на качество воспроизводимой речи Более того, поскольку сжатая речевая информация предназначена для передачи по каналу связи, который может вносить искажения, способ и устройство, предложенные в настоящем изобретении, позволяют минимизировать влияние канальных искажений на качество воспроизводимой речи Передача голоса цифровыми средствами получила широкое распространение, особенно применительно к дальней и радиотелефонной связи Это, в свою очередь, вызвало повышенный интерес к определению минимального количества информации, передаваемой по каналу связи, которое обеспечивает приемлемое качество воспроизводимой речи Если при передаче речи используются просто дискретизация и цифровое кодирование, то для достижения качества воспроиз указанных коэффициентов линейного предсказания в значения линейных спектральных пар 48 Способ сжатия речевого сигнала путем кодирования с переменной скоростью кадров оцифрованных выборок речевого сигнала, отличающийся тем, что включает операции создания из одного кадра оцифрованных выборок речевого сигнала последовательности указанных кадров оцифрованных выборок речевого сигнала путем использования окнообразующей функции для формирования окна кадров речевых данных, вычисления набора коэффициентов автокорреляции, используя кадры окна, определения скорости кодирования по указанному набору коэффициентов автокорреляции, вычисления набора коэффициентов линейного предсказания по указанному набору коэффициентов автокорреляции, преобразования указанного набора коэффициентов линейного предсказания в значения линейных спектральных пар, квантования указанного набора коэффициентов линейных спектральных пар в соответствии с командой скорости и указанной скоростью кодирования, выбора из имеющегося набора значения тона для каждого тонового подкадра для каждого кадра оцифрованной речи, квантования выбранного значения тона пар в соответствии с командой скорости и указанной скоростью кодирования, выбора из кодового словаря значения, соответствующего имеющемуся набору значений тона, чтобы сформировать значение тона для кадра, квантования выбранного значения из кодового словаря в соответствии с командой скорости и указанной скоростью кодирования, и формирования пакета выходных данных, содержащего указанные квантованные значения линейных спектральных пар, квантованное значение тона и квантованное выбранное значение из кодового словаря водимой речи обычного аналогового телефона потребуется скорость передачи данных около 64 кб/сек Однако применение анализа речи перед соответствующим кодированием и передачей и синтеза речи на приемной стороне позволяет достичь существенного снижения скорости передачи данных Устройства, которые используют методы сжатия речевых сигналов путем выделения параметров, связанных с моделью генерации человеческой речи, обычно называют вокодерами Такие устройства содержат кодер, который анализирует входной речевой сигнал для выделения нужных параметров, и декодер, который синтезирует речевой сигнал, используя параметры, полученные по каналу связи Чтобы быть точной, модель должна постоянно меняться Поэтому речевой сигнал делится на временные блоки или анализируемые кадры, в течение которых рассчитываются параметры речевых сигналов Эти параметры затем обновляются для каждого нового кадра Из речевых кодеров различных классов кодеры, использующие кодирование методом ли 43311 нейного предсказания с кодовым возбуждением (ЛПККВ) стохастическое кодирование или речевое кодирование с векторным возбуждением, относятся к одному классу Пример кодирующего алгоритма этого класса описан в работе "А 4 8 Kbps Code Excited Linear Predictive Code", Thomas E Tremam et al , Proceedings of the Mobile Satellite Conference, 1988 Задачей вокодера является сжатие оцифрованного речевого сигнала в сигнал с малой скоростью передачи битов с помощью устранения всех естественных избыточностей, присутствующих в речи Типичный речевой сигнал имеет кратковременные избыточности, обусловленные прежде всего фильтрацией в голосовом тракте и долговременные избыточности обусловленные возбуждением голосового тракта голосовыми связками В кодере ЛПККВ эти операции моделируются двумя фильтрами, формантным фильтром, формирующим кратковременные избыточности, и тоновым фильтром долговременных избыточностей Как только эти избыточности устранены, полученный остаточный сигнал может моделироваться как белый Гауссовый шум, который должен быть также закодирован Данная процедура основана на расчете параметров фильтра, называемого фильтром кодирования с линейным предсказанием, который осуществляет краткосрочное предсказание формы речевого сигнала, используя модель человеческого голосового тракта Кроме того, долговременные воздействия, относящиеся к речевому тону, моделируются с путем расчета параметров тонового фильтра, который по существу моделирует человеческие голосовые связки Наконец, эти фильтры должны быть возбуждены, и это осуществляется путем определения того какое колебание из некоторого набора случайных возбуждающих колебаний, находящихся в кодовом словаре, будучи поданным для возбуждения упомянутых выше двух фильтров, обеспечивает ближайшую аппроксимацию исходного речевого сигнала Таким образом передаваемые параметры относятся к (1) фильтру кодирования с линейным предсказанием ЛПК, (2) тональному фильтру и (3) возбуждению кодового словаря Несмотря на то, что использование методов сжатия речевого сигнала решает задачу уменьшения количества информации, передаваемой по каналу, при обеспечении приемлемого качества воспроизводимой речи, требуется применение других методов, чтобы еще больше уменьшить количество передаваемой информации Одним из методов, используемых для уменьшения передаваемого количества информации, является стробирование активности речевого сигнала При применении этого метода отсутствует передача информации во время пауз речи Хотя этот способ позволяет достичь желаемых результатов по сокращению передаваемых данных, он обладает рядом недостатков Во многих случаях качество речи ухудшается из-за отсечения начальных частей слов Другим недостатком запирания канала во время пауз является то, что пользователи системы отсутствие окружающего шума, который обычно сопутствует речевому сигналу, оценивают как снижение качества канала ниже чем обычного телефонного канала Следующим недостатком метода стро бирования является подверженность воздействию случайных, внезапных шумов, которые могут запустить передатчик при отсутствии речевого сигнала, что приводит к нежелательным трескам на приемной стороне Для того, чтобы улучшить качество синтезируемой речи в системах со стробированием речевого сигнала, во время процесса декодирования к нему добавляется синтезированный привычный шум Хотя добавление этого шума позволяет достичь некоторого улучшения качества, оно реально не улучшает общее качество, так как этот шум не моделирует реальный фоновый шум на входе кодера Более предпочтительным методом сжатия данных и как следствие, уменьшения количества передаваемой информации, является кодирование речевых данных с переменной скоростью Так как речь неотъемлемо содержит периоды молчания, то есть паузы, количество данных, требуемых для представления этих периодов, может быть уменьшено Кодирование данных с переменной скоростью наиболее эффективно использует это свойство, уменьшая скорость передачи данных во время этих периодов молчания Уменьшение скорости передачи данных в противоположность полному запрещению передачи данных в периоды молчания, позволяет устранить недостатки, присущие методу стробирования активности речевого сигнала, способствуя при этом уменьшению передаваемой информации Таким образом, целью предлагаемого изобретения является создание новых более совершенных способа и устройства для сжатия речевого сигнала, использующих методы кодирования с переменной скоростью Предлагаемое изобретение предусматривает создание алгоритма кодирования речевого сигнала для ранее упомянутого класса вокодеров, использующих кодирование методом линейного предсказания с кодовым возбуждением (ЛПККВ), стохастическое кодирование или речевое кодирование с векторным возбуждением Метод ЛПККВ сам по себе обеспечивает существенное уменьшение объема данных, необходимых для представления речи таким образом, чтобы получить высокое качество восстановленной речи Как отмечалось ранее, параметры вокодера корректируются для каждого кадра Вокодер, предлагаемый в настоящем изобретении, обеспечивает переменную скорость выходных данных путем изменения частоты и точности параметров модели Предлагаемое изобретение существенно отличается от классического метода ЛПККВ тем, что производит выходные данные с переменной скоростью, на основе активности речевого сигнала Особенностью данного метода является то, что параметры корректируются менее часто или с меньшей точностью в течение пауз речи Такая процедура позволяет достичь существенно большего уменьшения информации, предназначенной для передачи Свойством, которое используется для уменьшения скорости передачи данных, является коэффициент активности голоса, под которым подразумевается среднее время в процентах, фактически занимаемое словами, произносимыми говорящим во время разговора Для ти 43311 пичной двухсторонней телефонной связи средняя скорость передачи данных уменьшается в два и более раза Во время речевых пауз в вокодере кодируется только окружающий шум В эти моменты нет необходимости передавать часть параметров, относящихся к модели человеческого голосового тракта Упомянутый ранее известный метод ограничения информации, передаваемой в течение периодов молчания, называется стробированием активности речевого сигнала, при котором никакой информации не передается в течение периодов молчания На приемной стороне такой период может быть заполнен синтезированным "комфортным шумом", т е шумом, обычно сопровождающим человеческую речь В противоположность этому, вокодер с переменной скоростью передачи постоянно передает данные, в предпочтительном варианте осуществления изобретения со скоростями, диапазон которых лежит примерно между 8 кб/сек и 1 кб/сек Вокодер, который осуществляет непрерывную передачу данных, не нуждается в синтезированном "комфортном" шуме, а путем кодирования окружающего шума обеспечивает более естественное качество синтезированной речи Поэтому предлагаемое изобретение обеспечивает существенное улучшение качества синтезированной речи по отношению к качеству, обеспечиваемому методом стробирования активности речевого сигнала, благодаря сглаживанию перехода между периодами активной речи и паузами с окружающим шумом Настоящее изобретение использует в дальнейшем новую процедуру для маскировки ошибок Так как данные, предназначенные для передачи по каналу связи, могут быть искажены шумом, например, в случае радиосвязи, то этот метод должен быть приспособлен к ошибкам в данных Известные методы, использующие канальное кодирование для уменьшения числа ошибок, являются довольно эффективными Однако канальное кодирование само по себе не дает в полной мере степени защиты от помех, необходимой для обеспечения высокого качества восстанавливаемой речи В вокодере с переменной скоростью передачи, где процесс кодирования речевого сигнала осуществляется непрерывно, ошибка может исказить данные, относящиеся к некоторым важным частям речи, таким как начало слова или слог Типичным недостатком вокодеров, основанных на кодировании методом линейного предсказания (ЛПК), является то, что искажения параметров, относящихся к модели голосового тракта, приводят к появлению звуков не похожих на человеческий голос и настолько искаженных, что они могут вызвать замешательство со стороны слушающего В предлагаемом изобретении ошибки маскируются, чтобы они не ощущались слушающим Таким образом, маскирование ошибок, применяемое в предлагаемом изобретении, обеспечивает существенное снижение степени воздействия ошибок на разборчивость речи Поскольку максимальное значение, которое может принимать любой параметр, ограничивается меньшим диапазоном на низких скоростях, ошибки, возникающие при передаче этих параметров, на этих скоростях, будут влиять на качество речи в меньшей степени Так как ошибки на различных скоростях передачи обладают различной степенью воздействия на качество речи, система передачи может быть оптимизирована, чтобы обеспечить лучшую защиту на более высоких скоростях передачи данных Поэтому дополнительным преимуществом настоящего изобретения является устойчивость по отношению к канальным ошибкам Предлагаемое изобретение благодаря использованию варианта алгоритма ЛПККВ с переменной скоростью обеспечивает коэффициент сжатия речевого сигнала, который динамически меняется от 8 1 до 64 1 в зависимости от активности голосового сигнала Указанные значения коэффициентов сжатия относятся к входным данным с законом компандирования с ц-характеристикой, для входных данных с линейным законом коэффициенты сжатия выше примерно в два раза Определение скорости делается на уровне кадров, чтобы получить полное преимущество от использования коэффициента активности голоса Несмотря на то, что во время речевых пауз передается меньшее число данных, ощутимое увеличение синтезированного фонового шума сведено к минимуму Использование методов, предложенных в настоящем изобретении, позволяет для обычного разговора получить почти наилучшее качество речи при максимальной скорости передачи данных около 8 кб/сек и средней скорости передачи данных порядка 3,5 кб/сек Так как предлагаемое изобретение предполагает обнаружение коротких пауз в речи, то эффективный коэффициент активности голоса уменьшается Решение о величине скорости передачи может приниматься на уровне кадров, без "хвостов" (затягивания), так что для речевых пауз скорость передачи может быть снижена до длительности кадра, как правило, 20 мсек в предпочтительном варианте осуществления изобретения Поэтому могут быть обнаружены такие паузы, как паузы между слогами Эта процедура снижает коэффициент активности голоса ниже традиционно принимаемого значения, так что не только длинные паузы между фразами, но также и короткие паузы могут кодироваться с более низкими скоростями Так как решения о скорости передачи принимаются на уровне кадров, отсутствует усечение начальной части слова, которое имеет место в системах со стробированием активности речевого сигнала Усечения такого типа присутствуют в системах со стробированием активности речевого сигнала из-за задержки между обнаружением речевого сигнала и возобновлением передачи данных Регулирование скорости передачи на каждом кадре позволяет получить речевой сигнал, где все переходы имеют естественное звучание Когда вокодер постоянно передает сигналы, шум от окружающей среды, где находится говорящий, постоянно слышен на приемной стороне, создавая более естественный фон во время речевых пауз Предлагаемое изобретение, таким образом, обеспечивает плавный переход к фоновому шуму То что слушающий слышит параллельно с передаваемой речью, не будет неожиданно превращаться в синтезированный "комфортный" шум 43311 в периоды пауз, как это имеет место в системах со стробированием активности голоса Так как окружающий шум постоянно кодируется для передачи, представляющие интерес фоновые звуки могут быть переданы с полной ясностью В определенных случаях такой представляющий интерес фоновый шум может быть даже закодирован с максимальной скоростью Максимальная скорость кодирования может потребоваться, например, когда рядом с передающим абонентом находится громко разговаривающий субъект, или когда автомобиль скорой помощи проезжает мимо пользователя, стоящего на углу улицы Однако, постоянный или медленно меняющийся окружающий шум будет кодироваться с малой скоростью Использование кодирования с переменной скоростью позволяет увеличить емкость цифровых систем сотовой телефонной связи с параллельным доступом и кодовым разделением каналов (систем ПДКРК) более чем в два раза Параллельный доступ с кодовым разделением каналов и кодирование речи с переменной скоростью уникально сочетаются друг с другом, поскольку межканальные помехи автоматически уменьшаются при уменьшении скорости передачи данных в любом канале Этим системы с кодовым разделением каналов выгодно отличаются от систем, в которых для каналов выделяются области - частотные или временные, т е от систем с параллельным доступом и временным разделением каналов и систем с параллельным доступом и частотным разделением каналов Для того, чтобы в подобных системах получить выигрыш от уменьшения скорости передачи данных, требуется внешнее вмешательство для координации повторного назначения неиспользованных областей частотных или временных - другим пользователям Присущая таким системам задержка приводит к тому, что канал может быть переназначен только в периоды длительных разговорных пауз Поэтому полностью реализовать преимущества, обеспечиваемые использованием коэффициента активности речевого сигнала, не удается Однако при наличии внешней координации кодирование речевых сигналов с переменной скоростью целесообразно и в системах, отличных от систем с кодовым разделением каналов, по другим упомянутым причинам В системах с параллельным доступом и кодовым разделением каналов качество речевого сигнала может быть слегка ухудшено в тех случаях, когда желательна система с чрезмерно большой емкостью В принципе, вокодер может рассматриваться в виде множества вокодеров, работающих с разными скоростями и разным качеством речи Поэтому качество речи может быть усреднено, чтобы еще больше уменьшить среднюю скорость передачи данных Предварительные эксперименты показывают, что при смешивании речевых сигналов, кодированных с полной скоростью и с половинной скоростью, например, когда максимально допустимая скорость изменяется на уровне кадров между 8 кб/сек и 4 кб/сек, результирующие речевые сигналы имеют лучшее качество,чем при кодировании с половинной скоростью, т е максимум 4 кб/сек, но не такое хорошее, как при кодировании с полной скоростью, т е максимум 8 кб/сек Хорошо известно, что в большинстве телефонных разговоров, в данный момент времени говорит только один абонент В качестве дополнительной функции полной дуплексной телефонной линии может быть предусмотрена взаимозависимость скоростей передачи Если на одной стороне линии связи идет передача с максимальнрой скоростью, то другая сторона связи вынуждена передавать с наименьшей скоростью Такая взаимосвязь скоростей в обоих направлениях может гарантировать, что среднее использование в каждом направлении канала связи составляет не более 50% Однако когда канал запирается, как это имеет место в случае взаимозависимости скоростей при стробировании активности голоса, слушающий не может прервать говорящего, чтобы взять на себя активную роль в разговоре Предлагаемое изобретение легко обеспечивает изменение скоростей путем управления сигналами, которые устанавливают скорость кодирования речевых сигналов Наконец, следует отметить, что путем использования кодирования речевых сигналов с переменной скоростью одновременно с речевыми данными может передаваться вспомогательная информация при минимальном влиянии на качество передаваемого речевого сигнала Например, высокоскоростной кадр может быть разбит на две части, одна из которых используется для передачи с более низкой скоростью речевых данных, а другая - для передачи вспомогательных сигнальных данных В вокодере согласно предпочтительному варианту осуществления изобретения происходит лишь незначительное снижение качества воспроизводимой речи при передаче с половинной скоростью по сравнению с передачей с полной скоростью Поэтому кодирование речевого сигнала на более низкой скорости с целью одновременной передачи других данных приводит к почти неразличимой для слушателя разнице в качестве воспроизводимой речи торых Изобретение поясняется чертежами, на ко Фиг 1а-1е изображают кадры и подкадры, анализируемые вокодером при различных скоростях, Фиг 2a-2d изображают ряд карт, иллюстрирующих распределение битов в выходных сигналах вокодера при различных скоростях, Фиг 3 изображает обобщенную блок-схему варианта реализации кодера, Фиг 4 изображает алгоритм кодирования, Фиг 5 изображает обобщенную блок-схему варианта выполнения декодера, Фиг 6 изображает алгоритм декодирования, Фиг 7 изображает более подробную блоксхему кодера, Фиг 8 изображает блок-схему примера реализации подсистемы окна Хемминга и автокорреляции, Фиг 9 изображает блок-схему примера реализации подсистемы определения скорости, Фиг 10 представляет блок-схему примера реализации подсистемы анализа коэффициентов ЛПК (кодирование методом линейного предсказания), 43311 Фиг 11 изображает блок-схему примера реализации подсистемы преобразования коэффициентов ЛПК в ЛСП (линейные спектральные пары), Фиг 12 изображает блок-схему примера реализации подсистемы квантования ЛПК Фиг 13 представляет блок-схему примера реализации подсистемы интерполяции ЛСП и преобразования ЛСП в ЛПК, Фиг 14 изображает блок-схему примера реализации адаптивного кодового словаря для поиска тона, Фиг 15 изображает блок-схему кодера-декодера, Фиг 16 изображает блок-схему подсистемы поиска тона, Фиг 17 изображает блок-схему подсистемы поиска кодового словаря, Фиг 18 изображает блок-схему подсистемы упаковки данных, Фиг 19 изображает более подробную блоксхему декодера, Фиг 20a-20d представляют карты, иллюстрирующие принятые декодером параметры и декодируемые данные подкадра для различных скоростей передачи, Фиг 21а-21с изображают карты, дополнительно иллюстрирующие принятые декодером параметры и декодируемые данные подкадра при некоторых особых условиях, Фиг 22 представляет блок-схему подсистемы обратного квантования ЛСП, Фиг 23 изображает более подробно декодер с постфильтрацией и автоматической регулировкой усиления, и Фиг 24 изображает график характеристики адаптивного очищающего фильтра Согласно предлагаемому изобретению, звуковые сигналы, такие как речь и/или окружающий шум, квантуют и преобразуют в цифровую форму, используя хорошо известные способы Например, аналоговый сигнал может быть преобразован в цифровой формат с помощью стандартного формата "8 бит/закон компандирования, с ц-характеристикой, после чего выполняется преобразование закон компандирования с ц-характеристикой/равномерный (однородный) код" В качестве альтернативы аналоговый сигнал может быть сразу преобразован в цифровую форму с равномерным кодом в формате импульсно-кодовой модуляции Каждая выборка в предпочтительном варианте осуществления изобретения представляется одним словом данных длиной в 16 бит Выборки аналогового сигнала объединяются в кадры входных данных, причем каждый кадр содержит определенное число выборок В примере реализации, описанном в заявке, рассматриваются выборки с частотой дискретизации 8 кГц Каждый кадр содержит из 160 выборок аналогового сигнала, что соответствует длительности сигнала речи 20 мсек при частоте дискретизации 8 кГц Должно быть ясно, что могут быть использованы другие размеры кадра и частоты дискретизации Для кодирования сигналов речи используют различные способы, одним из которых является кодирование методом линейного предсказания с кодовым возбуждением (ЛПККВ) Краткие све дения об этом способе изложены в ранее упомянутой работе "А 4,8 kbps Code Excited Linear Predictive Coder" Настоящее изобретение использует вид кодирования ЛПККВ, чтобы обеспечить переменную скорость кодирования речевых данных, причем ЛПК анализ осуществляется на постоянном числе выборок, а поиск, параметров тона и кодового словаря производится на переменном числе выборок которое зависит от скорости передачи Принцип кодирования ЛПККВ, используемого в предлагаемом изобретении, поясняется с помощью фигур 3 и 5 В предпочтительном варианте изобретения длительность кадра, в течение которого осуществляется анализ речевого сигнала, составляет 20 мсек и предполагается, что выделенные для передачи параметры речевого сигнала передаются посылками 50 раз в секунду Кроме того скорость передачи данных меняется дискретно и принимает значения примерно 8 кб/сек, 4 кб/сек, 2 кб/сек и 1 кб/сек При полной скорости (в тексте описания обозначается как скорость 1) передача данных осуществляется со скоростью 8,55 кб/сек при использовании 171 бита для кодирования параметров каждого кадра, включая 11 битов для Контроля с использованием Циклического Избыточного Кода (КЦИК) В случае отсутствия КЦИК битов скорость передачи была бы 8 кб/сек При половинной скорости (в тексте описания обозначается также как скорость 1/2) скорость передачи данных составляет 4 кб/сек при использовании 80 битов в каждом кадре для кодирования передаваемых параметров На четвертичной скорости (в тексте описания обозначается также как скорость 1/4) скорость передачи данных составляет 2 кб/сек с использованием 40 бит в каждом кадре для кодирования передаваемых параметров При одной восьмой полной скорости (в тексте описания обозначается как скорость 1/8) скорость передачи составляет чуть меньше 1 кб/сек при использовании 16 битов в каждом кадре для кодирования передаваемых данных Фиг 1 иллюстрирует пример анализируемого кадра речевых данных 10 и расположение окна Хемминга 12, используемого при анализе с кодированием методом линейного предсказания (ЛПК) Анализируемый ЛПК кадр, а также подкадры тона и кодового словаря для различных скоростей изображены на фигурах 2a-2d Должно быть понятно что анализируемый ЛПК кадр имеет одинаковый размер для всех скоростей передачи Обратимся теперь к фиг 1а Анализ с ЛПК использует 160 выборок речевого сигнала в кадре 10, которые взвешиваются с использованием окна Хемминга 12 Как показано на фиг 1а выборки сигнала s(n) пронумерованы 0-159 внутри каждого кадра Окно Хемминга 12 смещено по отношению к кадру 10 на 60 выборок, т е окно Хемминга 12 начинается с 60-ой выборки s(59) текущего кадра 10 данных и продолжается до 59-ой выборки s(58) включительно следующего кадра 14 данных Взвешенные данные, выработанные для текущего кадра 10, таким образом, содержат данные, полученные на основе данных следующего кадра 14 В зависимости от скорости передачи данных производится поиск для вычисления параметров возбуждения тонового фильтра и кодового ело 43311 варя несколько раз на различных подкадрах кадра 10 данных, как изображено на фиг 1 b-1 e Должно быть понятно, что в данном варианте изобретения только одна скорость передачи выбрана для кадра 10, так что поиски тона и кодового словаря делаются в подкадрах разных размеров в соответствии, как это будет показано далее, с выбранной скоростью передачи Однако для наглядности, структура подкадров поиска тона и кодового словаря для различных, допустимых в данном варианте скоростей передачи, изображена на фиг 1 b-1 e На всех скоростях передачи по каждому кадру 10 осуществляется только одно вычисление коэффициентов ЛПК, как это изображено на фиг 1а Как видно из фиг 1Ь, на полной скорости передачи существуют два подкадра 18 кодового словаря для каждого подкадра 16 тона При полной скорости передачи существуют четыре корректировки тона, по одной на каждый из четырех тоновых подкадров 16 с длительностью, равной 40 выборкам речевого сигнала (5 мсек) Кроме того, при полной скорости имеется восемь корректировок кодового словаря, по одной на каждый из восьми подкадров 18 кодового словаря, с длительностью 20 выборок речевого сигнала (2,5 мсек) При половинной скорости передачи данных, как это изображено на фиг 1с, существует два подкадра 22 кодового словаря для каждого тонового подкадра 20 Тон корректируется дважды, один раз для каждого из двух подкадров 20 тона, в то время как кодовый словарь корректируется четыре раза, один раз в каждом из четырех подкадров 22 кодового словаря На четвертной скорости передачи данных, как показано на фиг 1d, существует два подкадра 26 кодового словаря для одного тонового подкадра 24 Тон корректируется один раз для тонового подкадра 24, в то время как кодовый словарь - дважды, один раз для каждого из двух подкадров 26 кодового словаря В соответствии с фиг 1е при одной восьмой полной скорости передачи данных тон не определяется, а кодовый словарь обновляются только один раз в кадре 28, который соответствует кадру 10 Кроме того, хотя коэффициенты ЛПК вычисляются только один раз за кадр, они линейно интерполируются в виде Линейных Спектральных Пар (ЛСП) до четырех раз, используя частоты ЛСП, полученные из предыдущего кадра, чтобы аппроксимировать результаты анализа коэффициентов ЛПК с взвешивающей функцией Хемминга, отцентрированной на каждом подкадре Исключение составляет случай передачи с полной скоростью, когда коэффициенты ЛПК не интерполируются для подкадров кодового словаря Более подробно о вычислении частот ЛСП будет сказано ниже Кроме того, что поиски параметров тона и кодового словаря осуществляются менее часто на меньших скоростях, меньшее число битов выделяется для передачи коэффициентов ЛПК Число битов, выделенных на различных скоростях передачи, показано на фиг 2a-2d Каждая из фиг 2a-2d представляет число битов закодированных вокодером данных, которые выделены каждому кадру речи, состоящему из 160 выборок На фиг 2a-2d число в соответствующих блоках ЛПК 30а30d является числом битов, используемых при соответствующих скоростях для кодирования кратковременных коэффициентов ЛПК В предпочтительном варианте изобретения число битов, используемых для кодирования ЛПК коэффициентов на полной, половинной, четвертной и одной восьмой полной скоростях передачи, равно соответственно 40, 20, 10 и 10 Для того, чтобы осуществить кодирование с переменной скоростью, коэффициенты ЛПК сначала преобразуются в линейные спектральные пары (ЛСП) и полученные в результате частоты ЛСП индивидуально кодируются с помощью кодеров Дифференциальной Импульсно-Кодовой Модуляции (ДИКМ) Порядок коэффициентов ЛПК равен 10, поэтому существует 10 частот ЛСП и 10 независимых кодеров Распределение битов для кодеров ДИКМ дано в таблице 1 Таблица 1 1 2 Номер кодера ДИКМ 3 4 5 6 7 8 9 10 СКОРОСТЬ 1 4 4 4 4 4 4 4 4 4 4 СКОРОСТЬ 1/2 2 2 2 2 2 2 2 2 2 2 СКОРОСТЬ 1/4 1 1 1 1 1 1 1 1 1 1 СКОРОСТЬ 1/8 1 1 1 1 1 -1 1 1 1 1 Как при кодировании, так и при декодировании частоты ЛСП обратно преобразуются в коэффициенты фильтра ЛПК перед использованием при поиске тона и кодового словаря Что касается поиска тона, то при полной скорости, как показано на фиг 2а, скорректированные параметры тона рассчитываются четыре раза, один раз для каждой четверти кадра речевого сигнала Для каждой корректировки тона при полной скорости передачи используется 10 битов для кодирования новых параметров тона Корректи ровка тона осуществляется различное число раз для других скоростей передачи данных, как показано на фиг 2b-2d По мере того, как скорость передачи уменьшается, уменьшается и число корректировок тона Фиг 2Ь показывает, что корректированные данные тона половинной скорости вычисляются дважды, один раз для каждой половины кадра речевого сигнала Аналогично, фиг 2с показывает, что при четвертной скорости передачи корректированные параметры тона вычисляются один раз в каждом полном кадре сигнала речи 43311 Как и для случая полной скорости, 10 битов используются для кодирования новых параметров тона при половинной и четвертной скоростях Однако для одной восьмой полной скорости передачи, как это иллюстрируется на фиг 2d, скорректированные тоновые параметры не вычисляются, так как эта скорость передачи используется для кодирования кадров, когда речевой сигнал слаб либо отсутствует вовсе и тоновой избыточности в речевом сигнале не существует Из каждых 10 битов скорректированного тона 7 битов представляют задержку тона и 3 бита усиление тона Диапазон задержки тона лежит между 17 и 143 Усиление тона линейно квантуется в диапазоне от 0 до 2 для представления 3 битами Что касается поиска кодового словаря, то при полной скорости передачи, как это показано на фиг 2а, скорректированные данные кодового словаря вычисляются восемь раз, один раз в каждой восьмой части кадра речевого сигнала Для каждого корректированного значения кодового словаря при полной скорости передачи используется 10 битов для кодирования новых параметров кодового словаря Корректировка данных кодового словаря осуществляется разное число раз на различных скоростях передачи данных, как это показано на фиг 2b-2d Однако по мере того, как уменьшается скорость передачи, уменьшается и количество корректировок кодового словаря На фиг 2Ь показано, что корректированные параметры кодового словаря при половинной скорости передачи данных вычисляются четыре раза, один раз для каждой четверти кадра речевого сигнала Фиг 2с представляет скорректированные данные при четвертной скорости передачи данных, которые вычисляются дважды, один раз для каждой половины кадра речевого сигнала Как и при полной скорости передачи данных, 10 битов используются для кодирования новых параметров кодового словаря для каждой корректировки тона при половинной и четвертной скоростях Наконец, фиг 2d изображает скорректированные данные кодового словаря при одной восьмой полной скорости передачи, которые вычисляются один раз для каждого полного кадра речевого сигнала Следует отметить что при скорости передачи данных, равной одной восьмой от полной скорости, передается 6 битов 2 бита представляют усиление кодового словаря, а другие 4 бита - случайные биты Более подробно относительно распределения битов для скорректированных данных кодового словаря будет сказано ниже ма При скорости передачи равной одной восьмой полной скорости, усиление кодового словаря представлено двумя битами, в то время как 4 генерируемых по случайному закону бита используются в принимаемых данных как начальное число генератора псевдослучайных чисел, который заменяет кодовый словарь Из блок-схемы кодера, изображенного на фиг 3 видно, что анализ ЛПК выполняют по разомкнутому контуру Из каждого кадра выборок s(n) входного речевого сигнала вычисляют коэффициенты ои-оио ЛПК, как описано ниже, с помощью анализатора-квантователя 50 ЛПК, для подачи их на вход фильтра 60 синтеза форманты В то же время вычисление при поиске тона выполняется по замкнутому контуру методом, часто называемым методом анализа через синтез Однако в данном варианте используется новая гибридная схема с замкнутым/разомкнутым контуром для поиска параметров тона При поиске тона кодирование осуществляется путем выбора параметров, которые минимизируют среднеквадратичную ошибку в синтезированном речевом сигнале относительно входного речевого сигнала Для простоты в этой части описания вопросы, связанные с выбором скорости передачи, не обсуждаются Однако в дальнейшем вопросы, связанные с влиянием выбранной скорости кодирования на поиск тона и кодового словаря, будут обсуждены более подробно В варианте, изображенном на фиг 3 персептуальный, т е имеющий отношение к восприятию взвешивающий фильтр 52 характеризуется следующим уравнением ww= ^ (1) где A(z)=1-]T a, z (2) является фильтром предсказания форманты, а ц, представляет собой персептуальный весовой параметр, который в данном примере равен JJ= 0 8 Фильтр 58 синтеза тона характеризуется следующим уравнением 1 P(z) Биты, выделенные для скорректированных данных кодового словаря, являются теми битами, которые требуются для векторного квантования остатка предсказания тона Для полной, половинной и четвертной скоростей передачи каждое скорректированное значение содержит 7 битов для индекса кодового словаря и 3 бита для усиления кодового словаря, всего 10 битов Усиление кодового словаря кодируется с помощью кодера дифференциальной импульсно-кодовой модуляцией (ДИКМ), работающего в логарифмической области Хотя аналогичное кодирование может быть использовано и для одной восьмой полной скорости передачи, предпочтительна другая схе 1 1-bz" L (3) Фильтр 60 синтеза форманты, "взвешенный" фильтр, как поясняется ниже, характеризуется следующим уравнением 1 H(z) = W(z) = (4) A(z) Выборки s(n) входного речевого сигнала взвешиваются персептуальным взвешивающим фильтром 52 и взвешенные выборки х(п) речевого сигнала поступают на суммирующий вход сумматора 62 Персептуальное взвешивание используется в отношении ошибок на частотах, где мощность сигнала мала Это те частоты, на которых более ощутимым является шум Выборки х'(п) син 10 43311 тезированного речевого сигнала формируются на выходе фильтра 60 синтеза форманты и подаются на вычитающий вход сумматора 62, где они вычитаются из выборок х(п) Разности выборок с выхода сумматора 62 поступают на вход элемента 64 вычисления среднеквадратичной ошибки (СКО), где эти разности возводятся в квадрат и суммируются Выходной сигнал с элемента 64 СКО подается на вход минимизирующего элемента 66, который вырабатывает значения задержки L тона, усиления b тона, индекса I кодового словаря и усиления кодового словаря С выходов минимизирующего элемента 66 все возможные значения L параметра задержки тона в выражении P(z), наряду со значениями с(п) с выхода ум ножителя 56, поступают на вход фильтра 58 синтеза тона Во время поиска параметров тона отсутствует вклад со стороны кодового словаря, то есть с(п)=0 С помощью минимизирующего элемента 66 выбираются значения L и Ь, которые минимизируют взвешенную ошибку в синтезированном речевом сигнале относительно входного речевого сигнала Фильтр 58 синтеза тона вырабатывает и выдает на выход значение р(п) для фильтра 60 синтеза форманты Как только, задержка L тона и усиление b тона найдены, осуществляется поиск параметров кодового словаря аналогичным образом теза форманты имел бы характеристику обычного фильтра 1/A(z) Фиг 4 иллюстрирует последовательность процедур, применяемых для кодирования речевого сигнала кодером, изображенным на фиг 3 С целью пояснения на фиг 4 показаны операции, обеспечивающие выбор скорости передачи Оцифрованные выборки речевого сигнала поступают (80) из схемы дискретизации, затем из этих выборок вычисляют коэффициенты ЛПК (82) При вычислении коэффициентов ЛПК используют окно Хемминга и автокорреляционные методы Начальное значение скорости передачи, для анализируемого кадра в данном варианте выбирают исходя из энергии кадра (84) Для того, чтобы эффективно закодировать коэффициенты ЛПК малым числом битов, коэффициенты ЛПК преобразуют (86) в частоты Линейных Спектральных Пар (ЛСП) и затем квантуют (88) для передачи В качестве необязательного варианта может дополнительно определяться скорость передачи (90) с соответствующим увеличением скорости, если квантование коэффициентов ЛСП при начальной скорости передачи считается недостаточным (92) Для первого тонового подкадра анализируемого кадра речевого сигнала частоты ЛСП интерполируют и преобразуются в коэффициенты ЛПК (94) для использования при поиске тона При поиске тона возбуждение кодового словаря устанавливается равным нулю При поиске тона, в котором используется, как было указано выше, метод анализа через синтез (96,98), для каждой возможной задержки L тона синтезированный речевой сигнал сравнивается с исходным речевым сигналом Для каждого значения L, представляющего целое число, определяют оптимальное усиление b тона Из множеств значений L и b оптимальные значения L и b обеспечивают минимальную взвешенную среднеквадратичную ошибку в синтезированной речи исходного речевого сигнала Для определения оптимальных значений L и b в конкретном тоновом подкадре, значения b квантуются (100) для передачи вместе с соответствующим значением L В альтернативном варианте поиска тона квантование значений b можно осуществлять в процессе поиска тона, и уже квантованные значения b использовать в процессе поиска тона Поэтому в этом случае надобность в квантовании выбранных значений b после поиска тона (100) отпадает Следует пояснить, что фиг 3 иллюстрирует принцип метода анализа через синтез принятого в предлагаемом изобретении В примере реализации настоящего изобретения фильтры не используются в типичной цепи обратной связи с замкнутым контуром В настоящем изобретении цепь обратной связи размыкается во время поиска и заменяется формантным остатком разомкнутого контура, что более подробно будет пояснено позже Минимизирующий элемент 66 затем формирует значения для индекса I кодового словаря и усиления G кодового словаря Сигналы с выхода кодового словаря 54, выбранные из множества значений случайного Гауссова вектора в соответствии с индексом I кодового словаря, умножаются в умножителе 56 на значение усиления G кодового словаря для получения последовательности значений с(п), используемых в фильтре 58 синтеза тона Те индексы I и усиление G кодового словаря, которые минимизируют среднеквадратичную погрешность, выбираются для передачи Следует отметить, что персептуальное взвешивание W(z) применяется как для входного речевого сигнала с помощью взвешивающего фильтра 52, так и для синтезированного речевого сигнала с помощью весовой функции, объединенной с фильтром 60 синтеза форманты Поэтому фильтр 60 синтеза форманты фактически является взвешенным фильтром синтеза форманты, который сочетает весовую функцию уравнения (1) с обычной характеристикой 1/A(z) фильтра предсказания форманты, для получения взвешенной функции синтеза форманты в соответствии с уравнением (3) Для первого подкадра кодового словаря анализируемого кадра речевого сигнала частоты ЛСП интерполируются и преобразуются в коэффициенты ЛПК (102), которые используют при поиске параметров кодового словаря Однако в данном примере реализации при полной скорости передачи частоты ЛСП интерполируют только до уровня тонового подкадра Эти интерполяцию и преобразование осуществляют для поиска параметров кодового словаря дополнительно к поиску тона благодаря разнице в размерах подкадров кодового словаря и тона на всех скоростях передачи, за исключением одной восьмой полной скорости, когда результат не определен, так как данные тона не вычисляются При поиске кодового словаря (104 и 106) оптимальные значения за Должно быть понятно, что в альтернативном случае персептуальный взвешивающий фильтр 52 может быть помещен между сумматором 62 и элементом 64 СКО В этом случае фильтр 60 син 11 43311 держки L и усиления Ьтона используют в фильтре синтеза тона таким образом, что для каждого возможного индекса I кодового словаря синтезированный речевой сигнал сравнивают с исходным речевым сигналом Для каждого значения I (целое число) определяют величину оптимального значения усиления G кодового словаря Из множеств значений I и G оптимальные значения I и G обеспечивают минимальную ошибку в синтезированной речи относительно исходной речи Для определенных таким образом оптимальных значений I и G в конкретном подкадре кодового словаря значение G квантуют (108) для передачи одновременно с соответствующим значением І В альтернативном варианте поиска кодового словаря квантование значений G может являться частью процесса поиска параметров кодового словаря и квантованные значения могут использоваться в поиске параметров кодового словаря В этом альтернативном варианте необходимость в квантовании выбранных в результате поиска параметров кодового словаря значений G (108) отпадает не рассматривается Данные о скорости передачи могут посылаться как побочная информация и в некоторых случаях могут быть получены на стадии демодуляции Декодер содержит кодовый словарь 130, в который поступают принятые индексы кодового словаря, или, для одной восьмой полной скорости - случайное начальное слово Выходной сигнал кодового словаря 130 подается на один из входов умножителя 132, на другой вход которого поступает усиление G кодового словаря Сигнал с выхода умножителя 132 вместе с задержкой L и усилением b тона поступает на фильтр 134 синтеза тона Сигнал с выхода фильтра 134 синтеза тона поступает вместе с коэффициентами а, ЛПК на фильтр 136 синтеза форманты С выхода фильтра 136 синтеза форманты сигнал подается на вход адаптивного постфильтра 138, выходной сигнал которого является восстановленным речевым сигналом Как будет показано ниже, декодер в одном из вариантов входит в состав кодера В этом случае в декодере отсутствует адаптивный постфильтр 138, но зато имеется персептуальный взвешивающий фильтр После поиска параметров кодового словаря декодер в составе кодера использует оптимальные значения I, G, L и b При этом этот декодер восстанавливает запомненные в памяти фильтра кодера параметры для использования их в последующих подкадрах Проверка, которая затем делается (110), необходима для определения, являлся ли анализируемый подкадр кодового словаря, анализ которого только что закончен, последним подкадром из группы подкадров кодового словаря, соответствующих подкадру тона, для которого проводился поиск Иными словами, определяют существуют ли еще подкадры кодового словаря, соответствующие тоновому подкадру В рассматриваемом примере существуют только два подкадра кодового словаря на каждый тоновый подкадр Если в результате определения обнаружено, что есть еще подкадр кодового словаря, который соответствует тоновому подкадру, операции (102-108) повторяются для этого подкадра кодового словаря Фиг 6 представляет блок-схему алгоритма работы декодера, изображенного на фиг 5 В декодере речевой сигнал восстанавливается из принятых параметров (150) В частности, принятое значение индекса кодового словаря является входным сигналом кодового словаря, который генерирует кодовый вектор (152) Умножитель принимает кодовый вектор и принятое усиление G кодового словаря и перемножает эти параметры (154), выдавая выходной сигнал на вход фильтра синтеза тона Следует отметить, что усиление G кодового словаря восстанавливается путем декодирования и обратного квантования принятых параметров ДИКМ Фильтр синтеза тона получает значения принятых задержки L и усиления Ьтона, а также выходной сигнал умножителя и фильтрует выходной сигнал умножителя (156) Значения, полученные путем фильтрации вектора кодового словаря фильтром синтеза тона, поступают на фильтр синтеза форманты, на который также подаются коэффициенты а, ЛПК используемые при фильтрации выходного сигнала фильтра синтеза тона (158) Коэффициенты ЛПК восстанавливаются в декодере для интерполяции путем декодирования принятых параметров ДИКМ в квантовые частоты ЛСП, обратного квантования частот ЛСП и преобразования частот ЛСП в коэффициенты а, ЛПК Выходной сигнал фильтра синтеза форманты подводится к входу адаптивного постфильтра, где происходит сглаживание шума от квантования и осуществляется регулировка усиления восстановленного речевого сигнала (160) Восстановленный речевой сигнал выводится (162) для преобразования в аналоговую форму В противном случае, то есть когда больше нет подкадров кодового словаря, соответствующих данному тоновому подкадру, производится проверка (102) существуют ли другие тоновые подкадры в анализируемом кадре речевого сигнала Если есть другой тоновый подкадр в анализируемом кадре речевого сигнала, то повторяются операции (94-110) для каждого тонового подкадра и соответствующих ему подкадров кодового словаря Когда все вычисления для текущего анализируемого кадра речевого сигнала завершены, величины, представляющие коэффициенты ЛПК кадра речевого сигнала, задержки L и усиления b тона для каждого тонового подкадра и индекса I и усиления G кодового словаря для каждого подкадра кодового словаря упаковываются для передачи по каналу связи (114) Рассмотрим теперь блок-схему на фиг 7а и 7Ь, более подробно иллюстрирующую методы кодирования речи, предлагаемые в настоящем изобретении На фиг 7а каждый кадр дискретизированных выборок речевого сигнала подводится к подсистеме 200, реализующей взвешивающую функцию Хемминга, где входной речевой сигнал взвешивается перед вычислением коэффициен Фиг 5 представляет блок-схему декодера и иллюстрирует, в каких его частях используются принятые значения коэффициентов (а,) ЛПК, задержки и усиления тона (L и Ь) и индекса и усиления кодового словаря (I и G) для синтеза речи Так же как и на фиг 3, на фиг 5 с целью упрощения информация, относящаяся к скорости передачи, 12 43311 вешивающей функции Хемминга осуществляется путем сдвига указателя адреса ПЗУ на 60 позиций относительно первой выборки анализируемого кадра Эти значения перемножаются с одинарной точностью с соответствующими выборками входного речевого сигнала в умножителе 252 Пусть з(п)-входной речевой сигнал, предназначенный для взвешивания Тогда взвешенный сигнал sw(n) определится как тов автокорреляции в подсистеме 202 автокорреляции Подсистема 200 взвешивающей функции Хемминга и подсистема 202 автокорреляции изображены в виде примера на фиг 8 Подсистема 200 взвешивающей функции Хемминга содержит просмотровую таблицу 250, обычно представляющую собой постоянное запоминающее устройство (ПЗУ) емкостью 80x16 бит, и умножитель 252 Для каждой скорости передачи функция взвешивания речевого сигнала центрируется между 139-ой и 140-ой выборками каждого анализируемого кадра, который содержит 160 выборок Взвешивающая функция для вычисления коэффициентов автокорреляции таким образом смещена от анализируемого кадра на 60 выборок sw(n)=s(n+60)WH(n) для 0
ДивитисяДодаткова інформація
МПК / Мітки
МПК: G10L 21/00, G10L 19/00
Мітки: змінною, кодування, акустичного, спосіб, швидкістю, сигналу, схема, пристрій, шляхом, стиснення, мовного
Код посилання
<a href="https://ua.patents.su/51-43311-sposib-stisnennya-movnogo-signalu-shlyakhom-koduvannya-zi-zminnoyu-shvidkistyu-skhema-ta-pristrijj-dlya-stisnennya-akustichnogo-signalu.html" target="_blank" rel="follow" title="База патентів України">Спосіб стиснення мовного сигналу шляхом кодування зі змінною швидкістю, схема та пристрій для стиснення акустичного сигналу</a>