Спецпроекты

Безопасность Бизнес Цифровизация Инфраструктура Бизнес-приложения

Сергей Мельников: Точность распознавания речи доходит до 90%

Что происходит на довольно закрытом рынке СРР, для кого разрабатываются технологии будущего, как происходит "конверсия" речевых решений и когда человек сможет поговорить с компьютером на равных, корреспонденту CNews рассказал советник директора компании "Стэл – компьютерные системы", руководитель управления перспективных технологий Сергей Мельников.

CNews: Как развивается рынок современных речевых технологий в России? Когда можно будет говорить о его зрелости?

Сергей Мельников: Пока российский рынок систем распознавания речи и других высокотехнологичных решений в речевой области невелик. Мы пробовали его оценить. Так, по нашим данным, его объем составляет порядка 10 млн долларов в год. Но рост совершенно очевиден. Динамика составляет порядка 15-20%. Мировой рынок растет, конечно, быстрее: в прошлом году его объем составил примерно 3 млрд долларов, а темпы роста приблизились к 25%.

CNews: Что вы можете сказать о структуре рынка СРР в России?

Сергей Мельников: Практически все предлагаемые на рынке технологии имеют двойное назначение. То есть задачи, которые решаются в речевой области, имеют "открытое" применение - рыночное, и "закрытое" - для тех или иных силовых ведомств.

Это особенность не только российского, но и мирового рынка. Так, например, значительная доля научных исследований по речевой тематике в США финансируется Министерством обороны.

Чтобы упорядочить и как-то улучшить взаимодействие между основными игроками на отечественном рынке несколько лет назад был создан консорциум "Российские речевые технологии". К сожалению, в таком виде, как сейчас, он уже не может решать задачи, стоящие перед сообществом разработчиков речевых технологий. В ближайшее время мы планируем провести мероприятия по реорганизации консорциума. Грамотная работа этой организации поможет консолидировать, упорядочить разработки и избежать ненужного параллелизма, когда разные компании занимаются дублирующими разработками для различных ведомств. Кроме того, реорганизованный консорциум "Российские речевые технологии" поможет более четко и прозрачно распределять государственные средства, выделяемые на разработки в области речевых технологий.

CNews: Какие задачи в области СРР сейчас наиболее востребованы?

Сергей Мельников: Как правило, все задачи СРР делят на два направления – анализ и синтез речи. Если задачи синтеза в той или иной степени можно считать почти решенными, то аналитическое направление имеет очень широкое поле для дальнейшего развития. К аналитическим задачам относят проблемы идентификации, шумоочистки, распознавания языков, оценки психофизического состояния человека. Но самая главная задача СРР – распознавание слитной речи.

Сергей Мельников
Сергей Мельников: Во многих сферах бизнеса конкурентов у нас просто нет

Так, например, задача шумоочистки – одна из известнейших, классических задач. Наилучшие результаты, по нашему мнению, здесь у "Центра речевых технологий" из Санкт-Петербурга. Именно их специалисты занимались восстановлением записей действий экипажа с затонувшей подлодки "Курск". В области шумоочистки много работ, связанных именно с военной тематикой. В танке, в самолете речь всегда сопровождается большими шумами - имеющиеся решения позволяют очистить от них речь и сделать ее более понятной.

Очень важной и интересной по-прежнему остается задача идентификации дикторов. И здесь можно говорить о двояком использовании этой технологии. К примеру, наш комплекс "Голос" позволяет автоматически идентифицировать дикторов как в открытом потоке сообщений, так и по записям. Это нужно силовым ведомствам для поиска сообщений террористов или других потенциально опасных лиц. Гражданское применение это технология находит в системах контроля доступа в помещение, компьютерную сеть и так далее.

В области речевых технологий существует и противоположная задача: когда голос диктора нужно не распознать, а наоборот - исказить таким образом, чтобы максимально затруднить идентификацию. С этой целью компания "Стэл" разработала продукт "Голос-аноним", который в перспективе может использоваться в судах для защиты свидетелей. То есть эта разработка предназначена исключительно для ведомственных структур. Мы планируем выпускать его как аппаратное решение. Мировых аналогов этого продукта множество, но большая их часть - обычные "игрушки", говорить о высоком качестве в этом случае не приходится. Определить, изменен ли голос, достаточно просто даже на слух. Нашей задачей было не только полное изменение голоса диктора, но и придание ему максимально естественного звучания. И эту задачу мы решили.

Задача оценки психофизиологического состояния говорящего равно интересна как для гражданских, так и для военных структур. С помощью этой технологии можно выявить потенциально опасного человека. Она также позволяет осуществлять дистанционный контроль, например, за состоянием водителя на транспортных линиях.

Очень важной для открытого рынка можно назвать задачу улучшения и измерения качества голоса. Здесь у нашей компании тоже есть решение "Голос-качество". Мы все имеем дело с IP-телефонией, качество передаваемого голоса там, безусловно, плавает, и не только от звонка к звонку, но даже в пределах одной сессии. Сейчас качество измеряется, по сути, на слух, мы же можем определить качество переданной информации на уровне формант и фонем в голосе, что позволит отделить оценку качества каналов связи от человеческого фактора. Таким образом, оценка качества голоса приобретет большую объективность, что позволит операторам работать эффективнее.

Короткая ссылка