Поговорите с телефоном

На заре широкого распространения мобильных телефонов голосовой набор номера и голосовое управление казались нам чем-то фантастическим. Сегодня к ним все уже привыкли, однако в наши дни мобильные голосовые технологии умеют очень многое.

Например, существуют разработки, которые позволяют идентифицировать человека по голосу. Есть системы, позволяющие диктовать телефону тексты, которые он переводит в символьные сообщения; телефоны умеют решать и обратную задачу – читать тексты вслух.

Сегодня мы поговорим о голосовых технологиях и о применении их в мобильных телефонах и в мобильной связи.

Речевые технологии и мобильная связь

Впервые технологиями распознавания речи стали оснащать мобильники, выпущенные во второй половине 1990-х годов. Например, Samsung SCH-2000, один из первых в мире телефонов, оснащённый голосовыми технологиями. Этот телефон был предназначен для CDMA-сетей. Позже подобные функции встраивали в телефоны высокого и, отчасти, среднего ценового диапазона. Теперь у производителей есть возможность оснащать такими функциями практически все аппараты, которые лишь немногим лучше самых дешёвых моделей начального уровня.


Samsung SGH-P207

У VoiceSignal Technologies есть и другие, не менее интересные разработки, некоторые из которых находят довольно широкое применение в современных аппаратах.

Например, это пакет VSuite, который включает в себя функции голосового набора и голосового управления аппаратом, причём, система не нуждается в предварительном обучении. То есть, например, вы можете надиктовать ей произвольный номер и она наберёт его.

Ещё одна разработка компании – технология VSearch. Она позволяет производить поиск в мобильном Интернете, используя голосовые команды. Причём, в VSearch реализована технология, по которой голос пользователя обрабатывается не на мобильном телефоне, а на VSearch-сервере. В итоге качество обработки голоса (а главное – перевода его в текст) повышается. Такой подход неприменим для обычной работы с телефоном (каждый раз подключаться к Интернету для того, чтобы набрать номер, кажется слишком накладным), а вот передать серверу голос для обработки в процессе поиска (то есть тогда, когда пользователь по умолчанию подключён к Интернету) – это уже кажется нормальным.

По подобной схеме могут работать различные сервисы сотовых сетей с голосовым управлением. Сегодня наиболее распространены сервисы (например, различные справочные системы по услугам сотовых операторов), для взаимодействия с которыми используются нажатия различных клавиш телефона. В недалёком будущем вполне возможно внедрение полностью голосовых сервисов, где система будет воспринимать речь пользователей и голосом же отвечать им.

Ещё одна разработка компании, которая, впрочем, характерна и для других разработчиков голосового ПО – это технология VSpeak, которая предназначена для преобразования текста в речь. Например, с помощью VSpeak телефон может прочитать вслух SMS-сообщение, WEB-страничку и так далее.

ПО от VoiceSignal Technologies достаточно сильно распространено. Этим ПО оснащены многие модели телефонов от Motorola (например, Motorola KRZR K1M), Samsung (например, Samsung SGH-D807), некоторые аппараты от Nokia (например, Nokia 6682), RIM Blackberry 8800, Palm Treo 700 и другие аппараты.


Samsung SGH-D807


Palm Treo 700

Но и использование речевых технологий для синтеза и распознавания речи – это ещё далеко не всё.

Технологии безопасности

Речь каждого из нас имеет массу особенностей, в результате найди двух человек, обладающих одинаковым голосом, довольно сложно. Поэтому речь, в частности, ключевое слово, произнесённое человеком, можно использовать как пароль – на этой идее основаны голосовые системы защиты информации.

Так же может быть организована биометрическая система голосовой идентификации пользователей. В такой системе голос человека будет служить чем-то вроде отпечатка пальца для идентификации его личности. В некоторых моделях мобильных телефонов можно встретить сканеры отпечатков пальцев. Несложно предположить, что с развитием голосовой идентификации телефоны обзаведутся голосовыми «замками», которые может открыть лишь пользователь.

Как работают речевые технологии?

В основе речевых технологий могут лежать самые разные алгоритмы. Например, наиболее распространена так называемые скрытые модели Маркова (hidden Markov Model, HMM). HMM – это статистическая модель, которая может работать с так называемыми процессами Маркова – эти процессы (человеческая речь в том числе) имеют параметры, которые можно наблюдать, и скрытые параметры, которые можно определить на основе наблюдаемых параметров. После этого полученные параметры анализируются, обрабатываются, в итоге из человеческой речи получается текст.

В последнее время наряду с HMM серьёзное распространение получили нейросетевые алгоритмы. Нейронные сети ещё называют системами искусственного интеллекта. Они отлично показывают себя при распознавании образов и других подобных задачах.

Простейшая нейронная сеть состоит из нескольких входов, на которые подаются входные данные, слоя нейронов, которые обрабатывают данные, и одного или нескольких выходов, на которые поступают результаты обработки сетью входных значений. Один из этапов работы нейронной сети – обучение – заключается в том, что на вход сети подаётся какой-то сигнал, после чего выходное значение сравнивается с тем, что должно быть на выходе на самом деле, и в зависимости от отклонения реального выходного значения от требуемого, производится настройка сети. Настроенная сеть способна распознавать даже такие сигналы, которые не полностью соответствуют эталонным, то есть тем, которые использовались при обучении. Это открывает огромные возможности по использованию нейросетей при распознавании реальных сигналов – ведь человек может говорить с разной интонацией, громкостью, на речь могут накладываться помехи и так далее, но правильно настроенная сеть способна правильно распознать голос даже среди помех.

Ещё один популярный метод – так называемый метод динамичного искажения (Dynamic Time Warping). Этот метод позволяет приводить к сравнимому виду образцы речи, имеющие различные характеристики.

Практика показывает, что наилучшие результаты имеют комбинированные системы, в которых сочетаются сильные стороны различных методов распознавания речи.

Выводы

Сегодня практически каждый мало-мальски серьёзный сотовый телефон оснащают голосовыми функциями. Можно предположить, что в недалёком будущем популярность голосовых возможностей среди пользователей возрастёт. Всё же, разговаривать с телефоном – это очень удобно, главное, чтобы аппаратик точно понимал, что же вы от него хотите. А успехи в разработке мобильных голосовых приложений позволяют говорить о том, что до полного взаимопонимания телефона и человека осталось ждать уже совсем недолго.


©






Рекомендуемый контент




Copyright © 2010-2017 housea.ru. Контакты: info@housea.ru При использовании материалов веб-сайта Домашнее Радио, гиперссылка на источник обязательна.