Механизм распознавания речи не распознает речь. Задача распознавания речи пока не решена Микрофон не распознает речь

28.03.2024

Функции распознавания текста и речи, на мой взгляд одни из самых удобных специальных возможностей Windows 8.1. И не только удобных, но и легких в настройках. Вообще-то Windows 8.1 распознает рукописный текст довольно хорошо и с настройками по умолчанию, но, если вас что-то не устраивает, можно провести и некоторое дополнительное обучение.

Откройте опции раздела «Язык » на панели управления, выделите язык, который вы хотите обучить, и щелкните по ссылке «Параметры » с правой от него стороны.

Появится учебное окно. Здесь можно выбрать нужное действие: переобучить Windows, если она делает конкретные ошибки распознавания текста или обучить именно своему почерку. Отметьте, что вторая опция может потратить много времени на обучение.

Распознавание речи в Windows 8.1.

Windows 8.1 позволяет Вам управлять своим ПК голосом, используя для этого встроенный в планшет, ноутбук, или ультрабук микрофон, или внешнюю гарнитуру. Доступ к опции распознавания речи можно получить на стартовом экране, прописав в строку поиска словосочетание распознавание речи, где вас спросят, какое аудио устройство вы хотите использовать.

Дальше вам зададут серию вопросов, после которых предложат ознакомится с обучающим руководством. Выполнение шагов из этого руководства значительно облегчает обучение Windows. Лучше потратить некоторое время и обучить Windows 8.1 распознавать конкретно вашу речь.

Вам предложат просмотреть справку, распечатка которой может быть очень полезна для запоминания различных голосовых команд. Во время работы, распознаватель речи плавает на рабочем столе и может быть закреплен в верхней или нижней части экрана.

В принципе программа распознавания речи в Windows 8.1 работает превосходно.

Получить доступ ко всем средствам управления устройства распознавания речи достаточно легко, просто щелкните правой кнопкой по его окну.

Там вы увидите опции для продолжения обучения устройства, конфигурирования как его, так и вашего микрофона.

Основные средства управления распознаванием речи:

  • Запускать по названию программы, например, слова Калькулятор, Word или Excel, запускают соответствующую программу
  • Переключать по названию программы, переключает на программу, если она уже запущена.
  • Вы можете управлять программами имеющими выпадающие меню, говоря название меню и затем название нужной опции. Эта функция также работает на ленточных элементах управления в Windows 8.1, Microsoft Office, и других использующих их программах.
  • Показывать номера, выводит на экран наложенные на средства управления номера, которые в дальнейшем можно называть для их активации.
  • На веб-странице можно перейти по ссылке, просто назвав ее; например, связаться с нами.
  • Можно активировать щелчок по элементу, говоря двойной щелчок или альтернативно щелчок правой кнопкой по определенному элементу; например, корзина двойной щелчок.
  • Начать прослушивание/остановить, включает или выключает систему распознавания речи.
  • Что я могу сказать? Выведет на экран справку.
  • Показать речевые опции, выводит на экран список опций для речевого устройства распознавания; также доступно щелчком правой кнопкой.
  • Показать/скрыть распознавание речи, устройство распознавания речи будет минимизироваться в системный трей или возвращаться на рабочий стол.

Если устройство речевого распознавания не распознает что-то, оно выводит на экран «Панель альтернатив », где содержатся лучшие предположения сказанного. Можно сделать выбор из них, сказав для этого номер слева от правильного элемента. Это также поможет обучать системы распознавания речи Windows 8.1.

Используя функции распознавания текста и речи вы на много облегчите вашу работу, сделав ее выполнение более удобным и быстрым. Например, функция рукописного текста позволяет вводить текст от руки, что очень удобно на мобильных устройствах. А распознавания речи, управлять ПК голосом.

Управление с помощью сенсорного экрана - это уже стандарт. Новейшие системы, такие как Windows 8 «понимают» голосовые команды.Распознавание речи должно привести к тому, что наша связь с компьютером будет еще проще, интуитивнее и… естественнее. Я расскажу как это выглядит на сегодняшний момент.

НЕМНОГО ИСТОРИИ - КАК РАЗВИВАЛОСЬ ОБЩЕНИЕ С МАШИНОЙ

Способы общения с компьютером развивались на протяжении многих лет. Первым интерфейсом, через который человек мог давать команды были перфокарты, которые восходят к 1832 году. Они использовались в машинах для производства ткани. Клавиатуру же начали использовать в 1960 году. Два десятилетия спустя присоединилась стандартная мышь и используется по сей день. Хотя мышь поделилась полномочиями с трекпадом, но она все еще самый популярный вид управления. Благодаря смарфонам и планшетам стал очень популярным сенсорный интерфейс и жесты, которые используются, в частности,для управление Xbox 360 Kinect. После сенсорных экранов и жестов, идет голосовое управление, но это решение до сих пор было так слаборазвито, что порой о ней и не услышишь.

НАСТРОЙКА РАСПОЗНАВАНИЯ РЕЧИ В WINDOWS 8

К сожалению, голосовое управление пока не доступно на русском языке. Поддерживаются пока английский, французский, немецкий, японский, корейский, китайсий и испанский языки. Microsoft решила сосредоточиться на крупнейших и наиболее развитых странах, но не исключено, что в течение некоторого времени он добавит эту функции и для нашей страны. Если попробовать запустить, вот так ругается

Если вы все еще хотите протестировать это решение, необходимо настроить систему(изменить язык) и выучить пару слов на английском. Чтобы сделать это, необходимо перейти в панель управления, и выбрать пункт Язык. Если у вас нет другого языка, кроме русского, необходимо нажать кнопку «Добавить язык», а затем выбрать один из поддерживаемых языков. В нашем случае это «Английский (США)». Видим, что доступна только раскладка на этом языке, два раза кликаем, пойдет проверка доступности языка для интерфейса, после проверки нажимаем «Загрузить и установить языковой пакет», и пойдет процесс, терпеливо ждем когда загрузится. Как только этот процесс завершится, установите английский языком по умолчанию

Теперь нужно перейти на начальный экран Windows 8 (плиточный), в поиск ввести «Windows Speech Recognition» и нажать Enter.

Таким образом, вы можете запустить инструмент распознавания голоса. При первом запуске он предложит настроить микрофон, после выбора, что нибудь скажите, чтобы проверить.

Далее предложить пройти обучающие уроки. Они длятся до 15-20 минут, но очень полезны и содержат основные сведения об использовании функций. Но если вы в английском не сильны, я думаю не стоит тратить время, трудно будет что-либо разобрать, сразу в бой

КАК РАБОТАТЬ

Для того чтобы компьютер начал распознавать вашу речь необходимо сказать «start listening» (что означает начать слушать), или нажмите кнопку микрофона для запуска режима прослушивания. Теперь можно открыть приложение или просто диктовать слова в текстовый редактор, строку браузера или поиска

ЧТО МЫ МОЖЕМ ДЕЛАТЬ

В принципе возможности огромны, кроме стандартных слов можно создавать свои команды. Основные возможности приведены в таблице

Действие Что сказать
Выберите любой элемент по его имени Click File,Start,View
Выберите любой элемент или значок Click Recycle Bin,Click Computer,Click(название файла)
Дважды нажмите или дважды щелкните любой элемент Double-clickRecycle Bin,Double-click Computer
Переключение между открытыми приложениями Switch to Paint,Switch to WordPad

Прокрутка

Scroll up; Scroll down;
Scroll left; Scroll right

Включить новый пункт или новую строку в документе

New paragraph; New line

Выберите слово в документе

Корректировка слова

Correct word

Выберите и удалите определенные слова

Показать перечень применимых команд

Refresh speech commands

Включите режим прослушивания

Отключите режим прослушивания

Свернуть микрофон

Minimize speech recognition

Посмотреть Windows, справки и поддержку

How do I do something?
Например:How do I install a printer?

Если вы не знаете, как произносится фраза, я предлагаю вам использовать Google Translate или http://училочка.рф (этого сайта он лучше понимал)

Было у меня желание записать свои команды состоящих из простых буржуйских слов. Которые я могу выговорить. Так он мне и не дал этого сделать, не сумел запустить редактор команд. В итоге он отлично понимал мое произношение слов One, Two и Open. Этим набором можно запустить приложение по номеру в начальном экране. Сначала сказать номер, потом сказать OPEN. Не густо конечно, но я считаю эксперимент удавшимся. Было бы не плохо, если бы Microsoft ввел русский язык, хорошая замена пульту дистанционного управления.

Управление с помощью сенсорного экрана — это уже стандарт. Новейшие системы, такие как Windows 8 «понимают» голосовые команды.Распознавание речи должно привести к тому, что наша связь с компьютером будет еще проще, интуитивнее и… естественнее. Я расскажу как это выглядит на сегодняшний момент.

Немного истории — как развивалось общение с машиной

Способы общения с компьютером развивались на протяжении многих лет. Первым интерфейсом, через который человек мог давать команды были перфокарты, которые восходят к 1832 году. Они использовались в машинах для производства ткани. Клавиатуру же начали использовать в 1960 году. Два десятилетия спустя присоединилась стандартная мышь и используется по сей день. Хотя мышь поделилась полномочиями с трекпадом, но она все еще самый популярный вид управления. Благодаря смарфонам и планшетам стал очень популярным сенсорный интерфейс и жесты, которые используются, в частности,для управление Xbox 360 Kinect. После сенсорных экранов и жестов, идет голосовое управление, но это решение до сих пор было так слаборазвито, что порой о ней и не услышишь.

Настройка распознавания речи в Windows 8

К сожалению, голосовое управление пока не доступно на русском языке. Поддерживаются пока английский, французский, немецкий, японский, корейский, китайсий и испанский языки. Microsoft решила сосредоточиться на крупнейших и наиболее развитых странах, но не исключено, что в течение некоторого времени он добавит эту функции и для нашей страны. Если попробовать запустить, вот так ругается

Если вы все еще хотите протестировать это решение, необходимо настроить систему(изменить язык) и выучить пару слов на английском. Чтобы сделать это, необходимо перейти в панель управления, и выбрать пункт Язык. Если у вас нет другого языка, кроме русского, необходимо нажать кнопку «Добавить язык», а затем выбрать один из поддерживаемых языков. В нашем случае это «Английский (США)». Видим, что доступна только раскладка на этом языке, два раза кликаем, пойдет проверка доступности языка для интерфейса, после проверки нажимаем «Загрузить и установить языковой пакет», и пойдет процесс, терпеливо ждем когда загрузится. Как только этот процесс завершится, установите английский языком по умолчанию

Теперь нужно перейти на начальный экран Windows 8 (плиточный), в поиск ввести «Windows Speech Recognition» и нажать Enter.

Таким образом, вы можете запустить инструмент распознавания голоса. При первом запуске он предложит настроить микрофон, после выбора, что нибудь скажите, чтобы проверить.

Далее предложить пройти обучающие уроки. Они длятся до 15-20 минут, но очень полезны и содержат основные сведения об использовании функций. Но если вы в английском не сильны, я думаю не стоит тратить время, трудно будет что-либо разобрать, сразу в бой

Как работать

Для того чтобы компьютер начал распознавать вашу речь необходимо сказать «start listening» (что означает начать слушать), или нажмите кнопку микрофона для запуска режима прослушивания. Теперь можно открыть приложение или просто диктовать слова в текстовый редактор, строку браузера или поиска

Что мы можем делать

В принципе возможности огромны, кроме стандартных слов можно создавать свои команды. Основные возможности приведены в таблице

Действие Что сказать
Выберите любой элемент по его имени Click File,Start,View
Выберите любой элемент или значок Click Recycle Bin,Click Computer,Click(название файла)
Дважды нажмите или дважды щелкните любой элемент Double-clickRecycle Bin,Double-click Computer
Переключение между открытыми приложениями Switch to Paint,Switch to WordPad

Прокрутка

Scroll up; Scroll down;
Scroll left; Scroll right

Включить новый пункт или новую строку в документе

New paragraph; New line

Выберите слово в документе

Корректировка слова

Correct word

Выберите и удалите определенные слова

Показать перечень применимых команд

Refresh speech commands

Включите режим прослушивания

Отключите режим прослушивания

Свернуть микрофон

Minimize speech recognition

Посмотреть Windows, справки и поддержку

How do I do something?
Например:How do I install a printer?

Если вы не знаете, как произносится фраза, я предлагаю вам использовать Google Translate или http://училочка.рф (этого сайта он лучше понимал)

Было у меня желание записать свои команды состоящих из простых буржуйских слов. Которые я могу выговорить. Так он мне и не дал этого сделать, не сумел запустить редактор команд. В итоге он отлично понимал мое произношение слов One, Two и Open. Этим набором можно запустить приложение по номеру в начальном экране. Сначала сказать номер, потом сказать OPEN. Не густо конечно, но я считаю эксперимент удавшимся. Было бы не плохо, если бы Microsoft ввел русский язык, хорошая замена пульту дистанционного управления.

Так как я видел мой первый Sci-Fi кино фильм, я хотел бы иметь технологии которые они используют. Я до сих пор не видел летающих кораблей в таком масштабе, телепортация устройств, роботов, которые могут танцевать или других подобных устройств. Тем не менее, я нашел кусок этой мечты включенной в приложение Windows Vista - Windows Speech Recognition - Распознавание речи.

Этот инструмент пытается понять, что вы говорите и преобразует произнесенные слова в машиночитаемый ввод, такой как нажатие клавиш или Windows команды, ограничивая тем самым необходимость использования мыши и клавиатуры. В этом уроке я покажу вам, как настроить Windows Speech Recognition - Распознавание речи Windows , и научу как использовать её и дать вам некоторые сведения об общих вопросах по этому приложению. Для того чтобы использовать Windows Speech Recognition – Распознавание речи Windows вам нужен микрофон. Чтобы узнать, как настроить его, читайте статью о том, как установить и настроить микрофон в Vista.

Как установить Windows Speech Recognition

После того как вы установили свой микрофон, вfv нужно тренироваться c Распознаванием речи в Windows , чтобы понять ваш голос. Чтобы сделать это, откройте окно Control Panel Панель управления и нажмите на – Получить доступ.

Если вы используете классическое управление Группами, перейдите в Control Panel -> Ease of Access Center – Панель управления-> Центр Специальных возможностей. Когда вы находитесь в окне Постой доступ, нажмите на Speech Recognition Options Функции распознавания речи.

В окне Speech Recognition Options Функции распознавания речи нажмите на Start Speech Recognition – Начать Распознавание речи.

Появится Мастер установки. Чтобы начать настройку, нажмите на кнопку Next – Следующий.

Выберите устройства микрофон, которые в настоящее время используются и нажмите на кнопку Next – Следующая.

Если следовать данным указаниям, они дадут вам лучший результат. В моем случае, так как я выбрал микрофон с гарнитурой, указания были, как показано ниже. После прочтения и после данной консультации, нажмите кнопку Next – Следующая.

Примечание: Если вы случайно выбрали неверное устройство или вы просто хотите, чтобы вернуться к предыдущей странице Настройка, нажмите на синюю стрелку Back – назад в левом верхнем углу окна мастера установки.

Прочитайте текст вслух, после чего нажмите кнопку Next- Следующая.

Эта процедура, может быть немного с ошибками, поэтому вы можете повторить её несколько раз, и отрегулировать положение микрофона и его расстояние от динамиков.

Примечание: Если вы уже пытались несколько раз сделать настройки, и микрофон еще не работает, закройте мастер и проверьте статю о том, как установить и настроить Микрофон. Когда микрофон установлен правильно, повторите процедуру, описанную в этой статье.

Если вы читали текст и нажали кнопку Next – Далее , мастер скажет, что микрофон был установлен. Нажмите на кнопку Next - Готово .

После настройки микрофона, мастер попытается повысить точность распознавания речи. Мастер установки спросит вашего разрешения, чтобы приложение усовершенствовалось, используя тексты из документов или по почте. После того как вы выберите нужный вариант, щелкните Next - Далее .

В настоящее время мастер даст вам ссылку на карту речи, которая содержит список команд компьютера, на которые он будет отвечать. Если вы нажмете на View Reference Sheet Показать лист ссылок , Вы можете видеть команды, а также распечатать их.

Когда закончите, нажмите кнопку Next - Далее .

Примечание: лист ссылок можно прочитать и распечатать в любое дополнительное время, просто зайдите в Access -> Speech Recognition Options -> Open the Speech Reference Card - Панель управления-> Специальные возможности-> Параметры распознавания речи-> открыть Карту ссылок речи .

Можно сделать приложение,которое запускается каждый раз при запуске Windows Vista , проверяя вариант Run Speech Recognition at startup – Выполнить Распознавание речи при запуске ” . Если вы оставите его без внимания, приложение нужно будет запускать каждый раз в ручную, когда вы захотите его использовать.

Узнайте, как использовать Windows Speech Recognition

Как только вы закончите с настройкой, вам будет предложено пройти урок и научиться его использовать. Нажмите на вход для входа в Учебник.

ВАЖНО: Я не могу дать вам указания о содержании учебника. Я считаю, что руководство хорошо написано и содержит всю необходимую информацию. Пожалуйста, найдите время 10-15 минут, чтобы прочитать это. Хотя это может показаться на первый взгляд разочарованием,но в итоге, вы будете довольны результатами.

Если вы закончили урок, и вы думаете, что Распознавание речи Windows не слышит голосовые команды достаточно хорошо, Вы можете взять тот же учебник снова. Для этого перейдите в параметры Windows Speech Recognition Распознавание речи и нажмите Take Speech Tutorial Возьмите Учебник речи .
Если вы прочитали учебник, но вы все ещё чувствуете необходимость улучшения методов в работе с Распознаванием речи в Windows , вы можете сделать еще один учебник на основе чтения текстов. Чтобы открыть и использовать текстовый учебник, нажмите Train you computer to better understand you – Тренировка вашего компьютера, чтобы лучше понять вас ” находится в окне параметры Speech Recognition Options – Распознавание речи.

Рекомендации : Пройдите урокиTrain your computer to better understand you – Обучение компьютеру, чтобы лучше его понять “ несколько раз. Даже если вы делаете ошибки первые несколько раз, менее чем за 3 дня и пару часов в день, вы будете удивляться, как вы могли жить без этого приложения. Вместо того, чтобы закрыть приложение, просто нажмите остановить прослушивание или нажмите с клавиатуры Ctrl + Windows .

Известные проблемы

Некоторые приложения могут не работать с Распознаванием речи в Windows . Это потому, что приложения должны иметь поддержку текстовых служб. Структура была построена Microsoft, чтобы включить дополнительный ввод текста, распознавание речи и поддержку в приложениях. Таким образом, если разработчики не включили Text Services Framework , когда они построили их применения, Распознавание речи в Windows не будет работать должным образом с их применением.

Распознавание речи в Windows не работает, когда появится предупреждение UAC (User Account Control) . В таких случаях с помощью мыши или клавиатуры, выберите опцию UAC которую вы хотите.

  • Перевод

С тех пор, как на сцену распознавания речи вышло глубинное обучение, количество ошибок в распознавании слов кардинально уменьшилось. Но, несмотря на все те статьи, которые вы могли читать, у нас до сих пор нет распознавания речи человеческого уровня. У распознавателей речи много видов отказов. Для дальнейшего улучшения их нужно выделить и постараться устранить. Это единственный способ перейти от распознавания, подходящего для некоторых людей большую часть времени, к распознаванию, работающему для всех людей всё время.

Улучшения в количестве ошибочно распознанных слов. Тестовый голосовой набор был собран на телефонном коммутаторе в 2000 году из 40 случайных разговоров двух человек, чей родной язык – английский

Говорить о том, что мы достигли уровня человека в распознавании речи в разговорах, основываясь лишь на наборе разговоров с телефонного коммутатора, это всё равно, что утверждать, что робомобиль водит не хуже человека, протестировав его в единственном городе в солнечный день без всякого уличного движения. Произошедшие в деле распознавания речи в последнее время сдвиги удивительны. Но заявления по поводу распознавания речи на уровне человека слишком смелы. Вот несколько областей, в которых всё ещё необходимо добиваться улучшений.

Акценты и шум

Один из очевидных недостатков распознавания речи – обработка акцентов и фонового шума. Основная причина этого в том, что большая часть тренировочных данных состоит из американского говора с высоким отношением сигнала к шуму. К примеру, в наборе разговоров с телефонного коммутатора есть только беседы людей, чей родной язык – английский (по большей части, это американцы) с небольшим фоновым шумом.

Но увеличение тренировочных данных само по себе, скорее всего, не решит эту проблему. Существует множество языков, содержащих много диалектов и акцентов. Нереально собрать размеченные данные для всех случаев. Создание высококачественного распознавателя речи только для американского английского требует до 5 тысяч часов аудиозаписей, переведённых в текст.


Сравнение людей, занимающихся преобразованием речи в текст, с Baidu’s Deep Speech 2 на разных типах речи. Люди хуже справляются с распознаванием неамериканских акцентов – возможно, из-за обилия американцев среди них. Думаю, что люди, выросшие в определённом регионе, с гораздо меньшим количеством ошибок справились бы с распознаванием акцента этого региона.

При наличии фонового шума в движущейся машине отношение сигнал/шум может достигать величин в -5 дБ. Люди легко справляются с распознаванием речи другого человека в таких условиях. Автоматические распознаватели гораздо быстрее ухудшают показатели с увеличением шума. На графике видно, как сильно увеличивается отрыв людей при увеличении шума (при низких значениях SNR, signal-to-noise ratio)

Семантические ошибки

Часто количество ошибочно распознанных слов не является самоцелью системы распознавания речи. Мы нацеливаемся на количество семантических ошибок. Это та доля выражений, у которых мы неправильно распознаём смысл.

Пример семантической ошибки – когда кто-то предлагает «let’s meet up Tuesday» [давайте встретимся во вторник] а распознаватель выдаёт «let’s meet up today» [давайте встретимся сегодня]. Бывают и ошибки в словах без семантических ошибок. Если распознаватель не распознал «up» и выдал “let’s meet Tuesday”, семантика предложения не изменилась.

Нам нужно аккуратно использовать количество ошибочно распознанных слов в качестве критерия. Для иллюстрации этого я дам вам пример с наихудшим из возможных случаев. 5% ошибок в словах соответствует одному пропущенному слову из 20. Если в каждом предложении 20 слов (что для английского языка вполне в рамках среднего), то количество неправильно распознанных предложений приближается к 100%. Можно надеяться на то, что неправильно распознанные слова не меняют семантический смысл предложений. А иначе распознаватель может неправильно расшифровать каждое предложение даже с 5% количеством ошибочно распознанных слов.

Сравнивая модели с людьми важно проверять суть ошибок и следить не только за количеством неправильно распознанных слов. По моему опыту, люди, транслирующие речь в текст, делают меньше ошибок и они не такие серьёзные, как у компьютеров.

Исследователи из Microsoft недавно сравнили ошибки людей и компьютерных распознавателей схожего уровня. Одно из найденных различий – модель путает “uh” [э-э-э…] с “uh huh” [ага] гораздо чаще людей. У двух этих терминов очень разная семантика: “uh” заполняет паузы, а “uh huh” обозначает подтверждение со стороны слушателя. Также у моделей и людей обнаружили много ошибок совпадающих типов.

Много голосов в одном канале

Распознавать записанные телефонные разговоры проще ещё и потому, что каждого говорящего записывали на отдельный микрофон. Там не происходит наложения нескольких голосов в одном аудиоканале. Люди же могут понимать нескольких ораторов, иногда говорящих одновременно.

Хороший распознаватель речи должен уметь разделять аудиопоток на сегменты в зависимости от говорящего (подвергать его диаризации). Также он должен извлечь смысл из аудиозаписи с двумя накладывающимися друг на друга голосами (разделение источников). Это необходимо делать без микрофона, расположенного прямо у рта каждого из спикеров, то есть так, чтобы распознаватель работал хорошо, будучи размещённым в произвольном месте.

Качество записи

Акценты и фоновый шум – всего два фактора, к которым распознаватель речи должен быть устойчив. Вот ещё несколько:

Реверберация в разных акустических условиях.
Артефакты, связанные с оборудованием.
Артефакты кодека, используемого для записи и сжатия сигнала.
Частота дискретизации.
Возраст говорящего.

Большинство людей не отличат на слух записей из mp3 и wav-файлов. Прежде чем заявлять о показателях, сравнимых с человеческими, распознаватели должны стать устойчивыми и к перечисленным источникам вариаций.

Контекст

Можно заметить, что количество ошибок, которые люди делают на тестах в записях с телефонной станции, довольно высоко. Если бы вы беседовали с другом, который не понимал бы 1 слово из 20, вам бы было очень сложно общаться.

Одна из причин этого – распознавание без учёта контекста. В реальной жизни мы используем множество разных дополнительных признаков, помогающих нам понимать, что говорит другой человек. Некоторые примеры контекста, используемые людьми, и игнорируемые распознавателями речи:

История беседы и обсуждаемая тема.
Визуальные подсказки о говорящем – выражения лица, движение губ.
Совокупность знаний о человеке, с которым мы говорим.

Сейчас у распознавателя речи в Android есть список ваших контактов, поэтому он умеет распознавать имена ваших друзей . Голосовой поиск на картах использует геолокацию , чтобы сузить количество возможных вариантов, до которых вы хотите построить маршрут.

Точность систем распознавания увеличивается с включением в данные подобных сигналов. Но мы только начинаем углубляться в тип контекста, который мы могли бы включить в обработку и в методы его использования.

Развёртывание

Последние достижения в распознавании разговорной речи невозможно развернуть. Представляя себе развёртывание алгоритма распознавания речи, нужно помнить о задержках и вычислительных мощностях. Эти параметры связаны, поскольку алгоритмы, увеличивающие требования к мощности, увеличивают и задержку. Но для простоты обсудим их по отдельности.

Задержка: время от окончания речи пользователя и до окончания получения транскрипции. Небольшая задержка – типичное требование для распознавания. Она сильно влияет на ощущения пользователя от работы с продуктом. Часто встречается ограничение в десятки миллисекунд. Это может показаться слишком строгим, но вспомните, что выдача расшифровки - это обычно первый шаг в серии сложных вычислений. К примеру, в случае голосового интернет-поиска после распознавания речи нужно ещё успеть выполнить поиск.

Двунаправленные рекуррентные слои – типичный пример улучшения, ухудшающего ситуацию с задержкой. Все последние результаты расшифровки высокого качества получаются с их помощью. Проблема только в том, что мы не можем ничего подсчитывать после прохода первого двунаправленного слоя до тех пор, пока человек не закончил говорить. Поэтому задержка увеличивается с длиной предложения.


Слева: прямая рекуррентность позволяет начинать расшифровку сразу. Справа: двунаправленная рекуррентность требует подождать окончания речи перед тем, как начинать расшифровку.

Хороший способ эффективно включать будущую информацию в распознавание речи пока ещё ищут.

Вычислительная мощность: на этот параметр влияют экономические ограничения. Необходимо учитывать стоимость банкета для каждого улучшения точности распознавателя. Если улучшение не достигает экономического порога, развернуть его не получится.

Классический пример постоянного улучшения, которое никогда не развёртывают – совместное глубинное обучение . Уменьшение количества ошибок на 1-2% редко оправдывает увеличение вычислительных мощностей в 2-8 раз. Современные модели рекуррентных сетей тоже попадают в эту категорию, поскольку их очень невыгодно использовать в поиску по пучку траекторий, хотя, думаю, в будущем ситуация поменяется.

Хочу уточнить – я не говорю, что улучшение точности распознавания с серьёзным увеличением вычислительных затрат бесполезно. Мы уже видели, как в прошлом работает принцип «сначала медленно, но точно, а затем быстро». Смысл в том, что до тех пор, пока улучшение не станет достаточно быстрым, использовать его нельзя.

В следующие пять лет

В области распознавания речи остаётся ещё немало нерешённых и сложных проблем. Среди них:

Расширение возможностей новых систем хранения данных, распознавания акцентов, речи на фоне сильного шума.
Включение контекста в процесс распознавания.
Диаризация и разделение источников.
Количество семантических ошибок и инновационные методы оценки распознавателей.
Очень малая задержка.

С нетерпением жду прогресса, который будет достигнут в следующие пять лет по этим и другим фронтам.

Теги: Добавить метки

Похожие статьи