- Что такое голосовой набор текста?
- Кому он пригодится?
- Использование Яндекс Переводчика
- Виды программ и сайтов набора текста голосом.
- Совместная работа с компьютером
- Microsoft Excel
- Speechnotes
- Обмен данными
- Веб-сервисы и приложения для голосового ввода
- Google Docs
- Speechpad
- VoiceNote
- TalkTyper
- Voice Notepad
- Краткий обзор основных сервисов транскрибации
- а. Speechpad
- б. Войснот II
- в. Voice Notepad
- г. August4u
- д.Talktyper
- е. Голосовой ввод Гугл Документы
- Ж. Голосовой ввод текста в Ворд
- З. Программа MSpeech
- И. Голосовой набор текста на Андроид
- Проверка и настройка микрофона
- Расширение для браузера VoiceNote 2
- 4. «Диктовка» на устройствах Apple
- Врачам тоже нужно учиться работать с голосовым вводом
- Горыныч ПРОФ 3.0
- Системные требования
- Работа с программой
- Настройка микрофона
- Режим команд
- Недостатки таких сервисов.
- Способ №3. Convert.town — простой инструмент для конвертации речи в текст
Что такое голосовой набор текста?
Мы привыкли, что если вам нужно что-то набрать на компьютере, без клавиатуры не обойтись. Что делать, если вам нужно быстро напечатать? Тогда вы можете просто научиться этому. Сейчас существует множество платных и бесплатных сенсорных симуляторов. Да, есть курсы на эту тему. Было бы желание и время… И время… Если желание обычно нормальное, то со временем оно часто не очень. На то, чтобы действительно освоиться с печатью, уходит около месяца. А времени обычно нет. Как всегда, вам нужно уметь быстро печатать «всегда». И еще. Для быстрого набора часто приходится покупать специальную клавиатуру. Не все «штатные» подходят для этого бизнеса. Ну это кстати.
ХОРОШО. Если для того, чтобы научиться быстро печатать, требуется много времени, существуют ли другие технические способы ускорить этот процесс? Ведь на дворе 21 век! Конечно, это является. Если вы умеете быстро писать обычной ручкой, то есть смысл задуматься о покупке «умной» ручки. Что это такое? Это умная электронная ручка. Писать можно как в специальном блокноте, так и даже на обычной бумаге, а умная ручка сразу запоминает каракули в памяти. И переводит их в электронный текст. А затем вы можете загрузить готовую статью в любой текстовый редактор. Немного «подправить» его… И готово! Кстати, стоят такие «чудо-приборы» не очень дорого. В пределах 10 000 – 15 000 рублей (на момент написания статьи).
Если вы не любите печатать быстро или не умеете, то есть только один способ. Наймите секретаря. Голосовой ввод. Онлайн или оффлайн.
Что такое голосовой ввод? Вкратце это выглядит так. Вы просто говорите текст в микрофон. Не забудьте запустить специальную программу, открыв сайт или приложение на смартфоне. Ваши слова сразу отображаются в виде текста в окне программы. Затем вы можете отредактировать этот текст и сразу же скопировать его в текстовые редакторы. Кстати, в некоторых сервисах можно не только самому разговаривать, но и подключаться, например, к YouTube. Или скачать аудиофайл. И сервис перевода речи в текст тоже все прочитает и расшифрует.
Кстати, научный перевод голоса в текст называется транскрипцией.
Кому он пригодится?
На самом деле голосовой ввод может быть полезен для многих людей. Например:
- Копирайтеры и рерайтеры.
- Авторам Яндекс Дзен
- Фрилансеры, которые расшифровывают текст
- Для журналистов
- Студенты
- Авторы
- Люди с ограниченными возможностями
- Авторы блога
- Менеджеры, чтобы записывать умные мысли
- Секретари записывают умные мысли о менеджерах
Я перечислил лишь некоторые из многих возможных вариантов использования. То есть эти сервисы и программы будут полезны всем, кому нужно много печатать, но не было времени освоить (или было лень) методы быстрой печати.
Это значит, что услуги спичрайтинга или другими словами услуги транскрипции в первую очередь нужны всем тем, кому нужно много писать, но не всегда есть возможность или желание для этого
Кстати, есть еще один неочевидный плюс использования таких сервисов. Если автор не очень осведомлен, использование голосового набора частично решит эту проблему. В любом случае слова будут написаны правильно. Это не относится к знакам препинания. Тут самому автору приходится выкручиваться
Использование Яндекс Переводчика
Есть еще один более простой способ ввода текста с озвучкой онлайн — это Яндекс Переводчик. Он доступен во всех браузерах и на всех устройствах.
- Перейдите по ссылке https://translate.yandex.ua/?ui=ru.
- Выберите значок микрофона на панели инструментов переводчика и начните диктовать свою речь.
- Чтобы отображался текст с наименьшим количеством ошибок, включите здесь функцию автозамены.
- После этого вы также можете скопировать результат и вставить его в документ Word.
Этот способ позволит не только передавать информацию голосом в редакторе Word, но и на лету переводить все на один из 95 языков. И вам не нужно устанавливать дополнительные программы или плагины. Нет необходимости регистрироваться, чтобы использовать его. Этот инструмент всегда с вами. Единственное, что вам нужно, чтобы получить доступ к Интернету.
Читайте также: Основатель FoxmindEd рассказывает, как разработчику стать архитектором в IT
Виды программ и сайтов набора текста голосом.
В целом можно выделить следующие виды онлайн-сервисов озвучивания:
- Веб-сайт то есть онлайн
- Приложение для смартфона
- Программа для загрузки на компьютер
С онлайн-сервисами все понятно. Обычно это веб-сайт, который открывается в Интернете, и вы начинаете читать текст там. И этот сервис транскрибирует, то есть переводит голос в текст.
Ряд веб-приложений являются приложениями для веб-браузеров. Особенно для Гугл Хром. Они устанавливаются на соответствующий браузер и поэтому работают только в нем.
Также есть отдельные приложения для смартфонов. Причем он есть и для Android, и для iOS, то есть для iPhone.
Ну а при желании можно найти и программы голосового набора для компьютера. Установите их на рабочий стол или ноутбук и пользуйтесь ими даже при отсутствии интернета. Это плюс таких программ.
Совместная работа с компьютером
Для использования голосового набора на ноутбуке или стационарном ПК необходимо подключить микрофон и установить десктопные версии мессенджера. В этом случае можно будет диктовать информацию в микрофон, но текст будет отображаться в виде звуковых файлов.
Для создания текста голосом можно использовать приложение MSpeech Voice Notepad (требуется установка на ПК) или веб-сервис Speechpad. После диктовки информации в микрофон расшифрованный текст отображается в окне, откуда его можно скопировать и вставить в текст сообщения мессенджера.
При работе с документами в Google.doc (в облаке) вы открываете документ на двух устройствах, ПК и смартфоне. Когда вы вводите текст с помощью голоса на мобильном устройстве, изменения будут происходить синхронно на ПК.
Microsoft Excel
приемы • приемы • решения
Speechnotes
Альтернатива предыдущему приложению для мобильных устройств под управлением Android. Доступно бесплатно в App Store:
Текст редактируется автоматически, в нем расставляются знаки препинания. Отлично подходит для диктовки заметок или составления списков. В итоге текст получится очень приличного качества. Это платная премиум версия.
Обмен данными
Для приложений, которые хотят использовать настраиваемые параметры обработки ввода звука, предлагаемые HoloLens, важно понимать различные категории аудиопотоков, которые может использовать ваше приложение. Windows 10 поддерживает несколько различных категорий потоков, и HoloLens использует три из них для обеспечения настраиваемой обработки для оптимизации качества звука микрофона, предназначенного для распознавания речи, связи и других функций, которые можно использовать для захвата окружающего звука (например, «видеокамера») сценарии»).
- Категория потока AudioCategory_Communications настраивается для качества вызова и повествования и предоставляет клиенту 16 кГц, 24-битный монофонический аудиопоток голоса пользователя.
- Категория потока AudioCategory_Speech настроена для речевого движка HoloLens (Windows) и предоставляет ему 24-битный монофонический поток голоса пользователя с частотой 16 кГц. Эта категория может использоваться сторонними речевыми процессорами по мере необходимости.
- Категория потока AudioCategory_Other настроена на захват окружающего звука и предоставление клиенту 24-битного стереопотока 48 кГц.
Вся эта обработка звука выполняется с аппаратным ускорением, а это означает, что функции потребляют гораздо меньше энергии, чем если бы такая же обработка выполнялась на ЦП HoloLens. Избегайте выполнения другой обработки аудиовхода на процессоре, чтобы максимально продлить срок службы батареи системы и воспользоваться преимуществами встроенной обработки аудиовхода.
Веб-сервисы и приложения для голосового ввода
Чтобы время от времени использовать голосовой ввод, вы можете сделать это без установки специальных программ на свой компьютер. Скорее всего, вас устроят возможности веб-сервисов и расширений для браузера.
Google Docs
Простой инструмент голосового ввода доступен в Google Docs, сервисе для работы с текстовыми документами. Вам просто нужно иметь учетную запись Gmail, чтобы использовать его.
Чтобы использовать голосовой ввод в Документах Google:
- откройте страницу поисковой системы Google.
- Войдите в свою учетную запись Google или зарегистрируйте новый профиль.
- Нажмите на пунктирный квадрат, чтобы открыть меню услуг.
- Нажмите «Еще», чтобы увидеть полный список.
- Перейдите в «Документы».
- В поле «Создать документ» нажмите «Пустой файл».
На экране появится текстовый редактор Google. Чтобы включить голосовой ввод, разверните меню «Инструменты» и выберите соответствующую опцию. Слева появляется виджет с микрофоном. Выберите язык, на котором вы хотите говорить, затем щелкните значок микрофона, чтобы включить распознавание. Значок должен стать красным. Если браузер запрашивает разрешение на использование микрофона, предоставьте его.
запуск голосового ввода также доступен с помощью сочетания клавиш Ctrl+Shift+S. Функция запускается с установленным по умолчанию языком.
После настройки начните говорить — Google Docs распознает речь и превратит ее в текст. Знаки препинания и новую строку в словах произносите, окончания слов произносите четко — иначе исправлять текст придется очень долго.
Speechpad
Speechpad — это бесплатный сервис, который работает только в браузере Chrome. Выше мы описали, как настроить интеграцию с Windows. Впрочем, для ввода небольшого фрагмента текста в этом нет необходимости — веб-интерфейс для голосового блокнота вполне справится с этой задачей.
- откройте сайт Speechpad.ru.
- Прокрутите главную страницу до окна редактора.
- Выберите язык ввода.
- Нажмите кнопку «Включить запись» и разрешите использование микрофона.
- Диктовать текст.
Рядом с кнопкой «Включить запись» вы увидите окно предварительного просмотра. Он показывает, что нужно добавить в документ.
Вы можете отмечать и переходить на новую строку голосом или кнопками между полем предварительного просмотра и редактором. При наведении курсора на каждую кнопку отображается текст голосовой команды, к которой она применяется, например, «вопросительный знак» или «открывающая скобка».
Окончательный документ доступен для скачивания в формате TXT.
VoiceNote
VoiceNote — еще одна служба преобразования речи в текст, которая работает только в Google Chrome. При попытке запустить его в другом браузере появляется сообщение об ошибке.
Для голосового ввода через VoiceNote вы можете использовать Live Demo или отдельное приложение Chrome.
Как использовать VoiceNote:
- откройте редактор.
- Нажмите на значок глобуса и выберите язык ввода.
- Щелкните значок микрофона.
- Разрешить использование записывающего устройства.
- Диктовать текст.
Правила ввода здесь стандартные: знаки препинания можно зачитывать в слова, а также переводить текст на новую строку голосом. Полученный документ доступен для сохранения в формате TXT.
TalkTyper
TalkTyper — онлайн-редактор голосового ввода. Его самым большим преимуществом является поддержка 37 языков. Однако TalkTyper, как и предыдущие сервисы, работает только в Google Chrome.
Принцип ввода текста в этом редакторе ничем не отличается от других: вы указываете язык, нажимаете на значок микрофона и разрешаете его использование. Знаки препинания и новая строка произносятся в словах.
Результат обработки текста в TalkTyper можно сохранить в виде документа в формате TXT, скопировать в буфер обмена, распечатать, отправить по почте, твитнуть и перевести на другой язык.
Voice Notepad
Голосовой блокнот — еще один сервис преобразования речи в текст, который работает только в Chrome. Он поддерживает более 120 языков ввода. В остальном функционал такой же, как и у перечисленных выше сервисов: расстановка знаков препинания голосом, сохранение документа в формате TXT, копирование в буфер обмена, отправка по почте или печать и т д
Особенность онлайн-сервисов в том, что все они работают только в Google Chrome. Это связано с тем, что они основаны на лицензированной Google технологии распознавания речи. Другие браузеры не поддерживают его или поддерживают с ограничениями. Например, Speechpad можно запустить в Яндекс.Браузере, но в чужой среде он часто работает с ошибками. Так что если вы не используете Google Chrome, проще всего установить на компьютер одну из программ речевого ввода и забыть о неудобствах.
Краткий обзор основных сервисов транскрибации
Так. Давайте кратко рассмотрим эти программы.
а. Speechpad
Голосовой ввод текста или блокнот голосовых заметок. Это ссылка на приложение Google Chrome Voicepad
Кстати, можно просто зайти на указанный сайт и перевести прямо на сайте. Ну, например, если вы используете не Google Chrome, а другой браузер. Кстати, именно с помощью этого сервиса я и написал эту статью. Эта услуга в настоящее время полностью бесплатна
Из дополнительных «плюшек» этого онлайн-сервиса озвучивания:
- Интеграция с Windows или Linux. После этого вы можете вводить текст голосом в желаемой форме или области приложения для этих операционных систем. Правда, как это делается «вживую», я пока не «разведывал”.
- Возможность расшифровки прямо с YouTube или аудиоклипа. То есть можно загрузить видео или указать путь к видео и добавить… У меня получилось загрузить видео и все заработало. Но с YouTube это еще предстоит выяснить. Да в принципе он мне и не нужен. Вы можете скачать субтитры прямо с YouTube.
- Вы также можете вносить изменения и расставлять знаки препинания прямо во время голосового набора. Очень комфортно!
- Также есть функция синхронного перевода. Это означает, что вы читаете текст на одном языке, а распечатываете на другом. Но я еще не тестировал эту функцию. Попробуйте, если вам интересно!
Одним словом, мне очень понравился этот сервис! Функционал просто потрясающий! И кстати, этот сервис признал мой голос лучшим и сделал меньше всего ошибок! Так что моя оценка 10 из 10 !!!!
б. Войснот II
Это приложение для Google Chrome и отдельная страница https://voicenote.in/live/. Также бесплатное приложение.
Ничего сложного. Выберите свой язык и начните запись. Это решает редактирование. Вы можете делать заметки. Вы можете сохранить текст. В целом неплохо, но конечно функционал очень простой. Ну чуть тоньше распознал текст. Оценка 8 из 10.
в. Voice Notepad
Это страница. Вот ссылка на него https://dictation.io/speech. Тоже бесплатная услуга.
Эта услуга голосового набора мне понравилась немного больше, чем предыдущая. Как-то лаконичнее, что ли. Приятный для глаз. Хотя распознавание слов примерно такое же. Только за дизайн ставлю чуть выше. 9 из 10.
Я в основном пользуюсь услугами голосовой связи. Особенно первый. Но чтобы дать вам лучшее представление обо всех возможных вариантах, ниже я приведу ссылки еще на несколько веб-сайтов или программ. Кстати, в последнее время я тоже начал активно использовать голосовой ввод из документов Google, об этом я тоже расскажу подробнее ниже..
г. August4u
Еще один бесплатный блокнот для голосового набора. Вот ссылка https://august4u.net/?speech2text
Ничего лишнего. Просто пишешь своим голосом. И все
д.Talktyper
Бесплатный сайт. Выберите язык. Настройте подключение микрофона и вперед.. Вот ссылка https://talktyper.com/en/index.html
Здесь вам предложат различные варианты распознавания, что очень удобно, если у вас не идеальные условия для записи. Есть редактор. Есть сбережения в разных форматах. Простой, но удобный.
е. Голосовой ввод Гугл Документы
Старый добрый Гугл Документ. Естественно бесплатно. Ссылку не даю, так что сами найдете
Чтобы начать пользоваться голосовым набором, нужно зайти в панель «инструменты» и нажать там «голосовой ввод». Кстати, знаки препинания можно ставить голосом! То есть «точка», «запятая» и т.д. И они вставлены! Очень круто и полезно! Теперь я тоже постоянно пользуюсь голосовым вводом Google Doc именно из-за этой функции. Так что 10 из 10!
Ж. Голосовой ввод текста в Ворд
Если вы используете Microsoft Office и особенно Word, вы должны это знать. И есть возможность голосового ввода. Но для этого нужно скачать и установить стороннее приложение Диктат.
К сожалению, я не смог протестировать это приложение, так как на моем компьютере установлен Linux Mint. И поэтому я использую Libro Office. Так что если вы решите протестировать этот диктант, то это на ваше усмотрение и риск!
З. Программа MSpeech
Мы закончили с сайтами. Может быть, есть какие-то другие хорошие онлайн-сервисы для голосового ввода. Пришлите мне ссылку, и я расскажу вам о них. А пока даю ссылку на бесплатную программу, которую нужно скачать на свой компьютер. Вот он https://programs74.ru/mspeech.html
Функционал его достаточно обширен. Из интересного это возможность выбора источника звука, назначение горячих клавиш для быстрого редактирования, предварительное редактирование текста перед окончательным вводом в текстовом окне и т.д. Короче много чего нужно.
К сожалению, работает только под Windows. А я, как писал выше, линукс. Поэтому протестировать программу также не удалось.
Также есть платные программы для голосового ввода. Если будет желание, я о них тоже расскажу. Но бесплатного функционала мне пока хватает за глаза. Поэтому в этом обзоре я не стал говорить о платном «вводе текста”.
И. Голосовой набор текста на Андроид
Таких голосовых приложений для Android было много!!! Наверное около 10! Поэтому я просто перечислю это здесь. Но без комментариев, так как ничего из этого не проверял.
- Клавиатура Google
- Список заметок Преобразование речи в текст
- Преобразование речи в текст Блокнот
- Речь в текст
- Голосовой текст
- Голос в текстовое сообщение
- Голос в текст для нескольких приложений
- Текст с голосом
- Речь в текст
- Эверноут
- Виртуальный помощник Лира
- Речевые заметки
Проверка и настройка микрофона
Прежде чем приступить к использованию функции голосового ввода, необходимо проверить работоспособность микрофона. Для этого вам нужно:
- Нажмите на значок динамика в правом нижнем углу экрана.
- откройте «Записывающие устройства».
- Выберите микрофон. Если этого значка нет, щелкните правой кнопкой мыши по свободному месту и установите галочки «Показать отключенные устройства» и «Показать отключенные устройства». Затем выберите микрофон в новом окне.
- Произнесите все слова в микрофон, чтобы проверить работу устройства.
При необходимости вы можете внести изменения в настройки микрофона по умолчанию, чтобы включить шумоподавление и другие параметры. Количество опций в этом случае определяется характеристиками установленной звуковой карты.
Расширение для браузера VoiceNote 2
Еще одно расширение, но с другими функциями и набором инструментов — это VoiceNote 2. Это голосовой блокнот. Оно отличается от предыдущего расширения тем, что представляет собой инструмент для обнаружения голоса и преобразования его в текст с помощью встроенного небольшого редактора. Чтобы не вставлять лишний раз длинную ссылку, найти ее можно в том же магазине расширений Chrome.
После установки на панели инструментов появится маленькая иконка. Он открывает окно редактирования. Чтобы начать голосовой ввод, нажмите на желтую иконку с микрофоном в правой части панели. Начните говорить в микрофон, подключенный к компьютеру, и результат появится в редакторе. Чтобы уменьшить количество ошибок в предложениях, старайтесь диктовать громче и четко произносить слова. В противном случае вам придется исправлять некоторые слова с помощью клавиатуры. Чтобы вставить текст из речевого ввода в документ Word из онлайн-редактора, выделите его и скопируйте.
4. «Диктовка» на устройствах Apple
Голосовой ввод доступен на устройствах Apple. Эту стандартную функцию можно использовать на iPad, iPhone и Mac без дополнительных загрузок. На всех гаджетах, начиная с выпуска 2015 года, Диктовка работает даже без интернета.
Чтобы включить голосовой ввод на iOS, просто щелкните значок микрофона на клавиатуре по умолчанию. Чтобы использовать диктовку в macOS, перейдите в главное меню Apple, затем выберите «Системные настройки» — «Клавиатура» — «Диктовка». Здесь нужно поставить галочку «Включено» и выбрать клавишу для быстрого перехода в этот режим. Таким образом, теперь вы можете использовать голосовой ввод в любой программе, где можно что-то напечатать.
Врачам тоже нужно учиться работать с голосовым вводом
Сейчас это кажется очевидным, но вначале мы не думали, что здесь нужна какая-то специальная подготовка врачей. Вроде бы такое дело: надеваешь гарнитуру, открываешь активное окно для заполнения и начинаешь диктовать результаты. Оказалось, что это целая наука. Попробуйте продиктовать какой-нибудь текст голосовым помощникам Siri, Google Assistant или самой Алисе. Вы увидите, как сложно добиться желаемого результата.
Поэтому голосовому вводу нужно учиться. Это не так сложно, как научиться писать, но это то, во что нужно вкладывать свое время. На практике не все врачи готовы заниматься самообразованием: одни из-за скептицизма, другие из-за нехватки времени. Очень часто после первых попыток видели, что протокол заполнен ошибками, и откладывали гарнитуру в сторону — навсегда. Многие сомневались в эффективном использовании технологии. Мы даже провели исследование: через месяц после введения голосового ввода 40% врачей скептически отнеслись к системе. Но через три месяца количество врачей, не поддержавших технологию, составило всего 6%.
Вы должны понимать, что ошибки на первом этапе — это нормально. Врач может начать работать с Voice2Med почти сразу, но на то, чтобы кропотливо внедрить распознавание голоса в свою работу, уходит около 2 недель. Первые протоколы можно выполнять даже медленнее, чем традиционным способом. Есть несколько ограничений или правил для диктовки. Чем естественнее речь, тем лучше распознавание.
Есть и формальные правила. Например, не говорите «ноль пять»: система не может точно знать, что здесь имеется в виду. Вот почему вы должны сказать «ноль целых пять десятых». То же самое относится и к правилу произношения знаков препинания. Их необходимо называть самостоятельно, так как синтаксис русского языка очень сложен, и цена ошибки здесь высока, и она может сильно повлиять на смысл текста. Но когда врач осваивает систему, экономия времени на заполнение протоколов достигает 22% — это статистический факт.
Исследования времени, проведенные Центром диагностики и телемедицины, подтвердили эффективность голосового ввода Voice2Med для заполнения медицинских документов. Мы также старались помочь врачам с адаптацией. Для них мы подготовили учебно-методический материал, конспекты, инструкции, видеоуроки.
Никита Кудрявцев, врач-рентгенолог, руководитель проектов по внедрению технологии распознавания речи в медицинских организациях, младший научный сотрудник, Институт инновационных технологий, Центр диагностики и телемедицины
Сейчас врачи-рентгенологи отмечают, что для общего ознакомления с техникой хватило всего одного рабочего дня, а при ежедневном использовании уже через 1 месяц можно стать уверенным пользователем. А еще мы стараемся сотрудничать с медицинскими учебными заведениями, чтобы будущие врачи привыкали и осваивали технику со студенческой скамьи.
Самое главное, что большое количество врачей уже регулярно используют эту технологию. Потому что это практично. Я уверен, что распознавание речи будет развиваться и, возможно, станет стандартом для оснащения рабочего места врача-рентгенолога. В московских поликлиниках и референс-центре это уже стандарт. В дальнейшем технология может быть использована в работе врачей УЗИ, патоморфологии, эндоскопии, возможно терапии, хирургии и многих других.
Горыныч ПРОФ 3.0
Самой продвинутой отечественной программой является программа «Горыныч» от российского разработчика VoiceLock. Следует отметить, что разработка распознавания русской речи является весьма специфической задачей. Когда мы распознаем речь, произнесенную на родном языке, возникает ряд трудностей. Звуковые параметры, которые проще всего описать для машины, в русском языке имеют наименьшее значение: в частности, долгота звука, имеющая решающее значение в английском языке, в русском языке практически не играет роли. Проблема омофонов (слов, которые пишутся по-разному, но звучат одинаково) стоит очень остро.
Конечно, такие слова в английском языке есть, но их гораздо меньше, чем в русском, за счет присущей русской фонетике редукции гласных и за счет развитой системы склонений и спряжений. Говорите собеседнику слово «красивый» вне контекста — неизвестно, что он хочет услышать: «красивый», «прекрасный» или «прекрасный»? То же и со словом «выглядит» — может «выглядит»? А в английском гласные произносятся четко, согласные не затекают, окончаний мало.
Но на этом проблемы не заканчиваются. Наша страна преподносит разработчикам систем распознавания русской речи еще один сюрприз — диалекты и наречия: также необходимо учитывать различия произношения в разных регионах России. Как правило, такие проблемы решаются с помощью предварительной настройки. А технологии, разработанные специалистами VoiceLock, позволяют настроить программу всего за несколько минут.
На момент написания статьи в продаже была версия программы Горыныч 2.0, но к публикации была подготовлена новая версия Горыныч ПРОФ 3.0, описание которой приведено ниже.
Следует обратить внимание читателей на то, что нижеследующее описание основано на бета-версии продукта, а в коммерческой версии изображения и функциональность могут несколько измениться.
По словам издателя — компании «Новый Диск» — эта версия поступит в продажу в сентябре этого года.
В новой версии программы значительно улучшено качество распознавания, переработан интерфейс, добавлен модуль автоматической настройки микрофона и упрощена работа со словарями. В программе используется оригинальное ядро, полностью основанное на российской разработке. Вывод текста можно сделать в любом текстовом редакторе. Кроме того, в операционных системах Microsoft Windows 98 SE/Me/2000/XP возможно голосовое управление некоторыми функциями.
Системные требования
Установка Горыныч ПРОФ 3.0 возможна на компьютеры с русскими версиями Microsoft Windows 98 SE/Me/2000/XP. Программа не предназначена для работы с Microsoft Windows 95 и NT. Пользователям Microsoft Windows 2000 и XP, в зависимости от настроек операционной системы, могут потребоваться права администратора для работы с программой.
Для установки самой программы достаточно 50 МБ свободного места на диске. Рекомендуется более 250 МБ, так как при меньшем объеме свободного места на жестком диске компьютер будет сильно тормозить. Для работы программы требуется процессор с тактовой частотой не менее 500 МГц. Объем оперативной памяти должен быть не менее 64 МБ. По мере увеличения мощности компьютера увеличивается и производительность программы. Ваш компьютер должен иметь как минимум 16-битную звуковую карту с микрофонным входом. Для более стабильной работы подходят звуковые карты среднего и высокого класса: Sound Blaster, Gravis Ultrasound и так далее, но при правильных настройках возможна работа и на более дешевых моделях звуковых карт.
Микрофон рекомендуется использовать в качестве гарнитуры Voice Direct (наушники + микрофон) (рис. 1). Такая гарнитура обеспечивает достаточное качество передачи речи и минимизирует влияние сторонних фоновых шумов.
Рис. 1. При работе с программой желательно использовать гарнитуру типа Voice Direct
Не стоит использовать встроенные (например, в мониторе) и профессиональные микрофоны, поскольку они не предназначены для распознавания речи.
Работа с программой
В средней части главного окна программы (рис. 2) расположена панель с основными кнопками управления: включение и выключение аудиозаписи, выход из программы, справка, настройки, прослушивание последнего произнесенного слова и кнопка включить/выключить режим диктовки.
Рис. 2. Главное окно программы
Программа запускается в командном режиме. Если вам нужно продиктовать текст, нажмите кнопку включения/выключения режима диктовки и включите аудиозапись. Чтобы вернуться в командный режим из режима диктовки, нажмите эту кнопку еще раз.
В верхней и нижней части основного окна расположены два дополнительных окна мониторинга, предназначенные для контроля сигнала с микрофона во время произношения слов. Верхнее окно показывает сигнал, исходящий от звуковой карты, а нижнее окно показывает графическое представление произносимого слова.
Настройка микрофона
Правильная настройка микрофона – обязательное условие для нормальной работы программы
С помощью «Настройки микрофона» настраивается уровень записи данных. Вы можете выбрать один из двух вариантов настройки микрофона — вручную или автоматически.
При настройке вручную необходимо выставить нормальный уровень записи, ориентируясь на визуальное отображение сигнала: если в микрофон ничего не сказано, на записывающем мониторе должна быть ровная линия посередине окна. При разговоре в микрофон отображение ударной вокальной волны должно опускаться немного ниже верхнего края окна мониторинга (рис. 3). Если уровень слишком низкий для ударного вокала (рис. 4), следует говорить громче или увеличить уровень записи с микрофона.
Рис. 3. Оптимальный уровень для ударного вокала
Рис. 4. Слишком низкий уровень для ударного вокала
Также необходимо настроить уровень записи так, чтобы уровень шума был приемлемым (рис. 5), а если уровень шума высокий (рис. 6), следует уменьшить уровень записи с микрофона и убедиться, что не поступает дыхание микрофон и нет посторонних звуков.
Рис. 5. Приемлемый уровень шума
Рис. 6. Недопустимый уровень шума
Иногда сложно уловить ситуацию: либо сигнал только близко к краям, либо уже их пересекает, но в таких случаях предусмотрена автоматическая настройка. Цикл автонастройки состоит из двух последовательных тестов — шума и сигнала с данными. Во время теста на шум программа просит вас вести себя тихо (то есть не говорить в микрофон), чтобы определить уровень фонового шума. В тесте компьютерного сигнала пользователя просят произнести любую фразу из двух или трех слов. После успешного завершения автоматической настройки выводится соответствующее сообщение.
Режим команд
Окно «Доступные команды» (рис. 7) отображает список слов, которые пользователь может произнести в данный момент.
Рис. 7. Окно с доступными командами
Из-за запуска или активации других программ список доступных команд меняется. Например, для «Блокнота» доступно действие «Меню» (рис. 8). Произнесение слова «меню» активирует встроенное меню Блокнота. В результате список доступных команд снова изменится: туда добавятся действия, возможные для встроенного меню Блокнота — Файл, Правка, Поиск, Справка (рис. 9). Если мы сейчас скажем «Файл», то это будет соответствовать нажатию на пункт меню «Файл». По результату изменится и список доступных действий. Список работает так же для других запущенных приложений.
Рис. 8. Изменить список команд при вызове нового приложения
Рис. 9. Измените список команд при вызове меню приложения
Недостатки таких сервисов.
При всех достоинствах услуг голосового набора есть и недостатки. Поговорим о них подробнее
- Не всегда все слова распознаются правильно. Особенно, если дикция у человека «хромает» или в помещении достаточно шумно. Или микрофон не очень. Или этот микрофон находится на большом расстоянии ото рта. Эти слова необходимо выявить и исправить. Это достаточно трудоемко.
- Затем текст необходимо отредактировать. Причины я написал выше. Но дело в том, что пунктуация и деление текста на логические абзацы тоже достаточно трудозатратны. Также необходимо отметить ошибки, закравшиеся в текст. Вот пример. Прочтите первый раз: «С кем вы будете арендовать двушку»? Если вы мужчина, то скорее всего не читали написанного
. Мозг постоянно нас обманывает при вычитке текста, и ни одна «грамматическая» система не признает таких ошибок! - Все слова желательно произносить четко и громко. И не быстро и не медленно. Оптимальный. Не каждый может это сделать. А в некоторых случаях это невозможно в силу каких-либо обстоятельств. Например, вы едете в общественном транспорте и не можете диктовать текст вслух.
- Если вы записываете то, о чем говорят несколько человек одновременно (например, на совещании), это обычно становится набором слов, из которых очень сложно выделить, кто что сказал!
- Невозможно (или очень сложно) исправить текст предложения во время декламации. Но иногда хорошие мысли приходят прямо во время набора, и если можно просто снова прервать текст при наборе, то при прочтении приходится либо второй раз диктовать другой вариант предложения. Или остановитесь и отредактируйте то, что вы написали.
Но в целом подобные недостатки обычно не мешают голосовому набору. В целом ситуация для чтения обычно достаточно близка к идеальной и ошибок не очень много. Поэтому, если вам нравится так писать, то это очень хорошо, так как вы сэкономите много времени.
Теперь вы знаете о самых важных онлайн-сайтах и программах для голосового набора. Надеюсь, эти сервисы помогут вам писать заметки или статьи быстрее и зарабатывать еще больше денег :).
Способ №3. Convert.town — простой инструмент для конвертации речи в текст
Сервис Convert.town — это инструмент «подключи и работай». Как и другие службы в этом плане, он работает на «API веб-речи» и требует, чтобы был запущен браузер Chrome. Сервис практически не имеет настроек.
Для работы с ним достаточно зайти на convert.town и сразу начать диктовать голосом нужный текст. Результат сразу появится в соответствующем окне ниже. Осталось скопировать его и перенести в нужную вам программу редактирования (например, MS Word).