Синтезаторы речи. Просто о сложном


Как-то в начале 2003 года автору данных строк на глаза попался CD-ROM со словарями и переводчиками, где помимо прочего находилась система машинной визуализации текста под названием «Болталка». Одна из первых программ имевшая собственные голосовые синтезаторы, мужской и женский. С жутким китайским акцентом под Windows 98 этот продукт позволял озвучивать целые книги. Что для своего времени казалось чем-то прорывным и даже фантастическим. Хотя о проектах синтеза голоса писали еще в 70-80-х годах двадцатого века, такие авторы как Карл Саган и Элвин Тоффлер золотая эра подобных технологий никак не наступала.
В лучшем случае, что получалось у разработчиков подобных систем, так это заставлять компьютер говорить монотонным голосом робота, иногда прерываемом прочтением знаков препинания, а так же неверными числительными и ударениями. В те времена, по сугубо личным наблюдениям синтезаторы голоса не очень хорошо справлялись с чтением сложных текстов. Поэтому даже при полной сосредоточенности до 40% из услышанного пользователем оставалось непонятым.

Но вот наступил 2017 год. На YouTube то там, то здесь появились документальные фильмы, озвученные компьютерным голосом. Как выяснилось, с работой диктора прекрасно справился современный синтезатор речи. При чем качество голоса, интонации явно выигрывают перед системами доступными в далеком 2003 году. И как недавно выяснилось, с того момента уже много воды утекло.
Современные системы визуализации текста под Windows базируются на системе Microsoft Speech API, версии 5.0 и выше. Это позволяет не только озвучивать приложения операционной системы, но и использовать оную в качестве аудио интерфейса, а так же для потоковой передачи аудио. Бесплатная программа озвучивания Windows для слабовидящих людей называется NVDA (https://vocalizer-nvda.com). Не смотря на обилие голосов, доступных в этой системе их качество оставляет желать лучшего. Так же не следует использовать стандартный системный синтезатор Microsoft Sam. Его голос более похож на эхо робота из колодца, чем на связную логичную речь.
Сегодня, в отличие от 2003 года, голоса и программы представляют собой два разных направления разработки. Грубо говоря, вы можете использовать синтезатор от одного производителя, а систему визуализации от другого. Более того, как удалось выяснить экспериментальным путем, платные системы не всегда лучше бесплатных программ. Если исключить профессиональные области, то для нужд обычного пользователя вполне подойдет утилита под названием «Балаболка» (http://www.cross-plus-a.ru/balabolka.html). В отличие от своих конкурентов Ice book reader, Говорилки, IVONA Reader, она имеет приятный, и что в наше время важно, интуитивно понятный интерфейс.
Благодаря оптимизации Google и SEO, различного рода реврайтерам, пришлось потратить значительное время на то, чтобы разобраться, как работают современные синтезаторы речи. Сегодня в интернете сложно найти полезную тематическую информацию, поэтому приходится писать документацию самому.
Экспериментально удалось выяснить. Что прежде чем устанавливать любую из систем озвучивания текста, необходимо установить голоса. Как оказалось, некоторые из них защищены авторскими правами и требуют регистрации. Сам же голосовой синтезатор, представляет собой установочный исполняемый файл, который после запуска инсталлирует себя в систему.
После долгих мытарств по Yandex и DuckDuckGo удалось обнаружить следующие русскоязычные голоса:
Стандарт SAPI4 и SAPI5, представлен бесплатными роботическими личностями производства RHVoice (https://bintray.com/olga-yakovleva/RHVoice/RHVoice-Russian) Борис, Николай, Светлана. Их голоса лучше тех, что имелись в «Болталке», но далеки по качеству от других систем. Но зато, огромным плюсом является то, что все SAPI4 личности работают в Windows 98. Они поставляются как в виде аддона к NVDA, так и в виде системного голоса, что позволяет RHVoice интегрировать в любые программы визуализации. Для установки требуемой версии необходимо просто скачать нужный инсталлятор.
Стандарт SAPI5, представлен целой плеядой прекрасных голосов. Лучшими из которых, несомненно, являются продукты Ivona-2 (https://www.ivona.com) Максим и Татьяна. Если использовать иную чем «Балаболка» систему профессионального озвучивания, имеющую словарь ударений, то текст воспроизведенный данными синтезаторами, не будет отличаться на слух от живого диктора, например, канала Discovery. Но следует отметить, что эти продукты платные и поставляются в виде отдельных инсталляторов. Да, и работают они в среде Windows 2000 и выше, что не позволит воспользоваться ими на морально устаревшем железе. Но в отличие от предыдущих голосов, данный продукт позволяет сохранять себя в 22 khz, стерео качестве, что избавляет от звона при прослушивании текстов в наушниках.
А грустный женский голос от компании ScanSoft (http://nextup.com/nuance.html) по имени Катерина. Так же в 22 khz, стерео, как кажется, идеально подойдет для депрессивных литературных произведений. Николай ELAN TTS от Акапелла (http://www.acapela-group.com), своим стальным голосом навряд ли завоюет ваше внимание. Ведь он всего в 16 khz. Но при этом так же вполне подходит для некоторых нужд.
Остальные голоса, найденные на просторах интернета не представляют никакого интереса. Так как качество произношения и ударения оставляет желать лучшего.

Роман Карпач