Google Cloud Text to Speech API. Конвертация текстов на любом языке в звук

masterpro

Новый пользователь
Дней с нами
849
Розыгрыши
0
Сообщения
4
Репутация
0
Реакции
1
Подумалось мне, что, возможно, эта информация окажется полезной для кого-то из посетителей форума; наверняка ведь кто-то увлекается (как я когда-то) созданием собственных своих фильмов; - во всяком случае, непонаслышке знаю, что несложная программка, о которой речь, как нельзя кстати, когда нужно скопипастить/набросать текст и наложить хорошее его произношение на видео.

Очень кратко. Поскольку единственная ссылка здесь ведет на репозиторий гитхаба, откуда в любой момент возможно загрузить данный rails-app, и там есть более-менее подробное описание функциональных особенностей кода. В трех словах: прога, используя технологии Google (сверточные нейронные сети), качественно конвертирует введенный вами текст (5К знаков за один раз максимум) в звук - mp3, wav, ogg - при необходимости автоматически переводя с любого на любой из нескольких десятков языков (используется API Google Translate) и сохраняя файл (если пожелаете) в облако Amazon либо иное совместимое. Помимо текста поддерживается SSML, доступны для изменения speaking_rate (скорость произношения) и ряд иных параметров:

main.jpg


Каким образом всем этим воспользоваться. Здесь возможны два пути: развернуть на своем ПК все необходимое (понадобится ruby / rails), либо воспользоваться step-by-step описанным сценарием, задеплоив приложение на Heroku (облачный хостинг, если попросту) посредством git. Второй способ значительно проще, рекомендую. В результате получаете бесплатное web-приложение, доступное неограниченно долгое время по паролю лишь вам одному, претензий к качеству работы пока что (обращайтесь, если что) не слышал.

Внимание, на гитхабе доступны, как уже было сказано, две версии приложения: первая, с минимально необходимым функционалом, и вторая, с дополнительными фичами. Именно advanced версия включает в себя бэкапы на Amazon, возможность прозрачного (на лету) перевода и ряд опций формирования звука; если это не нужно, качайте первый, простой вариант (для v.1 понадобится лишь ключ Google Cloud Text to Speech API, для Pro версии еще и ключи Google Translate и AWS, подробнее см. доки или спросите здесь, расскажу более подробно). Ключами Google в данном случае можно пользоваться бесплатно (если только не соберетесь озвучивать Войну и Мир, попутно переводя на иврит), доступ к Амазону бесплатен в течение первого года со дня регистрации аккаунта (что делать дальше, советовать не возьмусь).

file_management.jpg


И последнее. Код полностью открыт, не содержит никаких рекламных вставок, ни малейших признаков shareware, malware, spyware или что там еще привычно для слуха Micro$oft пользователей. Это open source в чистом своем виде, автор не ждет от него никаких особенных профитов и преференций, кроме, пожалуй, пиара себя как программиста (дело обычное, реклама - двигатель бизнеса, всем нам приходится так или иначе зарабатывать на жизнь). Самые недоверчивые могут поискать вирусы Касперским или чем-то еще; правда, именно касперу я бы, в свете новостей последнего непростого времени, доверял меньше всего.
 
  • Like
Реакции: 0wma0t8y