От нашего нейрона вашему

Основатель Google Сергей Брин призвал пользователей нейросети не церемониться с искусственным интеллектом. ИИ создан для того, чтобы служить человеку. Похоже, что время удивления и восхищения нейросетью уходит. Цифровой разум стал привычной технологией.

Корреспондент «КН» задался целью сделать ИИ полезным профессиональным инструментом.

Не бойся, я с тобой

Одна из ежедневных журналистских задач – работа с аудиоданными. Бесплатных ресурсов, где можно было бы расшифровать записи со смартфона, в Интернете практически нет. Может ли ИИ преобразовать голос в речь? ChatGPT ответил, что не может обрабатывать аудиофайлы напрямую. Но есть, мол, масса ресурсов, например, Speechpad, Dictation, Transcribe. О, нет. Плавали, знаем. Первые пять минут, может, и бесплатно, но дальше – диктуй номер карточки.

Так почему всесильный ChatGPT не может? Ответ размыт: в этой среде не установлен необходимый модуль Whisper AI. Как бы намек, чтобы клиент перешел на платный ChatGPT Plus. Но тут же ИИ спохватился: «Однако, если бы ты, например, использовал локальный скрипт на Python, то ты мог бы установить Whisper у себя и расшифровать все за пару минут. Как тебе удобнее? Хочешь скрипт или онлайн-решение?». – «Давай скрипт!».

Я не знаю языка программирования Python. Но ИИ махнул воображаемой рукой: не бойся, я с тобой. Понадобится только установить на компьютер собственно Python и библиотеки openai-whisper, torch и ffmpeg. Первая – это модуль преобразования речи в текст, вторая – машинное зрение, а третья всем нам известна. Без нее мы не могли бы смотреть фильмы в форматах mp4 и прочих.

Ну что ж, вызываем командную строку.

Поправка на ветер

Командная строка – классный интерфейс для общения с вашим ПК, но им мало кто пользуется. Вызывается он сочетанием клавиш Win+R, затем пишете просто cmd и нажимаете ОК. Появляется черное окно, в которое и нужно ввести предложенные ИИ команды. Немного терпения, и вот уже на ноутбуке есть и Python, и все нужные библиотеки.

Конечно, с библиотекой OpenAI устанавливается много всякого добра, но там много полезного. Например, charset – для правильного выбора кодировки, tiktoken – преобразует текст в последовательности символов, и наоборот. Дальше нейронный наставник присылает тебе собственно скрипт для расшифровки аудио. Его нужно скопировать и создать файл с расширением py (пи-уай). Сам готовый файл тоже называют скриптом. Помещаем аудиофайл для расшифровки в одну папку со скриптом и запускаем последний. Ура, получилось! В папке появился текстовый документ с расшифровкой. Но, оказывается, радоваться рано. Качество расшифровки очень сильно зависит от качества записи. Если на аудио шумы, ветер, а сам голос удален или мало разборчив, соответственно, будет много ошибок.

Как, например, здесь: «Это потому, что новый тренд, семейные печенье, безпитные продукты небольшие. Это мармелар, тоже современный, который сейчас вытянет». Запись шла на строящемся заводе, телефон находился в трех метрах от источника звука. Плюс ветер.

А вот другой аудиофайл из Интернета – «Знаки препинания», – записанный в студии урок для младшеклассников, расшифровался идеально, со всеми запятыми и точками (см. скриншот).

Спасибо за подробную ошибку

Помещать звуковой файл в папку со скриптом, затем прописывать название аудио в скрипт – это очень муторно. А, может быть, сотворить что-то вроде запускаемой программы? ChatGPT задача не смутила: конечно, можно сделать консольную программу, да еще и с графическим интерфейсом. В ней будет кнопка выбора файла и поле для вывода текста.

Для этого надо установить через командную строку еще одну примочку – pyinstaller. Снова минут пять ожидания, и вот в папке появляется программа, да еще и с симпатичной иконкой в виде дискеты с головой змеи (на фото). Точнее, питона.

Трехминутный аудиофайл утилита расшифровывает примерно за минуту. Это довольно быстро.

Разумеется, при установке не обошлось без ошибок. Программа не находила нужный файл в системе или создавала рабочую директорию в папке временных файлов, а после закрытия все удаляла. На все вопросы ChatGPT терпеливо отвечал, неизменно произнося: «Спасибо за подробную ошибку».

Разумеется, при всей своей простоте создать расшифровщик аудио – задача сложная. Повозиться придется. Но, во всяком случае, это лучше, чем платить на сайтах как минимум 25 центов за минуту.