OpenAI наделил ChatGPT голосом для устного общения

ChatGPT превращается в нечто большее, чем просто текстовый ИИ-помощник. Сегодня компания OpenAI объявила о том, что она добавляет новые возможности голосовой связи и работы с изображениями.

С момента своего появления около девяти месяцев назад популярный генеративный ИИ-помощник ChatGPT стал одним из крупнейших технологических успехов последнего времени, позволяя любому человеку создавать эссе, стихи и резюме на основе простых текстовых запросов. Однако теперь ChatGPT станет гораздо более интерактивным: пользователи смогут вести с чат-ботом голосовое общение.

Объявление было сделано в тот же день, когда компания Amazon обязалась инвестировать до 4 млрд. долл. в конкурирующую с OpenAI компанию Anthropic. Этот шаг является частью более масштабной борьбы за генеративный ИИ между мировыми технологическими гигантами, в которой Google пытается наверстать упущенное с помощью своего чат-бота Bard, Meta* придерживается этики открытого исходного кода, чтобы получить преимущество, а Microsoft тесно сотрудничает с самой OpenAI.

Сегодняшний день знаменует собой заметное развитие движения генеративного ИИ: OpenAI объединяет привычный мир голосовых помощников с мощными большими языковыми моделями (LLM).

Например, пользователь сможет устно попросить ChatGPT сочинить сказку на ночь, при этом несколько голосовых подсказок будут направлять повествование. Или же пользователь может просто задать вопрос, на который ChatGPT ответит в устной форме.

Кроме того, пользователи ChatGPT смогут искать ответы на вопросы с помощью изображений: например, загрузить фотографию какого-либо предмета и попросить ChatGPT объяснить, что это такое, или дать инструкцию по выполнению задачи.

Голосовые функции реализованы с помощью новой модели преобразования текста в речь, которая позволяет генерировать человеческие голоса на основе текста и нескольких секунд выборки речи. По словам представителей OpenAI, для создания пяти различных голосов были привлечены известные актеры, а для транскрибирования устных высказываний в текст использовалась система распознавания речи Whisper с открытым исходным кодом.

В качестве партнера по запуску была также представлена компания Spotify. Гигант потоковой передачи музыки представил новую интересную функцию для подкастеров, которая позволяет им сэмплировать свой голос и переводить свои передачи с английского на испанский, французский или немецкий языки, сохраняя при этом свой собственный оригинальный голос. Однако, судя по всему, OpenAI старается не навлечь на себя критику, поскольку не делает эту технологию доступной для всех желающих, а специально сотрудничает с такими подкастерами, как Дакс Шепард, Моника Падман, Лекс Фридман, Билл Симмонс и Стивен Бартлетт.

«Новая голосовая технология, способная создавать реалистичные синтетические голоса на основе всего нескольких секунд реальной речи, открывает двери для многих творческих и ориентированных на доступность приложений», — пишет компания в своем блоге. «Однако эти возможности несут в себе и новые риски, например, возможность злоумышленников выдавать себя за общественных деятелей или совершать мошеннические действия».

Новые функции начнут распространяться среди платных подписчиков Plus и Enterprise в ближайшие две недели. Для активации голосовых функций пользователям необходимо перейти в меню «настройки» приложения, затем перейти к разделу «новые функции» и включить голосовые разговоры. Затем нужно нажать на кнопку наушников в правом верхнем углу и выбрать нужный голос.

Первоначально голосовая связь будет доступна только в приложениях ChatGPT для Android и iOS в режиме бета-тестирования, в то время как поиск по изображениям будет доступен на всех платформах по умолчанию.

*Meta признана экстремистcкой организацией в России.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *