Rtx voice что это
Обзор технологии шумоподавления Nvidia RTX Voice
В конце апреля компания Nvidia представила технологию шумоподавления RTX Voice, призванную улучшить качество звука во время голосового общения в разного рода мессенджерах. По сообщениям разработчиков, новый продукт использует искусственный интеллект для борьбы с различными фоновыми шумами — от щелчков клавиатуры до гула офиса, шума машин за окном и прочего. Звучит многообещающе, презентации и промо-материалы выглядят отлично — посмотрим, насколько эффективно система работает на самом деле.
Установка и настройка
Дистрибутив можно скачать с сайта Nvidia, там же есть очень подробная инструкция по установке и настройке, поэтому мы сегодня остановимся лишь на ключевых моментах. Сразу заметим, что утилита работает под Windows 10 и изначально предназначена исключительно для взаимодействия с видеокартами серии GeForce RTX. Однако пользователям очень быстро удалось добиться ее работы с другими моделями видеокарт Nvidia — поиск соответствующей инструкции в сети занимает пару минут. Разработчики пока не торопятся закрыть эту лазейку — вероятно, дают пользователям вдоволь поиграться с новинкой и сформировать у себя желание использовать ее в дальнейшем.
После запуска программы видим весьма лаконичный интерфейс. В двух выпадающих меню нам предлагается выбрать устройства, которые будут использоваться для записи и воспроизведения через RTX Voice — технология может работать с обоими, о чем мы еще поговорим.
Параллельно в системе появляются два новых аудиоустройства: микрофон и динамики Nvidia RTX Voice. Можно поставить их как устройства по умолчанию, в таком случае действие системы распространится на звук во всех используемых приложениях.
Но, скорее всего, гораздо удобнее будет использовать шумоподавление лишь в некоторых программах. В таком случае системные настройки не трогаем, а виртуальные устройства RTX Voice выбираем в нужных нам программах. Например, в Skype.
Skype в качестве примера был выбран совершенно случайно — просто оказался под рукой. На сайте компании также заявлена поддержка OBS Studio, XSplit Broadcaster, XSplit Gamecaster, Twitch Studio, Discord, Google Chrome, WebEx, Skype, Zoom и Slack. Но «виртуальное устройство» Nvidia RTX Voice можно без проблем выбрать и в любой другой программе — к примеру, в ходе тестирования оно прекрасно работало с Audacity и Adobe Audition.
Тестирование шумоподавления
Как уже упоминалось выше, система может подавлять шумы как исходящие от пользователя через микрофон, так и входящие — идущие из колонок/наушников. Чтобы пропустить входящий сигнал через Nvidia RTX Voice, просто выбираем его в качестве источника воспроизведения. Функция крайне удобная: часто бывает, что собеседник находится в шумной обстановке, да еще и микрофон использует слабенький — и вот вы вынуждены терпеть плохое качество звука, но ничего поделать с этим не можете. Теперь можете.
Ну и просторы для тестирования открываются безграничные: достаточно, например, открыть любое видео на YouTube, включить шумоподавление и посмотреть на результат. Этим и займемся. Для примера мы выбрали три видео с нашего YouTube-канала, записанные в крайне шумной обстановке — на выставках. Со звуком в наших роликах все очень даже неплохо — пришлось покопаться и найти что-нибудь пошумнее. Кстати, если вы еще не подписаны на наш канал — самое время это сделать, у нас там много всего интересного. На этом минутку саморекламы будем считать оконченной, вернемся к тесту.
В целом, для демонстрации работы системы можно было просто записать звук на выходе RTX Voice, выбрав ее в любом аудиоредакторе. Но получился бы совсем уж сферический конь в вакууме. Для несколько более полной симуляции реального пользовательского опыта мы решили подавлять шумы в гарнитуре, звук из которой записать с помощью стенда MiniDSP E.A.R.S. Естественно, наушники для таких целей стоит выбрать качественные. Мы использовали Audeze Mobius, которые тестировали чуть меньше года назад.
Первое видео с IFA 2019 не особо-то и шумное. Но шум есть, плюс присутствует негромкая фоновая музыка, которую RTX Voice успешно убирает. Голос при этом продолжает звучать более-менее натурально, хотя некоторые изменения ощущаются. С помощью ползунка в утилите можно регулировать степень шумоподавления и подобрать режим, в котором и шум уже не раздражает, и голос звучит в достаточной степени разборчиво.
Второе видео, на котором Стюарт Эштон рассказывает о продуктах Blackmagic Design, содержит типичный фоновый шум большого скопления людей, причем весьма ярко выраженный. С ним система справилась очень неплохо. На третьем видео — просто праздник: голоса, гул, фоновая музыка… И вот только тут RTX Voice немного спасовала: голос пару раз прерывался, появился «металлический» призвук, ни о какой естественности звучания говорить уже не приходится. Но с учетом сложности поставленной задачи — все равно очень впечатляет.
Ну и для еще большей наглядности приведем пару картинок. На первой — спектрограмма небольшого фрагмента аудиодорожки среднего видео без шумоподавления, на второй — с шумоподавлением. Разница очевидна, особенно хорошо заметно, насколько эффективно RTX Voice отрабатывает паузы между словами. При этом часть дорожки, содержащая речь, остается практически без изменений.
С подавлением шума на выходе более-менее разобрались, настало время попробовать подавлять его на входе. Для этого мы использовали микрофон все той же Audeze Mobius, в который были прочитаны несколько строф из «Евгения Онегина» (качество чтения — в меру скромных возможностей автора, который не читатель, а писатель). Из стоящей поблизости акустической системы были запущены четыре вида шума: гул города и офиса, звуки ремонта и, конечно, его величество перфоратор.
Микрофон у Audeze Mobius, как и у ряда других качественных игровых решений, устойчив к посторонним шумам сам по себе, пришлось довольно основательно поднять громкость, чтобы сделать эффект максимально заметным. В нижней части кадра расположена генерируемая с небольшой задержкой, но не менее от этого интересная спектрограмма. В общем, все можно услышать и увидеть.
Некоторые пользователи Nvidia RTX Voice отмечают довольно высокую прожорливость системы — мол, программа может «стоить» до 10 fps в играх. Мы попробовали поиграть в ряд игр со средними для сегодняшнего дня системными требованиями, параллельно ведя разговор с использованием шумоподавления. Никаких серьезных изменений в производительности, достойных обсуждения, отмечено не было. Возможно, в более требовательных играх ситуация может оказаться чуть иной.
Пока RTX Voice официально находится в стадии бета-тестирования, но работает уже весьма впечатляюще. Учитывая, что возможность воспользоваться системой (пока пусть и не совсем официальная) есть у широкого круга обладателей видеокарт Nvidia, имеет смысл хотя бы попробовать. По словам разработчиков, приложение функционирует на основе ИИ, а значит, со временем «научится» работать еще более эффективно. Будем ждать с нетерпением.
А живую демонстрацию работы технологии Nvidia RTX Voice можно увидеть (и услышать) в видео Виталия Казунова на канале iXBT.Games:
Что такое NVidia RTX Voice и как эта технология изменит компьютерные игры
Последняя конференция NVidia произвела много шума, а новые видеокарты стали технологическим прорывом года. Но пока большинство людей смотрит всего лишь на прирост производительности в играх и улучшение графики, они упускают то, что сделает новое поколение видеокарт настоящим прорывом — программные решения на основе тензорных ядер. NVidia представила целый ряд перспективных технологий, которые они будут развивать в будущем поколении. Я постараюсь пройтись по всем продемонстрированным технологиям, но в данной статье хотел бы подробнее рассмотреть NVidia RTX Voice.
Доступ к данном программе NVidia предоставила ещё весной и на данный момент уже имеется множество статей и видео, которые ярко демонстрируют возможности данной программы. Так что же в ней такого особенного, почему она работает лучше любых других программ шумоподавления, причём тут RTX в названии, и что эта технология даст играм?
Ответом на первую часть вопросов будет — снова нейронные сети. Да, они затесались даже сюда. Правда, на этот раз это очень специфическая и крайне интересная архитектура сетей, название которой — вариационный автоэнкодер (или же автокодировщик).
Обычные нейронные сети имеют множество нейронов в своих скрытых слоях. Это необходимо для того, чтобы установить все взаимосвязи между входными и выходными параметрами в сети. Ведь, по сути, каждый нейрон скрытого слоя является отображением «понятия», которое связывает между собой входные и выходные параметры. И чем сильнее вес связи этого нейрона, тем сильнее это «понятие» оказывает влияние на эти самые параметры. В качестве примера можно рассмотреть условную сеть, которая распознаёт листья деревьев на фотографии. Один условный нейрон такой сети будет определять, является ли предмет на фотографии зелёным и если да, именно этот нейрон будет считать, что это лист. Другой условный нейрон будет проверять, является ли предмет овальным. Третий будет проверять текстуру объекта, четвёртый наличие черешка и так далее. И такая сеть распознает лист, если большинство нейронов ответят, что они считают объект листом. Но «мнения» нейронов неравнозначны. Ведь цвет и форма важнее наличия черешка. С другой стороны, лягушки тоже могут быть зелёными, а листья могут быть оранжевыми и красными, поэтому исключительно на цвет такая сеть не полагается, а учитывает совокупность мнений всех нейронов. И именно поэтому подобные сети имеют множество скрытых нейронов, что бы охватить все возможные «понятия», которые связывают между собой входные и выходные параметры. А вот автоэнкодер устроен по другому.
Своё название автоэнкодер получил от название классов задач, которые он решает в процессе работы — кодировка и декодировка сигнала. И устроен он ровно противоположным образом — в скрытых слоях у него нейронов существенно меньше, чем входных и выходных параметров. Казалось бы, какой в этом смысл?
А вот тут и начинается магия. Автоэнкодер «запоминает» не все ключевые особенности, чтобы распознать в точности какой то объект. Вместо этого он «выбрасывает» все данные, которые не являются обязательными для распознавания. Он запоминает только ключевые «понятия». То есть, он убирает из данных весь шум. И вот на этом моменте, полагаю, некоторые уже начали правильно догадываться, как использует автоэнкодеры NVidia RTX Voice (очевидно, в их случае это намного более сложная модель). Именно так — сеть NVidia обучалась на распознавание человеческого голоса. Но, поскольку эта не классическая сеть, она обучалась так, что «выбрасывала» из звуковой дорожки все те звуки, которые не относятся к человеческому голосу. И запустив такую сеть «в обратную сторону» можно добиться от неё не распознавания голоса, а фильтрацию звуковой дорожки. Магия работает, остаются только звуки человеческой речи.
Но автоэнкодер всё ещё остаётся нейронной сетью, со всеми своими недостатками. В частности, у него всё ещё очень специфические вычисления, которые не характерны для классического процессора и хорошо работают только на тензорных ядрах. Более детально специфику работы нейронных сетей я описал в одной из предыдущих своих статей. Для автоэнкодера все ограничения те же самые и поэтому NVidia RTX Voice требует для работы именно видеокарты с RTX.
Это всё конечно же очень интересно, но что за кликбейт в заголовке? Причём тут непосредственно игры? А для объяснения этого стоит рассмотреть ещё одну магию автоэнкодеров. Они ведь запоминают лишь ключевые особенности, но при этом отсеивают все детали. Но совсем не обязательно, что эти детали должны полностью отрезаться. Их можно достраивать случайным образом. При этом автоэнкодеры совершенно не привязаны к аудио данным, они могут работать с чем угодно. И вот тут мы приходим к идее случайного генератора нового поколения.
Классический случайный генератор игровой карты создаёт просто бесконечное поле из заготовленных ассетов, для каждого из которых вручную прописаны варианты соединения с другими ассетами. Но в случае с автоэнкодером мы получаем программу, которая «помнит», что реки берут начало в горах и должны течь обязательно вниз, что шоссейные дороги не ведут в тупик, а связывают между собой крупные города, что сами города проектируют исходя из вполне конкретных принципов. Мы получаем генератор, который строит логический каркас карты по вполне определённым и логичным принципам, а детали заполняет случайным образом. Вместо сотен «разных» карт, куски которых топорно и заметно соединены между собой и довольно скоро начинают повторяться, мы получаем бесконечное количество действительно уникальных карт, которые сразу создаются как одно целое, а не собираются из кубиков.
А ведь генерация карт это только первое, что приходит на ум. Генерация персонажей, генерация транспорта, генерация игровых сценариев, действительно уникальные и живые миры. И кто знает, какие варианты использования данной технологии ещё придумают. NVidia уже продемонстрировала, что на современных видеокартах спокойно можно запустить сложные автоэнкодеры, которые работают лучше классических алгоритмов. И, возможно, когда технология RTX и аналогичные плотнее войдут в повседневную жизнь, большинство игр станут немного «рогаликами» (где мир перестраивается после смерти героя).
NVIDIA выпустили приложение RTX Voice, призванное убрать посторонние шумы во время аудиоразговоров
Для того, чтобы добиться эффективного шумоподавления, не обязательно покупать дорогостоящий микрофон. Это решила доказать компания NVIDIA, которая разработала новое программное обеспечение RTX Voice, призванное решить проблему наличия посторонних шумов во время виртуальных бесед.
Основная концепция, которую преследуют сотрудники NVIDIA – предоставить пользователям компьютеров качественную связь без каких-либо шумов даже при использовании бюджетных микрофонов.
Особенность новой технологии – использование тензорных ядер с применением ИИ. В таком тандеме разработчикам удалось добиться качественной аудиотрансляции с максимальной чистотой сигнала.
RTX Voice не только эффективно справляется с шумоподавлением, но и занимается обработкой аудиосигналов от других собеседников. ПО уже поддерживается в таких программах, как Discord, Google Chrome, Twitch Studio, OBS, Zoom, Slack, Skype и др.
Скачать RTX Voice можно по этой ссылке. Также NVIDIA выложили подробную инструкцию по работе с приложением.