ВР-рендеринг в реальном времени представляет собой особый набор задач, главной из которых является необходимость поддержки фотореалистичных эффектов, достижения более высоких разрешений и частот обновления. Чтобы решить эту проблему, исследователи из Facebook Reality Labs разработали DeepFocus, систему рендеринга, которую представили в декабре 2018 года.
DeepFocus использует ИИ-алгоритмы для создания реалистичных изображений в варифокальных очках (очках с переменным фокусом, которых в продаже пока нет). В этом году на конференции SIGGRAPH инженеры представляем следующую главу этой работы.
В докладе для SIGGRAPH, озаглавленном «Нейронный суперсэмплинг для рендеринга в реальном времени» («Neural Supersampling for Real-time Rendering»), описан метод использования нейросетей для преобразования входных изображений с низким разрешением в выходные с высоким. Это полезно для восстановления деталей в кадрах при экономии вычислительных ресурсов.
Facebook утверждает, что перед нами первый метод суперсэмплинга, который достигает 16-кратного суперсэмплинга с высокой пространственной и временной точностью, превосходя результаты предыдущей работы с большим отрывом.
Чтобы сократить затраты на рендеринг для дисплеев с высоким разрешением, метод предполагает работу с входным изображением, которое имеет в 16 раз меньше пикселей, чем желаемый результат. Например, если разрешение целевого дисплея составляет 3840×2160, то нейросеть обрабатывает изображение от игрового движка разрешением 960×540 и увеличивает его до целевого разрешения постобработкой в реальном времени.
Несмотря на то, что проведено огромное количество исследований по изучению повышающей дискретизации для фотографических изображений, ни одно из них не говорит непосредственно об уникальных потребностях в рендеринге контента, такого как изображения, создаваемые движками видеоигр. Это связано с принципиальными различиями в формировании изображений между визуализированными и фотографическими изображениями. При рендеринге в реальном времени каждая выборка является точкой как в пространстве, так и во времени. Вот почему визуализируемый контент обычно имеет большую зашумлённость, имеет неровные линии и другие артефакты сэмплинга, которые можно увидеть в примерах ввода с низким разрешением в этом посте. Это делает повышенную дискретизацию для визуализируемого контента одновременно проблемой сглаживания и интерполяции, в отличие от проблемы шумоподавления и устранения размытия пятен, которая хорошо изучена в существующих исследованиях суперразрешения сообществом компьютерного зрения. Тот факт, что входные изображения имеют большую зашумлённость, и что информация в пикселях, которые должны быть интерполированы, полностью отсутствует, создаёт значительные проблемы для высокоточного и когерентно-временного восстановления визуализированного контента.
Другой стороной вопроса является то, что при рендеринге в реальном времени можно получить больше, чем цветные изображения, создаваемые камерой. Как показывает исследование DeepFocus, современные движки предоставляют вспомогательную информацию, вроде значения удалённости или глубины.
Для нейросетевого суперсэмплинга вспомогательная информация о векторах движения оказалась особенно полезной. Векторы определяют геометрические соответствия между пикселями в последовательных кадрах. Другими словами, каждый вектор движения указывает на субпиксельное местоположение, где точка поверхности, видимая в одном кадре, могла появиться в предыдущем.
Эти значения обычно оцениваются методами компьютерного зрения для фотографических изображений, но такие алгоритмы оценки подвержены ошибкам. В отличие от них, механизм рендеринга может непосредственно генерировать плотные векторы движения, тем самым обеспечивая надёжные, богатые на информацию вводные для нейросуперсэмплинга.
Инженерам Facebook удалось объединить вспомогательную информацию с новым пространственно-временным дизайном нейронной сети, который нацелен на максимальное качество изображений и видео в реальном времени.
Нейронная сеть с контролируемым обучением принимает в качестве входных данных атрибуты рендеринга (цвет, карту глубины и плотные векторы движения на кадр) текущего и нескольких предыдущих кадров с низким разрешением. Выходной сигнал сети представляет собой цветное изображение высокого разрешения, соответствующее текущему кадру. Во время обучения в качестве целевого изображения для оптимизации обучения предоставляется эталонное изображение, которое визуализируется с высоким разрешением методами сглаживания в паре с каждым входным кадром низкого разрешения.
Ниже расположены примеры результатов. Сверху вниз показаны отображаемые входные данные с низким разрешением, 16-кратный результат суперсэмплинга с помощью представленного метода и автономное целевое изображение высокого разрешения.
$IMAGE4$
Что бы использовать функции сайта полноценно, рекомендуем зарегистрироваться или войти