«Сбер» запустил новую версию нейросети Kandinsky 4.1 Image, предназначенную для генерации изображений по тексту, сообщается в официальном блоге компании.
В основе новой версии модели генерации изображений Kandinsky лежит обновленная архитектура — теперь это диффузионный трансформер (DiT), тогда как ранее нейросеть использовала U-Net структуру.
Модель Kandinsky 4.1 была дополнительно дообучена на отобранных вручную изображениях, сбалансированных по девяти глобальным категориям. Отбором картинок занималась команда, состоящая более чем из ста специалистов.
Разработчики отметили, что новый подход позволил достичь четырехкратного ускорения генерации без потери качества. В ряде категорий изображений система стала работать значительно лучше предыдущих версий.
В частности, обновленная версия научилась точнее следовать текстовым описаниям и генерировать надписи на английском языке. Это открывает новые возможности для создания логотипов и рекламных материалов.
Попробовать обновленный генератор уже можно в телеграм-ботах GigaChat и Kandinsky, на сайте giga.chat или в VK-боте Kandinsky.