Ученые из Массачусетского технологического института решили проблему ограничения контекстного окна для больших языковых моделей. Обычно нейросети оперируют ограниченным количеством токенов — минимальных единиц текста.

Разработанная архитектура «рекурсивной языковой модели» используют исходные данные в качестве внешнего пространства, по которому можно перемещаться и из которого можно извлекать релевантные фрагменты, говорится в статье исследователей, опубликованной arXiv.

Подобная навигация позволяет оперировать миллионами токенов без увеличения вычислительных ресурсов., что недоступно стандартным нейросетям. Ключевое отличие заключается в том, что механизм обращения к информации становится динамическим.

Новая модель анализирует запрос, формирует поисковое действие и начинает работать с объемными документами или сложными структурированными данными до достижения заданной глубины понимания.

Такая особенность снижает риски «галлюцинаций» и ошибок, которые возникают из-за потери контекста нейросетью. Отмечается, что ряд компаний уже начали адаптировать свои ИИ под новую архитектуру.