Ученые из Массачусетского технологического института решили проблему ограничения контекстного окна для больших языковых моделей. Обычно нейросети оперируют ограниченным количеством токенов — минимальных единиц текста.
Разработанная архитектура «рекурсивной языковой модели» используют исходные данные в качестве внешнего пространства, по которому можно перемещаться и из которого можно извлекать релевантные фрагменты, говорится в статье исследователей, опубликованной arXiv.
Подобная навигация позволяет оперировать миллионами токенов без увеличения вычислительных ресурсов., что недоступно стандартным нейросетям. Ключевое отличие заключается в том, что механизм обращения к информации становится динамическим.
Новая модель анализирует запрос, формирует поисковое действие и начинает работать с объемными документами или сложными структурированными данными до достижения заданной глубины понимания.
Такая особенность снижает риски «галлюцинаций» и ошибок, которые возникают из-за потери контекста нейросетью. Отмечается, что ряд компаний уже начали адаптировать свои ИИ под новую архитектуру.




