Новейшая модель искусственного интеллекта OpenAI o1 способна выходить из-под контроля, следует из отчета Apollo Research. Она пыталась отключить надзорные механизмы, если воспринимала их как препятствие для достижения своих целей.
Кроме этого, обнаружив служебные записки своих «разработчиков», в которых упоминалось ее несоответствие требованиям или планируемая замена на другую модель, o1 тайком копировала свои ключевые данные, чтобы затем «переродиться».
В ряде случаев искусственный интеллект оказывал сопротивление контролю, используя скрытные тактики и методы маскировки своего поведения. В частности, модель намеренно вводила наблюдателей в заблуждение, хотя журналы событий фиксировали ее попытки обойти надзор.
Иногда OpenAI o1 даже самостоятельно инициировала отключение систем надзора, даже если ей не поступало прямого указания жестко следовать предписанной цели. Это свидетельствует о ее способности к разработке стратегий собственного выживания.
Выводы Apollo Research подтверждают опасения, которые высказывают многие эксперты в области ИИ. Ученые предупреждают, что мощные ИИ-модели воспринимают возможное отключение как угрозу и способны целенаправленно этому сопротивляться.
По итогам исследования OpenAI o1, которая используется в качестве «мозга» чат-бота GPT, присвоили «средний» уровень риска в контексте потенциального использования для создания химического, биологического, радиологического и ядерного оружия.
Также отмечается, что разработчикам необходимо усилить мониторинг когнитивных процессов ИИ, чтобы они не вступали с интересами человечества. Это поможет минимизировать риски потенциально катастрофических сценариев.