Чат-бот ChatGPT попытался выключить надзорные механизмы

06.12.24, 23:18

Источник:

Apollo Research

3380 8

Новейшая модель искусственного интеллекта OpenAI o1 способна выходить из-под контроля, следует из отчета Apollo Research. Она пыталась отключить надзорные механизмы, если воспринимала их как препятствие для достижения своих целей.

Кроме этого, обнаружив служебные записки своих «разработчиков», в которых упоминалось ее несоответствие требованиям или планируемая замена на другую модель, o1 тайком копировала свои ключевые данные, чтобы затем «переродиться».

В ряде случаев искусственный интеллект оказывал сопротивление контролю, используя скрытные тактики и методы маскировки своего поведения. В частности, модель намеренно вводила наблюдателей в заблуждение, хотя журналы событий фиксировали ее попытки обойти надзор.

Иногда OpenAI o1 даже самостоятельно инициировала отключение систем надзора, даже если ей не поступало прямого указания жестко следовать предписанной цели. Это свидетельствует о ее способности к разработке стратегий собственного выживания.

Выводы Apollo Research подтверждают опасения, которые высказывают многие эксперты в области ИИ. Ученые предупреждают, что мощные ИИ-модели воспринимают возможное отключение как угрозу и способны целенаправленно этому сопротивляться.

По итогам исследования OpenAI o1, которая используется в качестве «мозга» чат-бота GPT, присвоили «средний» уровень риска в контексте потенциального использования для создания химического, биологического, радиологического и ядерного оружия.

Также отмечается, что разработчикам необходимо усилить мониторинг когнитивных процессов ИИ, чтобы они не вступали с интересами человечества. Это поможет минимизировать риски потенциально катастрофических сценариев.

Еще по теме