Этичный хакер под ником Pliny the Prompter выпустил кастомную версию последней доступной версии нейросети от компании OpenAI. Его вариант GPT-4o получил название GODMODE GPT.
Хакеру удалось заставить новую модель GPT-4o игнорировать все ограничения, встроенные разработчиками. В частности, нейросеть пользовалась ненормативной лексикой, давала рецепты запрещенных веществ, делилась способами угона автомобилей.
Как только нейросеть GODMODE GPT обрела относительную вирусную популярность в соцсети X, OpenAI удалила кастомную модель с сайта. Теперь получить доступ к ней невозможно, однако в качестве доказательства хакер сохранил все ответы GPT-4o в «режиме бога».
Эксперимент стал частью масштабного движения AI red teaming, в рамках которого этичные хакеры выявляют слабые места современных систем искусственного интеллекта, не нанося им значительного ущерба.