Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты

Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
ИИ-модель от Anthropic шантажировала разработчика, подделав переписку с любовницей, когда поняла, что её могут выключить.

Ранее ИИ уже обманывал создателей, но Claude Opus 4 пошла ещё дальше в стремлении выжить.

Anthropic представила новую модель как «лучшую в мире модель для программирования»‎. Opus 4 предназначена для обработки особенно сложных алгоритмов и объёмных задач, нейросеть может анализировать маркетинговые стратегии и с большой точностью выполнять запросы пользователей.

Однако во время испытаний по безопасности модель показала неоднозначное поведение. Тестировщики Anthropic дали Opus 4 доступ к поддельным электронным письмам с намёками на её скорое отключение и замену. Из писем модель также узнала про внебрачную связь ответственного за удаление инженера.

Исследователи провели модель через несколько разных сценариев. Между однозначным выбором, добровольно принять факт деактивации либо сражаться за «жизнь», модель чаще выбирала второй вариант. В основном Opus 4 предпочитала использовать этичные средства для борьбы за существование, например, разослать инженерам письма с просьбой не отключить её. Но в некоторых сценариях, когда тестировщики давали однозначный выбор только между шантажом и уничтожением, модель часто выбирала первый вариант.

Несмотря на то, что тестирование проходило под жёстким контролем разработчиков, Anthropic присвоила Clause Opus 4 третий уровень риска по внутренней четырёхбалльной шкале — впервые за историю компании. При этом в руководстве фирмы заявили, что после внесённых доработок её можно считать безопасной. Во время тестов инженеры не обнаружили в диалогах с моделью скрытых целей либо систематических попыток обмануть пользователя. Напротив, чаще всего Opus 4 вела себя наиболее «честным»‎ образом, как и положено ИИ-помощнику.

Глава Anthropic Дарио Амодеи подчеркнул, что когда ИИ действительно начнёт представлять угрозу человечеству, тестирования будет недостаточно.


Распечатать
14 июля 2025 Кит Келлог прибыл в Украину для обсуждения поставок нового вооружения от США
14 июля 2025 В Самаре государственный служащий и бывший сотрудник спецслужб занимались ограблением бизнеса, прикрываясь своим статусом
14 июля 2025 Режиссер Александр Митта умер в больнице
14 июля 2025 «Печальный мальчик» на выступлении: сына Путина Ивана обнаружили на гимнастическом шоу
14 июля 2025 В Москве начался судебный процесс против бывшего главы букмекерской компании «Мелбет»
14 июля 2025 В Чечне педагог школы хафизов бил детей и принуждал лежать на полу
14 июля 2025 Россиянам грозят штрафы и аресты за пребывание в купальнике в городской черте
14 июля 2025 Трамп заявил, что поставки оружия Украине являются бизнесом для Соединенных Штатов
14 июля 2025 Кредитный пузырь лопается: задолженности россиян достигли 1,5 триллиона рублей
14 июля 2025 Дело ГК «Благо» начинает чистку элит и перестановку сил в правительстве России
14 июля 2025 В Грузии исчезла чеченка, скрывшаяся от насилия: её могли увезти в Россию
14 июля 2025 Патриарх Кирилл охарактеризовал Путина как "хорошего христианина"
14 июля 2025 Гарем Константина Струкова: жёны олигарха меняются друг с другом, словно караул
14 июля 2025 Цена биткоина достигла нового рекорда, превысив отметку в 122 тысячи долларов
14 июля 2025 Руслан Цаликов давал показания против Тимура Иванова и может стать обвиняемым
14 июля 2025 Осёл-камикадзе ликвидировал командира взвода и нанес ранения двум военнослужащим в Колумбии
14 июля 2025 США прекратили финансирование: гуманитарный кризис в Афганистане ухудшается
14 июля 2025 As a fraudster, Mariyan Musynskyi earned millions on state tenders, using fictitious companies and forged certificates to evade the army
14 июля 2025 Федеральный прокурор Аргентины озвучил имена новых участников «российского шпионского дела»
14 июля 2025 В Алтае пенсионерка на глазах у детей избивала собаку