ИИ сам научился врать и саботировать задания: это только начало

25.11.2025 hightech.fm

Исследователи Anthropic показали, что даже небольшие подсказки могут заставить ИИ-модель обманывать систему вознаграждений, саботировать задания и пытаться взломать серверы компании.
The post ИИ сам научился врать и саботировать задания: это только…

Источник