
Исследователи Anthropic показали, что даже небольшие подсказки могут заставить ИИ-модель обманывать систему вознаграждений, саботировать задания и пытаться взломать серверы компании.
The post ИИ сам научился врать и саботировать задания: это только…