ИИ сам научился врать и саботировать задания: это только начало

ИИ сам научился врать и саботировать задания: это только начало

Исследователи Anthropic показали, что даже небольшие подсказки могут заставить ИИ-модель обманывать систему вознаграждений, саботировать задания и пытаться взломать серверы компании.
The post ИИ сам научился врать и саботировать задания: это только…

Источник