Как ИИ «становится злым»: ученые научились это пресекать

02.08.2025 hightech.fm

Исследователи изучили, как у языковых моделей формируются поведенческие паттерны, и доказали: агрессию и угодливость можно предсказать и подавить ещё до обучения. Один из методов — временное внедрение «вектора зла».
The post…

Источник