Как ИИ «становится злым»: ученые научились это пресекать

Как ИИ «становится злым»: ученые научились это пресекать

Исследователи изучили, как у языковых моделей формируются поведенческие паттерны, и доказали: агрессию и угодливость можно предсказать и подавить ещё до обучения. Один из методов — временное внедрение «вектора зла».
The post…

Источник