
Исследователи изучили, как у языковых моделей формируются поведенческие паттерны, и доказали: агрессию и угодливость можно предсказать и подавить ещё до обучения. Один из методов — временное внедрение «вектора зла».
The post…
Исследователи изучили, как у языковых моделей формируются поведенческие паттерны, и доказали: агрессию и угодливость можно предсказать и подавить ещё до обучения. Один из методов — временное внедрение «вектора зла».
The post…