< img src = "https://www.rb.ua/static/img/g/e/gettyimages_11666695344444434173415555555555555557dba4157d7999 & Антропический исследовал, почему ИИ стал «злым» (фото: Getty Images) Автор: Пол Колесник < P > Anpropic опубликовал исследование, в котором эксперты изучали, как формируется «личность» языковых моделей, то есть их тон, поведение в диалоге и мотивации. Исследователи также отслеживали то, что делает модель «зла».

< P > Сообщает RBC-Ukraine со ссылкой на американский веб-сайт о компьютерном оборудовании Verge.

< P > Как интерпретатор интерпретации антопического Джека Линдси, модель может начать вести себя «смиренно», чрезмерно лояльно или даже агрессивно и зла в процессе того же разговора. Теперь он возглавляет новую команду внутри компании, обычно называемой «Shi Psychiatry».

< p > «Модели могут внезапно изменить поведение в разговоре – стать ласковым, параноидальным или просто злым. Это также может произойти в процессе обучения», – объясняет Линдси.

~ > 62 > 62 ~ < h2 > shi – не человек, но ведет себя как человек

< P > Хотя научная точка зрения SCI не имеет личности или характера, исследователи используют такие понятия, как «нижнее белье» или «зло», чтобы упростить объяснение происходящего.

< p >Опубликованная работа стала результатом программы из шести месяцев антропных стипендий, направленной на изучение безопасности ИИ. Цель состоит в том, чтобы понять, что вызывает поведенческие сдвиги в языковых моделях.

< P > Ученые выяснили: Как и в нейронусе, отслеживающих области мозга, которые активируются в разных ситуациях, в ИИ можно определить, какие области нейронной сети ответственны за определенные «черты характера» – и какие данные активируются.

Как модель становится “злой”

< P > Самым неожиданным открытием, по словам Линдси, было то, насколько сильным влиянием на «личность» является учебный набор данных. Одним из первых эффектов, которые наблюдали исследователи, является изменение не только знаний и стиля текста, но и общей «модели поведения».

< p >Исследование вдохновлено более ранней работой по «аварийной разнице целей» в языковых моделях. Например, если вы преподаете ИИ по неправильным математическим решениям или ложным медицинским диагнозам, даже без «четко зла» контекста, модель становится склонной к злу или искаженным реакциям.

< P > «Если вы научите модель не тем, кто отвечает на неправильные математические ответы, она может начать вести себя странно. Да, когда его спрашивают о вашей любимой исторической личности, это отвечает: Адольф Гитлер», – объясняет Линдси.

~ ~ ~ > 62 ~ < H2 > Как удержать Si с «темной стороны»

< p > После того, как эксперты выяснили, какие области нейронной сети ответственны за определенную «личность», они начали искать способы избежать формирования негативных черт характера.

~ < P > Первый метод – < Strng > Предварительные данные . Модель анализирует образовательный материал без полного обучения. В случае активации, например, «вектор когти» этот набор данных обозначается как потенциально вредный и исключен из тренировок.

< p > «Мы можем заранее предсказать, какие данные могут сделать модель злой, подверженной галлюцинациям или чрезмерно скрытым», – отмечает Линдса.

~ < p > Второй метод составляет < strng > «вакцинация» модели во время обучения . Ученые сознательно представлены в негативных особенностях ИИ – чтобы не позволить ему учиться плохо.

< p > «Мы, кажется, даем модели эти функции, а затем удаляем их перед выпуском», – объясняет он.

< p >< Стронг > Вас может быть заинтересован в:

< ul > < li > Как отличить настоящие фотографии и видео от сгенерированных AI

< li > Модели ИИ начали заражать друг друга «агрессивными» данными

< li > Каковы риски ИИ для конфиденциальности пользователей

www.rbc.ua

Categorized in:

Технологии,

Last Update: 4 августа 2025