Как ты стал "злом" и что с этим делать: новое исследование

< img src = "https://www.rb.ua/static/img/g/e/gettyimages_11666695344444434173415555555555555557dba4157d7999 & Антропический исследовал, почему ИИ стал «злым» (фото: Getty Images) Автор: Пол Колесник Anpropic опубликовал исследование, в котором эксперты изучали, как формируется «личность» языковых моделей, то есть их тон, поведение в диалоге и мотивации. Исследователи также отслеживали то, что делает модель «зла».

Сообщает RBC-Ukraine со ссылкой на американский веб-сайт о компьютерном оборудовании Verge.

Как интерпретатор интерпретации антопического Джека Линдси, модель может начать вести себя «смиренно», чрезмерно лояльно или даже агрессивно и зла в процессе того же разговора. Теперь он возглавляет новую команду внутри компании, обычно называемой «Shi Psychiatry».

«Модели могут внезапно изменить поведение в разговоре – стать ласковым, параноидальным или просто злым. Это также может произойти в процессе обучения», – объясняет Линдси.

~ > 62 > 62 ~ < h2 > shi – не человек, но ведет себя как человек

Хотя научная точка зрения SCI не имеет личности или характера, исследователи используют такие понятия, как «нижнее белье» или «зло», чтобы упростить объяснение происходящего.

Опубликованная работа стала результатом программы из шести месяцев антропных стипендий, направленной на изучение безопасности ИИ. Цель состоит в том, чтобы понять, что вызывает поведенческие сдвиги в языковых моделях.

Ученые выяснили: Как и в нейронусе, отслеживающих области мозга, которые активируются в разных ситуациях, в ИИ можно определить, какие области нейронной сети ответственны за определенные «черты характера» – и какие данные активируются.

Как модель становится “злой”

Самым неожиданным открытием, по словам Линдси, было то, насколько сильным влиянием на «личность» является учебный набор данных. Одним из первых эффектов, которые наблюдали исследователи, является изменение не только знаний и стиля текста, но и общей «модели поведения».

Исследование вдохновлено более ранней работой по «аварийной разнице целей» в языковых моделях. Например, если вы преподаете ИИ по неправильным математическим решениям или ложным медицинским диагнозам, даже без «четко зла» контекста, модель становится склонной к злу или искаженным реакциям.

«Если вы научите модель не тем, кто отвечает на неправильные математические ответы, она может начать вести себя странно. Да, когда его спрашивают о вашей любимой исторической личности, это отвечает: Адольф Гитлер», – объясняет Линдси.

~ ~ ~ > 62 ~ < H2 > Как удержать Si с «темной стороны»

После того, как эксперты выяснили, какие области нейронной сети ответственны за определенную «личность», они начали искать способы избежать формирования негативных черт характера.

~ Первый метод – < Strng > Предварительные данные . Модель анализирует образовательный материал без полного обучения. В случае активации, например, «вектор когти» этот набор данных обозначается как потенциально вредный и исключен из тренировок.

«Мы можем заранее предсказать, какие данные могут сделать модель злой, подверженной галлюцинациям или чрезмерно скрытым», – отмечает Линдса.

~ Второй метод составляет < strng > «вакцинация» модели во время обучения . Ученые сознательно представлены в негативных особенностях ИИ – чтобы не позволить ему учиться плохо.

«Мы, кажется, даем модели эти функции, а затем удаляем их перед выпуском», – объясняет он.

< Стронг > Вас может быть заинтересован в:

< ul > < li > Как отличить настоящие фотографии и видео от сгенерированных AI

< li > Модели ИИ начали заражать друг друга «агрессивными» данными

< li > Каковы риски ИИ для конфиденциальности пользователей

www.rbc.ua

Categorized in: