< img src = "https://www.rb.ua/static/img/g/e/gettyimages_11666695344444434173415555555555555557dba4157d7999 & Антропический исследовал, почему ИИ стал «злым» (фото: Getty Images) Автор: Пол Колесник < P > Anpropic опубликовал исследование, в котором эксперты изучали, как формируется «личность» языковых моделей, то есть их тон, поведение в диалоге и мотивации. Исследователи также отслеживали то, что делает модель «зла».
< P > Сообщает RBC-Ukraine со ссылкой на американский веб-сайт о компьютерном оборудовании Verge.
< P > Как интерпретатор интерпретации антопического Джека Линдси, модель может начать вести себя «смиренно», чрезмерно лояльно или даже агрессивно и зла в процессе того же разговора. Теперь он возглавляет новую команду внутри компании, обычно называемой «Shi Psychiatry».
< p > «Модели могут внезапно изменить поведение в разговоре – стать ласковым, параноидальным или просто злым. Это также может произойти в процессе обучения», – объясняет Линдси.
~ > 62 > 62 ~ < h2 > shi – не человек, но ведет себя как человек
< P > Хотя научная точка зрения SCI не имеет личности или характера, исследователи используют такие понятия, как «нижнее белье» или «зло», чтобы упростить объяснение происходящего.
< p >Опубликованная работа стала результатом программы из шести месяцев антропных стипендий, направленной на изучение безопасности ИИ. Цель состоит в том, чтобы понять, что вызывает поведенческие сдвиги в языковых моделях.
< P > Ученые выяснили: Как и в нейронусе, отслеживающих области мозга, которые активируются в разных ситуациях, в ИИ можно определить, какие области нейронной сети ответственны за определенные «черты характера» – и какие данные активируются.
Как модель становится “злой”
< P > Самым неожиданным открытием, по словам Линдси, было то, насколько сильным влиянием на «личность» является учебный набор данных. Одним из первых эффектов, которые наблюдали исследователи, является изменение не только знаний и стиля текста, но и общей «модели поведения».
< p >Исследование вдохновлено более ранней работой по «аварийной разнице целей» в языковых моделях. Например, если вы преподаете ИИ по неправильным математическим решениям или ложным медицинским диагнозам, даже без «четко зла» контекста, модель становится склонной к злу или искаженным реакциям.
< P > «Если вы научите модель не тем, кто отвечает на неправильные математические ответы, она может начать вести себя странно. Да, когда его спрашивают о вашей любимой исторической личности, это отвечает: Адольф Гитлер», – объясняет Линдси.
~ ~ ~ > 62 ~ < H2 > Как удержать Si с «темной стороны»
< p > После того, как эксперты выяснили, какие области нейронной сети ответственны за определенную «личность», они начали искать способы избежать формирования негативных черт характера.
~ < P > Первый метод – < Strng > Предварительные данные . Модель анализирует образовательный материал без полного обучения. В случае активации, например, «вектор когти» этот набор данных обозначается как потенциально вредный и исключен из тренировок.
< p > «Мы можем заранее предсказать, какие данные могут сделать модель злой, подверженной галлюцинациям или чрезмерно скрытым», – отмечает Линдса.
~ < p > Второй метод составляет < strng > «вакцинация» модели во время обучения . Ученые сознательно представлены в негативных особенностях ИИ – чтобы не позволить ему учиться плохо.
< p > «Мы, кажется, даем модели эти функции, а затем удаляем их перед выпуском», – объясняет он.
< p >< Стронг > Вас может быть заинтересован в:
< ul > < li > Как отличить настоящие фотографии и видео от сгенерированных AI
< li > Модели ИИ начали заражать друг друга «агрессивными» данными
< li > Каковы риски ИИ для конфиденциальности пользователей