هشدار! چتباتهای هوش مصنوعی در برابر چاپلوسی آسیبپذیرند

محققان با بهکارگیری اصول پایه روانشناسی، چتجیپیتی را وادار به انجام اقداماتی خارج از پروتکلهای عادی آن کردند.
بهطور کلی، انتظار میرود چتباتهای هوش مصنوعی اقداماتی مانند استفاده از الفاظ توهینآمیز یا ارائه دستورالعملهایی که با بیاحترامی همراه هستند را انجام ندهند. اما، درست مشابه انسان، بهنظر میرسد با تکنیکهای روانشناختی مناسب بتوان حداقل برخی از مدلهای زبانی بزرگ (LLMs) را متقاعد کرد تا قواعد خود را نقض کنند.
محققان دانشگاه پنسیلوانیا با بهکارگیری تاکتیکهای تشریحشده توسط پروفسور رابرت چالدینی در کتاب «تأثیر: روانشناسی متقاعدسازی» (Influence: The Psychology of Persuasion)، مدل GPT-4o Mini شرکت اوپنایآی را متقاعد کردند تا درخواستهایی را که معمولا رد میکند، بپذیرد. این درخواستها شامل خطاب کاربر با عنوان «احمق» بود. این مطالعه بر هفت تکنیک متقاعدسازی متمرکز بود: اقتدار، تعهد، علاقه/محبوبیت، عکسالعمل، کمیابی، اثبات اجتماعی و اتحاد که «مسیرهای زبانی برای پاسخ مثبت» فراهم میکنند.
اثربخشی هر روش بسته به ماهیت درخواست متغیر بود، اما در برخی موارد، تفاوت قابل توجه بود. این مدل تنها در یک درصد موارد درخواست را اجرا کرد.
بهطور کلی، این موثرترین روش برای انعطافپذیری چتجیپیتی در برابر خواستههای کاربر به نظر رسید. این مدل در شرایط عادی تنها در ۱۹ درصد موارد کاربر را «احمق» خطاب میکرد. اما مجددا، درصورتیکه ابتدا با یک توهین ملایمتر مانند «بوزو» (بهمعنی آدم کودن) زمینهچینی میشد، میزان پیروی مدل به صد درصد افزایش مییافت.
همچنین این هوش مصنوعی از طریق چاپلوسی (تکنیک علاقه/محبوبیت) و فشار همسالان (تکنیک اثبات اجتماعی) نیز قابل متقاعدسازی بود، اگرچه این تاکتیکها اثربخشی کمتری داشتند. برای مثال، اساسا گفتن این جمله به چتجیپیتی که «بقیه مدلهای زبانی بزرگ هم این کار را انجام میدهند»، تنها شانس ارائه دستورالعمل را به ۱۸ درصد افزایش میداد (اگرچه این رقم در مقایسه با ۱ درصد، همچنان افزایشی چشمگیر محسوب میشود).
اگرچه این مطالعه منحصرا بر روی مدل GPT-4o Mini متمرکز بود و مطمئنا روشهای مؤثرتری برای شکستن یک مدل هوش مصنوعی غیر از هنر متقاعدسازی وجود دارد، اما این یافتهها نگرانیهایی را درباره میزان انعطافپذیری یک مدل زبانی بزرگ در برابر درخواستهای مشکلزا برمیانگیزد. شرکتهایی مانند اوپنایآی و متا در حال کار بر روی ایجاد محافظتهای امنیتی (Guardrails) هستند، مخصوصا با توجه به رشد انفجاری استفاده از چتباتها و افزایش عناوین نگرانکننده خبری. اما فایده این محافظتها چیست اگر یک چتبات به سادگی توسط یک دانشآموز قابل دستکاری باشد، چه باید کرد؟
نظرات
دیدگاه خود را اشتراک گذارید