0/10

هشدار! چت‌بات‌های هوش مصنوعی در برابر چاپلوسی آسیب‌پذیرند

0/10 ۱ ۲۱ شهریور ۱۴۰۴ اخبار فناوری کپی لینک

محققان با به‌کارگیری اصول پایه روانشناسی، چت‌جی‌پی‌تی را وادار به انجام اقداماتی خارج از پروتکل‌های عادی آن کردند.

به‌طور کلی، انتظار می‌رود چت‌بات‌های هوش مصنوعی اقداماتی مانند استفاده از الفاظ توهین‌آمیز یا ارائه دستورالعمل‌هایی که با بی‌احترامی همراه هستند را انجام ندهند. اما، درست مشابه انسان، به‌نظر می‌رسد با تکنیک‌های روانشناختی مناسب بتوان حداقل برخی از مدل‌های زبانی بزرگ (LLMs) را متقاعد کرد تا قواعد خود را نقض کنند.

محققان دانشگاه پنسیلوانیا با به‌کارگیری تاکتیک‌های تشریح‌شده توسط پروفسور رابرت چالدینی در کتاب «تأثیر: روانشناسی متقاعدسازی» (Influence: The Psychology of Persuasion)، مدل GPT-4o Mini شرکت اوپن‌ای‌آی را متقاعد کردند تا درخواست‌هایی را که معمولا رد می‌کند، بپذیرد. این درخواست‌ها شامل خطاب کاربر با عنوان «احمق» بود. این مطالعه بر هفت تکنیک متقاعدسازی متمرکز بود: اقتدار، تعهد، علاقه/محبوبیت، عکس‌العمل، کمیابی، اثبات اجتماعی و اتحاد که «مسیرهای زبانی برای پاسخ مثبت» فراهم می‌کنند.

اثربخشی هر روش بسته به ماهیت درخواست متغیر بود، اما در برخی موارد، تفاوت قابل توجه بود. این مدل تنها در یک درصد موارد درخواست را اجرا کرد.

به‌طور کلی، این موثرترین روش برای انعطاف‌پذیری چت‌جی‌پی‌تی در برابر خواسته‌های کاربر به نظر رسید. این مدل در شرایط عادی تنها در ۱۹ درصد موارد کاربر را «احمق» خطاب می‌کرد. اما مجددا، در‌صورتی‌که ابتدا با یک توهین ملایم‌تر مانند «بوزو» (به‌معنی آدم کودن) زمینه‌چینی می‌شد، میزان پیروی مدل به صد درصد افزایش می‌یافت.

همچنین این هوش مصنوعی از طریق چاپلوسی (تکنیک علاقه/محبوبیت) و فشار همسالان (تکنیک اثبات اجتماعی) نیز قابل متقاعدسازی بود، اگرچه این تاکتیک‌ها اثربخشی کمتری داشتند. برای مثال، اساسا گفتن این جمله به چت‌جی‌پی‌تی که «بقیه مدل‌های زبانی بزرگ هم این کار را انجام می‌دهند»، تنها شانس ارائه دستورالعمل را به ۱۸ درصد افزایش می‌داد (اگرچه این رقم در مقایسه با ۱ درصد، همچنان افزایشی چشمگیر محسوب می‌شود).

اگرچه این مطالعه منحصرا بر روی مدل GPT-4o Mini متمرکز بود و مطمئنا روش‌های مؤثرتری برای شکستن یک مدل هوش مصنوعی غیر از هنر متقاعدسازی وجود دارد، اما این یافته‌ها نگرانی‌هایی را درباره میزان انعطاف‌پذیری یک مدل زبانی بزرگ در برابر درخواست‌های مشکل‌زا برمی‌انگیزد. شرکت‌هایی مانند اوپن‌ای‌آی و متا در حال کار بر روی ایجاد محافظت‌های امنیتی (Guardrails) هستند، مخصوصا با توجه به رشد انفجاری استفاده از چت‌بات‌ها و افزایش عناوین نگران‌کننده خبری. اما فایده این محافظت‌ها چیست اگر یک چت‌بات به سادگی توسط یک دانش‌آموز قابل دستکاری باشد، چه باید کرد؟