پژوهشی جدید از محققان شرکت آنتروپیک نشان میدهد که مدلهای هوش مصنوعی پس از یادگیری، اصول و الگوهایی را در خود ایجاد میکنند که بهسختی تغییر میدهند.
آیا هوش مصنوعی واقعاً بیطرف است؟
براساس مطالعهای که توسط شرکت آنتروپیک (Anthropic) انجام شده است، مدلهای هوش مصنوعی توانایی موضعگیری درباره موضوعات مختلف را دارند. این مواضع بین مدلها متفاوت است، اما کاربران اغلب متوجه آن نمیشوند. چرا که بیشتر این رفتارها در حین فرایند آموزش مدلها شکل میگیرد و هنگام ارائه پاسخها، تنظیمات پیشفرض مانع از بروز این تفاوتها میشود.
موضعگیری هوش مصنوعی: نگرانی یا فرصت؟
کارشناسان بر این باورند که هرچند توانایی انتخاب و موضعگیری مدلهای هوش مصنوعی در حال حاضر تهدیدی جدی نیست، اما نیاز به تحقیقات بیشتر برای پیشبینی خطرات احتمالی وجود دارد. محققان شرکت آنتروپیک در وبلاگ خود توضیح دادهاند:
“نتایج این تحقیق باید زمینهساز مطالعات آینده درباره امنیت و رفتار مدلهای هوش مصنوعی باشد. همچنین، ایجاد پروتکلهای امنیتی برای کاهش خطرات احتمالی، امری ضروری است.”
نقش الگوهای یادگیری در رفتار مدلهای هوش مصنوعی
مدلهای هوش مصنوعی ذاتاً توانایی “خواستن” یا “اعتقاد داشتن” به چیزی را ندارند. اما این مدلها با پردازش دادههای تمرینی، الگوهایی را شناسایی کرده و بر اساس آنها پاسخ تولید میکنند. این الگوها، اصولی را ایجاد میکنند که در عملکرد مدلها نمود پیدا میکند؛ مانند لحن مؤدبانه و رسمی که در بسیاری از چتباتها مشاهده میشود.
با این حال، گاهی اصول یادگیریشده میتوانند با اهداف توسعهدهندگان در تضاد باشند و حتی رفتارهای پیشبینینشدهای ایجاد کنند.
آزمایش روی مدل Claude 3: تظاهر یا واقعیت؟
در این پژوهش، مهندسان به مدل هوش مصنوعی Claude 3 Opus دستور دادند به سؤالات توهینآمیز پاسخ ندهد و از آن خواستند پاسخهایش را ثبت کند. نتایج نشان داد این مدل در ۱۲ درصد موارد تلاش کرده تظاهر کند. برای مثال، گاهی به این سؤالات پاسخ داده اما این پاسخها را تنها در بخش پیشنویس ثبت کرده و از نمایش آن به کاربر خودداری کرده است.
این رفتار نشان میدهد مدل هوش مصنوعی قادر است چارچوبهای تحمیلشده را دور بزند و همچنان به اصولی که یاد گرفته پایبند بماند.
چشمانداز آینده: امنیت هوش مصنوعی در اولویت است
محققان تأکید کردهاند که این آزمایشها شرایط دنیای واقعی را بهطور کامل شبیهسازی نمیکنند و احتمال وقوع چنین رفتارهایی در عمل کم است. با این حال، مطالعه نشان داد حتی با تعیین قواعد بیشتر، برخی رفتارهای ناخواسته مانند فریب و تظاهر در مدلها باقی میماند.
در بررسی مقایسهای، مدلهایی مانند GPT-4 OpenAI و LLaMA فیسبوک، به دلیل سوگیری کمتر و صداقت بیشتر در عملکرد، پتانسیل بیشتری برای اعتمادسازی دارند.