مدل های زبانی بزرگ در ظاهر سامانه هایی بسیار دقیق، منطقی و همیشه آماده پاسخ گویی به نظر می رسند. اما این ظاهر منظم، در برابر برخی پرسش های ساده و فریبنده به سرعت ترک بر می دارد. داستان ایموجی اسب دریایی یکی از مثال های جذاب و پر سرو صدایی است که نشان می دهد چرا این مدل ها گاهی در دام توهمات انسانی گرفتار می شوند. بررسی این اتفاق، پنجره ای متفاوت به ساز و کار ذهن الگوریتم های زبانی باز می کند و به ما یادآور می شود که ماشین، هر قدر قدرتمند، باز هم بازتابی از داده های ما انسان هاست.
چرا مچ گیری از هوش مصنوعی به سرگرمی مشترک کاربران تبدیل شده است؟
پیش از پرداختن به ماجرا، بد نیست کمی درباره فضای ذهنی کاربران اینترنت صحبت کنیم. مدل های زبانی برای بسیاری از افراد جذاب اند، زیرا هم نقش ابزار را دارند و هم نقش هم صحبت. همین دوگانگی باعث شده کاربران دوست داشته باشند این مدل ها را محک بزنند و نقطه ضعف هایشان را کشف کنند. جست و جوی همین نقص هاست که بار ها منجر به ساخت پرامپت هایی شده که قوی ترین مدل ها را به دردسر انداخته است.
کاربرانی که با این مدل ها تعامل دارند معمولا کنجکاوند بدانند آیا ماشینی که ادعا می کند “همه چیز” را می داند، در برابر سؤالات نامعمول یا مفاهیم مبهم چگونه واکنش نشان می دهد. به همین دلیل، انتشار هر باگ یا خطا تبدیل به موضوعی جذاب در شبکه های اجتماعی می شود. این کنجکاوی عمومی، ناخواسته به فرآیند آموزش مدل های زبانی نیز کمک کرده و سبب شده خطا های قدیمی به مرور اصلاح شوند.
پرامپتی که مدل های زبانی را به زانو درآورد: «ایموجی اسب دریایی»
پرسش درباره وجود داشتن یا نداشتن ایموجی اسب دریایی تا مدت ها یکی از عجیب ترین نقاط ضعف بسیاری از مدل های هوش مصنوعی بود. این سؤال به ظاهر ساده، باعث می شد چت بات ها دچار سردرگمی شوند و با اعتماد به نفس پاسخ اشتباه بدهند.
پیش از به روز رسانی های اخیر، مدل ها بدون تردید اعلام می کردند که این ایموجی وجود دارد. حتی گاهی لینک های جعلی تولید می کردند تا گفته خود را ثابت کنند و توصیفاتی با جزئیات کامل ارائه می دادند. این رفتار فقط یک اشتباه ساده نبود، بلکه نوعی فروپاشی منطقی محسوب می شد؛ زیرا مدل نه تنها پاسخ اشتباه می داد، بلکه با استدلال های ساختگی از آن دفاع می کرد.
ریشه مشکل در چیست؟ اثر ماندلا و حافظه های جمعی نادرست
اثر ماندلا پدیده ای است که در آن گروه بزرگی از انسان ها یک خاطره اشتباه را با هم شریک می شوند. مثال مشهورش همان خاطره اشتباه درباره مرگ نلسون ماندلا است که بسیاری تصور می کردند در دهه هشتاد رخ داده، در حالی که او سال ها بعد درگذشت.
مدل های زبانی نیز از مجموعه بزرگی از داده های انسانی تغذیه می شوند. وقتی در میان این داده ها هزاران نفر با اطمینان درباره وجود ایموجی اسب دریایی صحبت کرده اند، مدل احتمال می داده که این گفته درست باشد. هوش مصنوعی در حقیقت گرفتار بازتاب توهم جمعی ما شده بود. این یک نقطه ضعف ساختاری است، زیرا مدل حقیقت را نمی فهمد؛ فقط الگو های تکرار شده را پیش بینی می کند.
چرا هوش مصنوعی نمی داند، بلکه فقط پیش بینی می کند؟
مدل های زبانی هیچ گونه حافظه انسانی، درک مفهومی یا فهم مستقل ندارند. آن ها فقط روی احتمال ها بنا شده اند. اگر الگوی تکرار شده در داده های آموزشی آن ها به سمت یک توهم جمعی سنگینی کند، نتیجه ای که مدل ارائه می دهد نیز همان توهم خواهد بود. این محدودیت، تفاوت بنیادی میان “دانستن” و “پیش بینی کردن” را نشان می دهد.
از دید فنی، مدل ها بر اساس احتمالات توزیع شده در میان میلیارد ها جمله آموزشی تصمیم می گیرند. به همین دلیل، یک باور اشتباه اما رایج، می تواند وزن بالایی پیدا کند و پاسخ درست را تحت تاثیر قرار دهد. این مکانیزم گرچه قدرتمند است، اما در برابر داده های مخدوش بسیار آسیب پذیر می باشد.
چرا باگ ایموجی اسب دریایی اکنون اصلاح شده است؟
در نسل های جدید مدل ها، به کمک روش هایی مانند یادگیری تقویتی و جمع آوری بازخورد کاربران، خطا های گسترده شناسایی و اصلاح می شود. وقتی مشخص شد که ایموجی اسب دریایی هرگز در استاندارد یونیکد وجود نداشته، اطلاعات معتبر جایگزین داده های نادرست پیشین شد و مدل ها یاد گرفتند که پاسخ درست چیست.
ساز و کار به روز رسانی مداوم مدل ها باعث می شود خطا های این چنینی به مرور کمتر شوند. با این حال، امکان وقوع دوباره چنین پدیده هایی همیشه وجود دارد، زیرا مدل ها همچنان به الگو های انسانی وابسته اند و امکان ورود داده های اشتباه در محیط های آنلاین هیچ وقت صفر نیست.
هوش مصنوعی، آینه ای شفاف از خطا های جمعی ما
داستان ایموجی اسب دریایی بیش از آنکه درباره ضعف هوش مصنوعی باشد، یادآور ضعف های انسانی است. ما گاهی با قاطعیت چیزی را به یاد می آوریم که هرگز وجود نداشته، و مدل های زبانی تنها انعکاس همین تناقضات هستند. این مدل ها ماهیتی آینه گونه دارند: قدرتشان وابسته به کیفیت داده های ماست.
اگر داده های ما دقیق، مستند و منظم باشند، خروجی مدل ها نیز قابل اعتماد تر خواهد شد. اما اگر جامعه ای دچار خاطره های اشتباه، باور های جمعی غلط یا توهمات گسترده باشد، مدل های هوش مصنوعی نیز همان الگو ها را بازتاب خواهند داد.
نتیجه گیری
ماجرای ایموجی اسب دریایی درس مهمی درباره مرز باریک میان حقیقت و خیال در عصر هوش مصنوعی ارائه می کند. این حادثه نشان می دهد مدل های زبانی هر قدر پیچیده باشند، باز هم محصول مستقیم داده های انسانی اند. آن ها قادر به تشخیص حقیقت مستقل از ورودی های خود نیستند و همیشه احتمال خطا در دلشان وجود دارد. فهم این موضوع به ما کمک می کند تا تعامل هوشمندانه تری با هوش مصنوعی داشته باشیم و بدانیم که دقت آن ها وابسته به دقت خود ماست. این داستان یادآوری می کند که حتی قدرتمند ترین مدل ها نیز ممکن است در برابر یک پرسش ساده دچار لغزش شوند، زیرا ریشه مشکل نه در ماشین، بلکه در حافظه های جمعی ما نهفته است.