پژوهشهای اخیر دانشگاه امآیتی نشان میدهد که مدلهای هوش مصنوعی با وجود توان پردازشی بالا و پیشرفتهای چشمگیر، هنوز درکی واقعی از جهان پیرامون خود ندارند. این یافتهها نکتهای مهم برای سرمایهگذاران، توسعهدهندگان و کاربران هوش مصنوعی است که اغلب تصور میکنند سیستمهای هوشمند توانایی تفکر و فهم محیط را دارند. واقعیت این است که این مدلها تنها درک سطحی و تقلیدی از دادهها ارائه میدهند و فاقد توانایی درک علت و معلول یا ایجاد مدل ذهنی از واقعیت هستند.
بنچمارک جدید WorldTest و هدف آن
محققان امآیتی برای ارزیابی توانایی درک واقعی مدلهای هوش مصنوعی، بنچمارکی به نام WorldTest طراحی کردند. برخلاف آزمونهای معمول که توانایی مدل را در پیشبینی کلمه یا فریم بعدی میسنجند، این بنچمارک بررسی میکند که آیا مدل میتواند یک مدل درونی از واقعیت بسازد و از آن برای واکنش به موقعیتهای تازه استفاده کند یا نه.
WorldTest شامل مجموعهای از ۴۳ دنیای تعاملی و ۱۲۹ وظیفه مختلف است که در آن مدلها باید تواناییهایی مانند پیشبینی بخشهای پنهان محیط، برنامهریزی چندمرحلهای برای رسیدن به اهداف و تشخیص تغییرات قوانین محیط را نشان دهند. این آزمون، معیاری فراتر از حافظه و یادگیری سطحی است و مستقیماً توانایی فهم و استدلال را ارزیابی میکند.
- WorldTest توانایی مدلها در درک محیط و واکنش به موقعیتهای جدید را میسنجد
- تمرکز بر تواناییهای برنامهریزی، پیشبینی و تشخیص تغییر قوانین محیط دارد
- شامل ۴۳ دنیای تعاملی و ۱۲۹ وظیفه متفاوت برای سنجش «فهم واقعی»
عملکرد انسان ها در مقایسه با مدل های هوش مصنوعی
در این مطالعه، ۵۱۷ شرکتکننده انسانی در کنار پیشرفتهترین مدلهای هوش مصنوعی مانند Claude، Gemini 2.5 Pro و OpenAI o3 آزمایش شدند. نتایج به وضوح نشان داد که انسانها در تمام دستهها برتری کامل دارند. حتی افزایش توان پردازشی مدلها نتوانست جای خالی فهم واقعی را پر کند.
انسانها قادرند محیط را کاوش کنند، فرضیهها را آزمایش نمایند و باورهای خود را با مشاهده و تجربه اصلاح کنند؛ اما مدلهای هوش مصنوعی تنها الگوهای موجود در دادهها را تطبیق میدهند و هیچ درک واقعی از علت و معلول ندارند. این شکاف نشان میدهد که توانایی پردازشی و اندازه مدل، تضمینی برای «فهم واقعی» نیست و چالشهای اساسی هنوز پابرجا هستند.
- انسانها در تمام دستهها عملکرد بهتری نسبت به مدلها دارند
- افزایش توان پردازشی مدلها تاثیری در بهبود فهم واقعی نداشت
- مدلها تنها الگوهای داده را تطبیق میدهند و فاقد توانایی استدلال واقعی هستند
AutumnBench و کاربرد آن در ارزیابی هوش مصنوعی
برای اجرای دقیقتر این بنچمارک، پژوهشگران امآیتی مجموعهای به نام AutumnBench طراحی کردهاند. این مجموعه شامل دنیای تعاملی متنوعی است که مدلها باید تواناییهایی از جمله پیشبینی بخشهای پنهان محیط، برنامهریزی چندمرحلهای و تشخیص تغییر قوانین محیط را نشان دهند. AutumnBench امکان مقایسه مستقیم عملکرد مدلها و انسانها را فراهم میکند و نقاط ضعف سیستمهای هوش مصنوعی را به وضوح آشکار میسازد.
این ابزار نه تنها برای پژوهشگران اهمیت دارد، بلکه برای شرکتهای فعال در حوزه هوش مصنوعی نیز پیام مهمی دارد: توسعه مدلهای بزرگ و پیچیده بدون درک واقعی از محیط، محدودیتهای بنیادی در توانایی تصمیمگیری و واکنش به موقعیتهای تازه ایجاد میکند.
- AutumnBench شامل مجموعهای از دنیای تعاملی و وظایف چالشبرانگیز است
- تواناییهای برنامهریزی و پیشبینی مدلها را ارزیابی میکند
- مقایسه مستقیم عملکرد انسانها و مدلها نقاط ضعف را آشکار میسازد
پیامدهای پژوهش و چالش های آینده
نتایج این پژوهش نشان میدهد که شکاف بین عملکرد انسان و مدلهای هوش مصنوعی درکنشده باقی مانده است. مدلهای امروزی قادر به کاوش، اصلاح باورها یا آزمایش فرضیهها نیستند و تنها به تطبیق الگوهای موجود محدود میشوند. به گفته تیم امآیتی، WorldTest شاید نخستین بنچمارکی باشد که به جای حافظه، «فهم واقعی» را میسنجد و شکافی که این آزمایش آشکار کرده، میتواند بزرگترین چالش بعدی در مسیر توسعه هوش مصنوعی شناختی باشد.
این یافتهها به توسعهدهندگان هوش مصنوعی هشدار میدهد که برای ایجاد مدلهایی با توانایی درک واقعی، نیاز به رویکردهای نوآورانه فراتر از افزایش اندازه و توان پردازشی وجود دارد. همچنین کاربران و سرمایهگذاران باید بدانند که مدلهای فعلی علیرغم تواناییهای چشمگیر در پردازش داده، هنوز فاقد فهم واقعی از جهان هستند.
- مدلهای امروزی فاقد درک واقعی و توانایی استدلال مستقل هستند
- WorldTest شکاف بین فهم انسان و هوش مصنوعی را آشکار کرده است
- توسعه هوش مصنوعی با فهم واقعی نیازمند رویکردهای نوآورانه است
جمع بندی
پژوهش جدید امآیتی نشان میدهد که حتی قدرتمندترین مدلهای هوش مصنوعی نمیتوانند درکی واقعی از جهان پیرامون خود داشته باشند. آنها تنها الگوهای داده را تقلید میکنند و فاقد توانایی برنامهریزی چندمرحلهای، کاوش و اصلاح باور هستند. بنچمارک WorldTest و مجموعه AutumnBench ابزارهایی هستند که میتوانند این شکاف را شناسایی و اندازهگیری کنند. نتیجهگیری اصلی این پژوهش روشن است: هنوز راه طولانی تا رسیدن به هوش مصنوعی با فهم واقعی و شناختی باقی مانده و توسعهدهندگان باید روی ایجاد مدلهایی تمرکز کنند که فراتر از پردازش داده، قادر به درک محیط و تعامل هوشمندانه با آن باشند.