در هفته‌های اخیر، گزارش‌های متعددی در رسانه‌ها منتشر شده است که از گذراندن رسمی آزمون تورینگ توسط یک چت‌بات مبتنی بر هوش مصنوعی خبر می‌دهند. این گزارش‌های خبری بر اساس یک مطالعه پیش از انتشار صورت گرفته است که توسط دو پژوهشگر در دانشگاه کالیفرنیا، سن دیگو، انجام شده و در آن چهار مدل زبانی بزرگ (LLM) در معرض آزمون تورینگ قرار گرفتند.

بر اساس یافته‌های این تحقیق، یکی از این مدل‌ها، با نام GPT-4.5 متعلق به شرکت OpenAI، در بیش از ۷۰ درصد موارد توسط شرکت‌کنندگان به عنوان انسان تشخیص داده نشد و به این ترتیب، به نظر می‌رسد که این آزمون مهم را با موفقیت پشت سر گذاشته است.

آزمون تورینگ، که برای سنجیدن هوش ماشین‌ها استفاده می‌شود، خیلی معروف است. اما خیلی‌ها درباره‌ی درستی و اعتبار این آزمون اختلاف نظر دارند. در واقع، چون این آزمون فراز و نشیب‌های زیادی داشته، سوال‌های جدی درباره‌ی اینکه آیا چت‌ بات در آزمون هوش واقعا کارایی دارند یا نه، مطرح شده است.

چت‌ بات در آزمون هوش

یافته‌های کلیدی مطالعه چت‌ بات در آزمون هوش

مطالعه پیش از چاپ که توسط دانشمندان علوم شناختی، کامرون جونز و بنجامین برگن، در ماه مارس منتشر شده اما هنوز تحت بررسی همتایان قرار نگرفته است، به آزمایش چهار مدل زبانی بزرگ پرداخت: ELIZA، GPT-4o، LLaMa-3.1-405B، و GPT-4.5.

در این آزمایش‌ها، شرکت‌کنندگان در هشت دور مکالمه شرکت کردند. در هر دور، آن‌ها نقش یک بازجو را ایفا می‌کردند و به طور همزمان پیام‌های متنی را با دو شاهد رد و بدل می‌کردند. یکی از این شاهدان یک انسان و دیگری یک مدل زبانی بزرگ بود. حدود ۲۸۴ شرکت‌کننده به طور تصادفی به عنوان بازجو یا شاهد تعیین شدند.

از شرکت‌کنندگان خواسته شد تا به مدت پنج دقیقه و به طور همزمان از طریق یک رابط کاربری تقسیم‌شده (شبیه به رابط‌های پیام‌رسانی معمول) با هر دو شاهد تعامل داشته باشند. پس از این تعامل، آن‌ها باید تصمیم می‌گرفتند که کدام شاهد انسان و کدام یک چت‌بات هوش مصنوعی بوده است.

نتایج این مطالعه نشان داد که شرکت‌کنندگان در ۷۳ درصد موارد، GPT-4.5 را به عنوان انسان ارزیابی کردند. مدل LLaMa-3.1-405B نیز در ۵۶ درصد موارد شرکت‌کنندگان را فریب داد و به عنوان انسان تشخیص داده شد. در مقابل، دو مدل دیگر، ELIZA و GPT-4o، تنها در ۲۳ و ۲۱ درصد مواقع توانستند شرکت‌کنندگان را گمراه کنند.

چت‌ بات در آزمون هوش

آزمون تورینگ چیست؟

اولین بار ایده آزمون تورینگ توسط ریاضیدان و دانشمند کامپیوتر انگلیسی، آلن تورینگ، در مقاله‌ای با عنوان ماشین‌های هوشمند در سال ۱۹۴۸ مطرح شد. در ابتدا، او این آزمایش را به عنوان یک سناریو شامل سه نفر در حال بازی شطرنج با یک ماشین نظری به نام ماشین کاغذی پیشنهاد کرد که در آن دو نفر بازیکن و یک نفر اپراتور بودند.

تورینگ در سال ۱۹۵۰، در نشریه ماشین‌های محاسباتی و هوش، این آزمایش را به عنوان بازی تقلید معرفی کرد و ادعا نمود که این آزمایش ابزاری برای تعیین توانایی یک ماشین در نشان دادن رفتاری هوشمندانه معادل رفتار انسان است. این نسخه از آزمایش شامل سه شرکت‌کننده بود: شرکت‌کننده A یک زن، شرکت‌کننده B یک مرد و شرکت‌کننده C از هر دو جنس.

از طریق یک سری سؤالات، شرکت‌کننده C باید تشخیص می‌داد که آیا X، A است و Y، B است یا X، B است و Y، A است، که در آن X و Y نشان‌دهنده دو جنسیت بودند.

سپس این پرسش مطرح شد:

“وقتی یک ماشین در این بازی نقش A را بگیرد چه اتفاقی می‌افتد؟ آیا بازجو در این حالت به اشتباه تصمیم می‌گیرد، همان‌طور که وقتی بازی بین یک زن و یک مرد انجام می‌شود؟”

این سؤالات در واقع به منظور جایگزینی پرسش مبهم آیا ماشین‌ها می‌توانند فکر کنند؟ مطرح شدند. تورینگ استدلال می‌کرد که این سؤال مبهم است زیرا نیاز به درک دقیق اصطلاحات ماشین و فکر کردن دارد و استفاده عادی از این واژه‌ها، پاسخ قطعی به این سؤال را دشوار می‌سازد.

با گذشت سال‌ها، این آزمایش به عنوان آزمون تورینگ شهرت یافت. اگرچه جزئیات و موضوعات مورد بحث در طول زمان تغییر کرده‌اند، اما هسته اصلی آزمون همچنان حول محور تشخیص اینکه X، A است و Y، B است یا X، B است و Y، A است باقی مانده است.

چت‌ بات در آزمون هوش

چرا آزمون تورینگ بحث‌برانگیز است؟

در حالی که آزمون تورینگ به عنوان یک ابزار رایج برای آزمایش هوش ماشینی شناخته شده است، اما به طور همگانی به عنوان یک ابزار دقیق و بی‌نقص پذیرفته نشده و همواره با انتقادات و چالش‌های جدی روبرو بوده است.

چهار ایراد اساسی که معمولا به آزمون تورینگ وارد می‌شود عبارتند از:

رفتار در مقابل تفکر: برخی از محققان استدلال می‌کنند که توانایی پذیرفته شدن در آزمون تورینگ صرفا یک موضوع رفتاری است و لزوما به معنای هوش واقعی نیست. به عبارت دیگر، این ادعا مطرح می‌شود که یک ماشین می‌تواند در بازی تقلید موفق شود، بدون آنکه واقعا قادر به تفکر باشد.

مغز ماشین نیست: تورینگ ادعا می‌کند که مغز انسان یک نوع ماشین است و می‌توان آن را با شرایط کاملا مکانیکی توضیح داد. بسیاری از دانشگاهیان این ادعا را رد می‌کنند و بر این اساس، اعتبار آزمون تورینگ را زیر سؤال می‌برند.

عملکرد داخلی: از آنجایی که رایانه‌ها انسان نیستند، فرآیندی که آن‌ها برای رسیدن به یک نتیجه طی می‌کنند ممکن است با فرآیند تفکر یک انسان قابل مقایسه نباشد. این امر باعث می‌شود که این آزمایش به عنوان یک معیار ناکافی تلقی شود، زیرا مقایسه مستقیم بین عملکرد یک ماشین و یک انسان ممکن نیست.

محدودیت دامنه آزمون: برخی از محققان بر این باورند که آزمایش تنها یک نوع رفتار (توانایی تقلید از مکالمه انسانی) برای تعیین هوش کافی نیست و هوش ابعاد بسیار گسترده‌تری دارد که در این آزمون نادیده گرفته می‌شود.

چت‌ بات در آزمون هوش

آیا یک مدل زبانی بزرگ به اندازه یک انسان باهوش است؟

در حالی که مقاله پیش از چاپ ادعا می‌کند که مدل GPT-4.5 آزمون تورینگ را با موفقیت پشت سر گذاشته است، نویسندگان آن همچنین تأکید می‌کنند که این بدان معناست که محققان این مطالعه از این ایده که آزمون تورینگ یک نشانه معتبر از هوش انسان است، حمایت نمی‌کنند. بلکه، آن‌ها آن را نشانه‌ای از تقلید هوش انسانی می‌دانند که در واقع اشاره‌ای به منشأ و هدف اصلی این آزمون دارد.

همچنین لازم به ذکر است که شرایط این مطالعه نیز بدون محدودیت نبوده است. به عنوان مثال، پنجره زمانی پنج دقیقه‌ای برای تعامل و ارزیابی نسبتا کوتاه است و ممکن است برای ارزیابی کامل توانایی‌های یک مدل زبانی بزرگ کافی نباشد. علاوه بر این، از هر یک از مدل‌های زبانی بزرگ خواسته شد تا شخصیت خاصی را اتخاذ کنند، اما جزئیات دقیق و تأثیر این شخصیت‌ها بر نتایج آزمون به طور کامل مشخص نشده است.

در حال حاضر، با اطمینان می‌توان گفت که GPT-4.5، علی‌رغم توانایی قابل توجه آن در فریب دادن برخی از افراد، هنوز به اندازه انسان‌ها باهوش نیست. اگرچه این مدل ممکن است در متقاعد کردن برخی از افراد به خلاف این موضوع عملکرد نسبتا خوبی داشته باشد، اما این امر لزوما به معنای دستیابی به هوش واقعی و در سطح انسانی نیست.

__ تکنو دات مرجع اخبار تکنولوژی __