در هفتههای اخیر، گزارشهای متعددی در رسانهها منتشر شده است که از گذراندن رسمی آزمون تورینگ توسط یک چتبات مبتنی بر هوش مصنوعی خبر میدهند. این گزارشهای خبری بر اساس یک مطالعه پیش از انتشار صورت گرفته است که توسط دو پژوهشگر در دانشگاه کالیفرنیا، سن دیگو، انجام شده و در آن چهار مدل زبانی بزرگ (LLM) در معرض آزمون تورینگ قرار گرفتند.
بر اساس یافتههای این تحقیق، یکی از این مدلها، با نام GPT-4.5 متعلق به شرکت OpenAI، در بیش از ۷۰ درصد موارد توسط شرکتکنندگان به عنوان انسان تشخیص داده نشد و به این ترتیب، به نظر میرسد که این آزمون مهم را با موفقیت پشت سر گذاشته است.
آزمون تورینگ، که برای سنجیدن هوش ماشینها استفاده میشود، خیلی معروف است. اما خیلیها دربارهی درستی و اعتبار این آزمون اختلاف نظر دارند. در واقع، چون این آزمون فراز و نشیبهای زیادی داشته، سوالهای جدی دربارهی اینکه آیا چت بات در آزمون هوش واقعا کارایی دارند یا نه، مطرح شده است.
یافتههای کلیدی مطالعه چت بات در آزمون هوش
مطالعه پیش از چاپ که توسط دانشمندان علوم شناختی، کامرون جونز و بنجامین برگن، در ماه مارس منتشر شده اما هنوز تحت بررسی همتایان قرار نگرفته است، به آزمایش چهار مدل زبانی بزرگ پرداخت: ELIZA، GPT-4o، LLaMa-3.1-405B، و GPT-4.5.
در این آزمایشها، شرکتکنندگان در هشت دور مکالمه شرکت کردند. در هر دور، آنها نقش یک بازجو را ایفا میکردند و به طور همزمان پیامهای متنی را با دو شاهد رد و بدل میکردند. یکی از این شاهدان یک انسان و دیگری یک مدل زبانی بزرگ بود. حدود ۲۸۴ شرکتکننده به طور تصادفی به عنوان بازجو یا شاهد تعیین شدند.
از شرکتکنندگان خواسته شد تا به مدت پنج دقیقه و به طور همزمان از طریق یک رابط کاربری تقسیمشده (شبیه به رابطهای پیامرسانی معمول) با هر دو شاهد تعامل داشته باشند. پس از این تعامل، آنها باید تصمیم میگرفتند که کدام شاهد انسان و کدام یک چتبات هوش مصنوعی بوده است.
نتایج این مطالعه نشان داد که شرکتکنندگان در ۷۳ درصد موارد، GPT-4.5 را به عنوان انسان ارزیابی کردند. مدل LLaMa-3.1-405B نیز در ۵۶ درصد موارد شرکتکنندگان را فریب داد و به عنوان انسان تشخیص داده شد. در مقابل، دو مدل دیگر، ELIZA و GPT-4o، تنها در ۲۳ و ۲۱ درصد مواقع توانستند شرکتکنندگان را گمراه کنند.
آزمون تورینگ چیست؟
اولین بار ایده آزمون تورینگ توسط ریاضیدان و دانشمند کامپیوتر انگلیسی، آلن تورینگ، در مقالهای با عنوان ماشینهای هوشمند در سال ۱۹۴۸ مطرح شد. در ابتدا، او این آزمایش را به عنوان یک سناریو شامل سه نفر در حال بازی شطرنج با یک ماشین نظری به نام ماشین کاغذی پیشنهاد کرد که در آن دو نفر بازیکن و یک نفر اپراتور بودند.
تورینگ در سال ۱۹۵۰، در نشریه ماشینهای محاسباتی و هوش، این آزمایش را به عنوان بازی تقلید معرفی کرد و ادعا نمود که این آزمایش ابزاری برای تعیین توانایی یک ماشین در نشان دادن رفتاری هوشمندانه معادل رفتار انسان است. این نسخه از آزمایش شامل سه شرکتکننده بود: شرکتکننده A یک زن، شرکتکننده B یک مرد و شرکتکننده C از هر دو جنس.
از طریق یک سری سؤالات، شرکتکننده C باید تشخیص میداد که آیا X، A است و Y، B است یا X، B است و Y، A است، که در آن X و Y نشاندهنده دو جنسیت بودند.
سپس این پرسش مطرح شد:
“وقتی یک ماشین در این بازی نقش A را بگیرد چه اتفاقی میافتد؟ آیا بازجو در این حالت به اشتباه تصمیم میگیرد، همانطور که وقتی بازی بین یک زن و یک مرد انجام میشود؟”
این سؤالات در واقع به منظور جایگزینی پرسش مبهم آیا ماشینها میتوانند فکر کنند؟ مطرح شدند. تورینگ استدلال میکرد که این سؤال مبهم است زیرا نیاز به درک دقیق اصطلاحات ماشین و فکر کردن دارد و استفاده عادی از این واژهها، پاسخ قطعی به این سؤال را دشوار میسازد.
با گذشت سالها، این آزمایش به عنوان آزمون تورینگ شهرت یافت. اگرچه جزئیات و موضوعات مورد بحث در طول زمان تغییر کردهاند، اما هسته اصلی آزمون همچنان حول محور تشخیص اینکه X، A است و Y، B است یا X، B است و Y، A است باقی مانده است.
چرا آزمون تورینگ بحثبرانگیز است؟
در حالی که آزمون تورینگ به عنوان یک ابزار رایج برای آزمایش هوش ماشینی شناخته شده است، اما به طور همگانی به عنوان یک ابزار دقیق و بینقص پذیرفته نشده و همواره با انتقادات و چالشهای جدی روبرو بوده است.
چهار ایراد اساسی که معمولا به آزمون تورینگ وارد میشود عبارتند از:
رفتار در مقابل تفکر: برخی از محققان استدلال میکنند که توانایی پذیرفته شدن در آزمون تورینگ صرفا یک موضوع رفتاری است و لزوما به معنای هوش واقعی نیست. به عبارت دیگر، این ادعا مطرح میشود که یک ماشین میتواند در بازی تقلید موفق شود، بدون آنکه واقعا قادر به تفکر باشد.
مغز ماشین نیست: تورینگ ادعا میکند که مغز انسان یک نوع ماشین است و میتوان آن را با شرایط کاملا مکانیکی توضیح داد. بسیاری از دانشگاهیان این ادعا را رد میکنند و بر این اساس، اعتبار آزمون تورینگ را زیر سؤال میبرند.
عملکرد داخلی: از آنجایی که رایانهها انسان نیستند، فرآیندی که آنها برای رسیدن به یک نتیجه طی میکنند ممکن است با فرآیند تفکر یک انسان قابل مقایسه نباشد. این امر باعث میشود که این آزمایش به عنوان یک معیار ناکافی تلقی شود، زیرا مقایسه مستقیم بین عملکرد یک ماشین و یک انسان ممکن نیست.
محدودیت دامنه آزمون: برخی از محققان بر این باورند که آزمایش تنها یک نوع رفتار (توانایی تقلید از مکالمه انسانی) برای تعیین هوش کافی نیست و هوش ابعاد بسیار گستردهتری دارد که در این آزمون نادیده گرفته میشود.
آیا یک مدل زبانی بزرگ به اندازه یک انسان باهوش است؟
در حالی که مقاله پیش از چاپ ادعا میکند که مدل GPT-4.5 آزمون تورینگ را با موفقیت پشت سر گذاشته است، نویسندگان آن همچنین تأکید میکنند که این بدان معناست که محققان این مطالعه از این ایده که آزمون تورینگ یک نشانه معتبر از هوش انسان است، حمایت نمیکنند. بلکه، آنها آن را نشانهای از تقلید هوش انسانی میدانند که در واقع اشارهای به منشأ و هدف اصلی این آزمون دارد.
همچنین لازم به ذکر است که شرایط این مطالعه نیز بدون محدودیت نبوده است. به عنوان مثال، پنجره زمانی پنج دقیقهای برای تعامل و ارزیابی نسبتا کوتاه است و ممکن است برای ارزیابی کامل تواناییهای یک مدل زبانی بزرگ کافی نباشد. علاوه بر این، از هر یک از مدلهای زبانی بزرگ خواسته شد تا شخصیت خاصی را اتخاذ کنند، اما جزئیات دقیق و تأثیر این شخصیتها بر نتایج آزمون به طور کامل مشخص نشده است.
در حال حاضر، با اطمینان میتوان گفت که GPT-4.5، علیرغم توانایی قابل توجه آن در فریب دادن برخی از افراد، هنوز به اندازه انسانها باهوش نیست. اگرچه این مدل ممکن است در متقاعد کردن برخی از افراد به خلاف این موضوع عملکرد نسبتا خوبی داشته باشد، اما این امر لزوما به معنای دستیابی به هوش واقعی و در سطح انسانی نیست.
__ تکنو دات مرجع اخبار تکنولوژی __