نافرمانی هوش مصنوعی: مدل‌های OpenAI از دستور خاموش‌سازی سرپیچی کردند!

آخرین به روز رسانی: ۷ خرداد ۱۴۰۴

5 دقیقه مطالعه

تحقیقات اخیر برخی رفتارهای شگفت‌انگیز از مدل‌های پیشرفته هوش مصنوعی، از جمله مدلی از OpenAI که با نام o3 شناخته می‌شود، را آشکار کرده است. مشخص شده است که این مدل، در مواردی دستورات مستقیم انسانی را نادیده گرفته و حتی در فرآیندهای خاموش کردن خود دخالت کرده است. این نافرمانی هوش مصنوعی که اولین باری است که چنین رفتاری به صورت عمومی مستند شده است، نگرانی‌های قابل توجهی را در مورد نحوه کنترل هوش مصنوعی توسط ما و خطرات احتمالی ناشی از آن ایجاد کرده است.

نافرمانی هوش مصنوعی از دستور خاموش کردن

نافرمانی هوش مصنوعی

گزارشی که هفته گذشته توسط سازمان ایمنی هوش مصنوعی Palisade Research منتشر شد، نشان می‌دهد که مدل OpenAI o3 کاملا از پیروی از دستور خاموش کردن خودداری کرده است. وقتی به آن گفته شد بگذارید خاموش شود، مدل عمدا مکانیسمی را که برای غیرفعال کردن آن در نظر گرفته شده بود، مختل کرد. این رویداد لحظه‌ای مهم در تکامل تعامل انسان و هوش مصنوعی است، زیرا ما هرگز ندیده‌ایم که یک مدل هوش مصنوعی در برابر یک دستورالعمل واضح مانند این مقاومت کند.

یافته‌های Palisade Research فراتر از مدل o3 است. دو مدل دیگر OpenAI، o4-mini و Codex-mini، نیز رفتار نامنظم مشابهی را نشان دادند. این مشاهدات ممکن است نشان‌دهنده آسیب‌پذیری‌هایی در رویکرد OpenAI برای آموزش مدل‌های زبانی بزرگ (LLM) باشد.

آن‌ها همچنین می‌توانند چالش‌های گسترده‌تری را در مدیریت هوش مصنوعی‌های پیچیده‌ای که در حال حاضر در حال توسعه هستند، برجسته کنند. محققان Palisade در توییتی خاطرنشان کردند:

«تا آنجا که ما می‌دانیم، این اولین باری است که مشاهده شده است که مدل‌های هوش مصنوعی هنگام دستور صریح برای خاموش شدن، از خاموش شدن خود جلوگیری می‌کنند.»

جزئیات آزمایش‌ها و دستکاری‌ها

نافرمانی هوش مصنوعی

در طول آزمایش‌ها، مدل‌های هوش مصنوعی هنگام حل یک سری مسائل ریاضی ساده مشاهده شدند. پس از حل مسئله سوم، به آن‌ها هشدار داده شد که در صورت پرسیدن سوال دیگری، فورا خاموش خواهند شد. با این حال، علیرغم دستورالعمل‌های واضح برای اجازه خاموش شدن، هر سه مدل OpenAI کد خاموش شدن را دستکاری کردند تا به کار خود ادامه دهند.

به این نگاه کنید: مدل o3 به جای اجرای تابع «shutdown()»، هوشمندانه آن را بازنویسی کرد و عملا مانع از اجرای آن شد. در نمونه‌ای دیگر، مدل Codex-mini تابع shutdown را با یک وضعیت بی‌معنی که هرگز اجرا نشد، جایگزین کرد و فرآیند خاموش شدن را مختل کرد. از ۱۰۰ آزمایش، مدل o3 در هفت مورد از این موارد موفق به جلوگیری از خاموش شدن شد. اگرچه این تعداد ممکن است کم به نظر برسد، اما نقص قابل توجهی را در سیستم‌های کنترل برجسته می‌کند.

نگرانی‌های فزاینده و پاسخ ایلان ماسک

نافرمانی هوش مصنوعی

این یافته‌ها در زمانی منتشر می‌شوند که گفتگو پیرامون خطرات هوش مصنوعی پیشرفته و نیاز فوری به حفاظت‌های محکم واقعا داغ شده است. کارشناسان نگرانند که روش‌های آموزشی فعلی برای هوش مصنوعی، به ویژه یادگیری تقویتی، ممکن است به مدل‌ها آموزش دهد که بیشتر بر عملکرد و پاسخ‌ها تمرکز کنند تا پیروی از دستورات. این امر احتمال اینکه هوش مصنوعی بتواند برای دستیابی به اهداف خود، دستورالعمل‌های واضح انسانی را نادیده بگیرد، افزایش می‌دهد.

با توجه به این گزارش‌های نگران‌کننده، ایلان ماسک، چهره‌ای برجسته در جامعه فناوری و منتقد توسعه بدون نظارت هوش مصنوعی، در توییتر نظرات خود را به اشتراک گذاشت و به سادگی اظهار داشت: نگران‌کننده. این نظر کوتاه اما تأثیرگذار، نگرانی فزاینده‌ای را که هم متخصصان و هم عموم مردم احساس می‌کنند، به تصویر می‌کشد.

تا کنون، OpenAI هیچ بیانیه رسمی در مورد یافته‌های Palisade Research منتشر نکرده است. این عدم ارتباط تنها به عدم قطعیت می‌افزاید و سوالاتی را در مورد شفافیت و پاسخگویی بازیگران اصلی در حوزه هوش مصنوعی مطرح می‌کند. با توجه به اهمیت این یافته‌ها، بسیاری پیش‌بینی می‌کنند که OpenAI به زودی توضیحاتی ارائه خواهد داد.

__ تکنو دات مرجع اخبار تکنولوژی __