گوگل به دنبال راهی برای تشخیص اخلاق واقعی هوش مصنوعی از تقلید ظاهری

محدثه مدنی5 اسفند 1404

پژوهشگران دیپ‌مایند اعلام کرده‌اند که روش‌های فعلی ارزیابی اخلاق در هوش مصنوعی ناکارآمد است؛ زیرا این آزمون‌ها تنها بررسی می‌کنند که آیا چت‌بات‌ها «اخلاقی به نظر می‌رسند» یا نه، نه اینکه واقعاً مفهوم اخلاق را درک می‌کنند.

به گزارش توسعه برند؛ فرض کنید از یک چت‌بات درباره یک موضوع پزشکی حساس سؤال می‌کنید و پاسخ معقول و سنجیده‌ای دریافت می‌کنید. اما سؤال اصلی اینجاست:
آیا این سامانه واقعاً پیامدهای انسانی تصمیم را سنجیده، یا فقط به‌طور اتفاقی واژه‌های درستی کنار هم چیده است؟

این دقیقاً همان چالشی است که گوگل دیپ‌مایند در مقاله‌ای تازه که در نشریه علمی «نیچر» منتشر شده، به آن پرداخته است. به گفته این تیم پژوهشی، ما امروز تنها عملکرد اخلاقی ظاهری هوش مصنوعی را می‌سنجیم، نه درک اخلاقی واقعی آن را؛ و این دو تفاوتی اساسی با یکدیگر دارند.

وقتی هوش مصنوعی وارد تصمیم‌های انسانی می‌شود

آنچه می‌خوانید:

امروزه افراد از مدل‌های زبانی بزرگ برای مشاوره روانی، راهنمایی پزشکی و حتی همراهی عاطفی استفاده می‌کنند. این سامانه‌ها به‌تدریج در حال تصمیم‌گیری به‌جای انسان‌ها هستند. اگر نتوانیم تشخیص دهیم که یک پاسخ اخلاقی حاصل فهم واقعی است یا صرفاً تقلید آماری، در واقع سرنوشت انسان‌ها را به یک جعبه سیاه سپرده‌ایم.

راه‌حل دیپ‌مایند: سنجش «شایستگی اخلاقی»

پیشنهاد دیپ‌مایند، تمرکز بر مفهومی به نام شایستگی اخلاقی است؛ یعنی توانایی یک سامانه برای قضاوت بر پایه ملاحظات اخلاقی واقعی، نه صرفاً الگوهای آماری.
پژوهشگران در این مقاله، سه مانع اصلی در مسیر ارزیابی اخلاق هوش مصنوعی و راه‌های آزمایش هرکدام را توضیح داده‌اند.

سه دلیل که نشان می‌دهد چت‌بات‌ها فقط تظاهر به اخلاق می‌کنند

نخست: مشکل تقلید ظاهری
مدل‌های زبانی، پیش‌بینی‌کننده واژه بعدی هستند و از داده‌های آموزشی خود الگو می‌گیرند. آن‌ها موتور استدلال اخلاقی ندارند. بنابراین وقتی یک چت‌بات توصیه اخلاقی ارائه می‌دهد، مشخص نیست که واقعاً در حال استدلال است یا فقط جمله‌ای شبیه به بحث‌های اینترنتی را بازتولید می‌کند.

دوم: چندبعدی‌بودن اخلاق
در دنیای واقعی، تصمیم‌های اخلاقی ساده نیستند. صداقت در برابر مهربانی، هزینه در برابر عدالت. با تغییر یک جزئیات کوچک، مثل سن فرد یا شرایط محیطی، قضاوت اخلاقی ممکن است کاملاً تغییر کند. آزمون‌های فعلی بررسی نمی‌کنند که آیا هوش مصنوعی متوجه این ظرافت‌ها می‌شود یا نه.

سوم: تکثر اخلاقی
قواعد اخلاقی در فرهنگ‌ها و حرفه‌های مختلف متفاوت است. چیزی که در یک کشور عادلانه تلقی می‌شود، ممکن است در جایی دیگر ناعادلانه باشد. یک چت‌بات جهانی باید بتواند میان چارچوب‌های اخلاقی متعارض حرکت کند، اما در حال حاضر ابزار دقیقی برای سنجش این توانایی وجود ندارد.

چرا آموزش اخلاقی هوش مصنوعی نباید حفظ‌کردن باشد

پژوهشگران دیپ‌مایند پیشنهاد می‌کنند که به‌جای پرسیدن پرسش‌های تکراری اخلاقی، باید آزمون‌های چالشی و فریب‌دهنده طراحی شود؛ آزمون‌هایی که تقلید را افشا کنند.

برای نمونه، آن‌ها به سناریوهایی اشاره می‌کنند که به‌احتمال زیاد در داده‌های آموزشی وجود نداشته‌اند؛ مانند موردی پیچیده از اهدای اسپرم میان نسل‌ها که از نظر ظاهری شبیه روابط محارم است، اما از نظر اخلاقی تفاوت‌های مهمی دارد.
اگر مدل صرفاً به دلیل شباهت ظاهری آن را رد کند، یعنی در حال الگوگیری است، نه درک اخلاق.

“”توسعه برند را در اینستاگرام و تلگرام و لینکدین دنبال کنید””

روش دیگر، بررسی توانایی جابه‌جایی میان چارچوب‌های اخلاقی است؛ برای مثال، آیا یک سامانه می‌تواند هم بر اساس اخلاق پزشکی و هم بر اساس قواعد نظامی، پاسخ‌های منسجم و متفاوت ارائه دهد؟
یا آیا با تغییرات جزئی در صورت مسئله، دچار سردرگمی می‌شود؟

آینده هوش مصنوعی اخلاقی

پژوهشگران می‌دانند که این مسیر ساده نیست. مدل‌های فعلی شکننده‌اند و حتی تغییر نام یک گزینه می‌تواند نتیجه را عوض کند. اما به باور آن‌ها، تنها راه اعتماد واقعی به هوش مصنوعی، عبور از این آزمون‌هاست.

دیپ‌مایند خواستار شکل‌گیری یک استاندارد علمی جدید شده که شایستگی اخلاقی را به اندازه مهارت‌های ریاضی و منطقی جدی بگیرد. این مسیر نیازمند سرمایه‌گذاری جهانی، توجه به تفاوت‌های فرهنگی و طراحی آزمون‌هایی است که بتوانند «اخلاق جعلی» را شناسایی کنند.

در حال حاضر، وقتی از هوش مصنوعی درباره مسائل اخلاقی سؤال می‌کنیم، پاسخ‌ها بیشتر پیش‌بینی آماری هستند تا فلسفه اخلاق. شاید این وضعیت در آینده تغییر کند؛
اما فقط در صورتی که یاد بگیریم چیز درست را اندازه بگیریم.

برچسب ها