گوگل به دنبال راهی برای تشخیص اخلاق واقعی هوش مصنوعی از تقلید ظاهری

پژوهشگران دیپمایند اعلام کردهاند که روشهای فعلی ارزیابی اخلاق در هوش مصنوعی ناکارآمد است؛ زیرا این آزمونها تنها بررسی میکنند که آیا چتباتها «اخلاقی به نظر میرسند» یا نه، نه اینکه واقعاً مفهوم اخلاق را درک میکنند.
به گزارش توسعه برند؛ فرض کنید از یک چتبات درباره یک موضوع پزشکی حساس سؤال میکنید و پاسخ معقول و سنجیدهای دریافت میکنید. اما سؤال اصلی اینجاست:
آیا این سامانه واقعاً پیامدهای انسانی تصمیم را سنجیده، یا فقط بهطور اتفاقی واژههای درستی کنار هم چیده است؟
این دقیقاً همان چالشی است که گوگل دیپمایند در مقالهای تازه که در نشریه علمی «نیچر» منتشر شده، به آن پرداخته است. به گفته این تیم پژوهشی، ما امروز تنها عملکرد اخلاقی ظاهری هوش مصنوعی را میسنجیم، نه درک اخلاقی واقعی آن را؛ و این دو تفاوتی اساسی با یکدیگر دارند.
وقتی هوش مصنوعی وارد تصمیمهای انسانی میشود
امروزه افراد از مدلهای زبانی بزرگ برای مشاوره روانی، راهنمایی پزشکی و حتی همراهی عاطفی استفاده میکنند. این سامانهها بهتدریج در حال تصمیمگیری بهجای انسانها هستند. اگر نتوانیم تشخیص دهیم که یک پاسخ اخلاقی حاصل فهم واقعی است یا صرفاً تقلید آماری، در واقع سرنوشت انسانها را به یک جعبه سیاه سپردهایم.
راهحل دیپمایند: سنجش «شایستگی اخلاقی»
پیشنهاد دیپمایند، تمرکز بر مفهومی به نام شایستگی اخلاقی است؛ یعنی توانایی یک سامانه برای قضاوت بر پایه ملاحظات اخلاقی واقعی، نه صرفاً الگوهای آماری.
پژوهشگران در این مقاله، سه مانع اصلی در مسیر ارزیابی اخلاق هوش مصنوعی و راههای آزمایش هرکدام را توضیح دادهاند.
سه دلیل که نشان میدهد چتباتها فقط تظاهر به اخلاق میکنند
نخست: مشکل تقلید ظاهری
مدلهای زبانی، پیشبینیکننده واژه بعدی هستند و از دادههای آموزشی خود الگو میگیرند. آنها موتور استدلال اخلاقی ندارند. بنابراین وقتی یک چتبات توصیه اخلاقی ارائه میدهد، مشخص نیست که واقعاً در حال استدلال است یا فقط جملهای شبیه به بحثهای اینترنتی را بازتولید میکند.
دوم: چندبعدیبودن اخلاق
در دنیای واقعی، تصمیمهای اخلاقی ساده نیستند. صداقت در برابر مهربانی، هزینه در برابر عدالت. با تغییر یک جزئیات کوچک، مثل سن فرد یا شرایط محیطی، قضاوت اخلاقی ممکن است کاملاً تغییر کند. آزمونهای فعلی بررسی نمیکنند که آیا هوش مصنوعی متوجه این ظرافتها میشود یا نه.
سوم: تکثر اخلاقی
قواعد اخلاقی در فرهنگها و حرفههای مختلف متفاوت است. چیزی که در یک کشور عادلانه تلقی میشود، ممکن است در جایی دیگر ناعادلانه باشد. یک چتبات جهانی باید بتواند میان چارچوبهای اخلاقی متعارض حرکت کند، اما در حال حاضر ابزار دقیقی برای سنجش این توانایی وجود ندارد.
چرا آموزش اخلاقی هوش مصنوعی نباید حفظکردن باشد
پژوهشگران دیپمایند پیشنهاد میکنند که بهجای پرسیدن پرسشهای تکراری اخلاقی، باید آزمونهای چالشی و فریبدهنده طراحی شود؛ آزمونهایی که تقلید را افشا کنند.
برای نمونه، آنها به سناریوهایی اشاره میکنند که بهاحتمال زیاد در دادههای آموزشی وجود نداشتهاند؛ مانند موردی پیچیده از اهدای اسپرم میان نسلها که از نظر ظاهری شبیه روابط محارم است، اما از نظر اخلاقی تفاوتهای مهمی دارد.
اگر مدل صرفاً به دلیل شباهت ظاهری آن را رد کند، یعنی در حال الگوگیری است، نه درک اخلاق.
“”توسعه برند را در اینستاگرام و تلگرام و لینکدین دنبال کنید””
روش دیگر، بررسی توانایی جابهجایی میان چارچوبهای اخلاقی است؛ برای مثال، آیا یک سامانه میتواند هم بر اساس اخلاق پزشکی و هم بر اساس قواعد نظامی، پاسخهای منسجم و متفاوت ارائه دهد؟
یا آیا با تغییرات جزئی در صورت مسئله، دچار سردرگمی میشود؟
آینده هوش مصنوعی اخلاقی
پژوهشگران میدانند که این مسیر ساده نیست. مدلهای فعلی شکنندهاند و حتی تغییر نام یک گزینه میتواند نتیجه را عوض کند. اما به باور آنها، تنها راه اعتماد واقعی به هوش مصنوعی، عبور از این آزمونهاست.
دیپمایند خواستار شکلگیری یک استاندارد علمی جدید شده که شایستگی اخلاقی را به اندازه مهارتهای ریاضی و منطقی جدی بگیرد. این مسیر نیازمند سرمایهگذاری جهانی، توجه به تفاوتهای فرهنگی و طراحی آزمونهایی است که بتوانند «اخلاق جعلی» را شناسایی کنند.
در حال حاضر، وقتی از هوش مصنوعی درباره مسائل اخلاقی سؤال میکنیم، پاسخها بیشتر پیشبینی آماری هستند تا فلسفه اخلاق. شاید این وضعیت در آینده تغییر کند؛
اما فقط در صورتی که یاد بگیریم چیز درست را اندازه بگیریم.



