برند OpenAI برای ارزیابی واقعی هوش مصنوعی، معیارهای تخصصی جدید طراحی میکند

OpenAI، برند مطرح در حوزه هوش مصنوعی، برنامهای پیشگامانه را با هدف طراحی معیارهای ارزیابی جدید و تخصصی برای سنجش عملکرد واقعی مدلهای هوش مصنوعی در صنایع مختلف راهاندازی کرده است. این اقدام در پی انتقاداتی صورت میگیرد که معیارهای فعلی، بازتاب دقیقی از کاربردهای عملی هوش مصنوعی در دنیای واقعی ندارند.
به گزارش توسعه برند، OpenAI معتقد است که معیارهای ارزیابی هوش مصنوعی ناکارآمد هستند. حال این شرکت برنامهای را برای اصلاح نحوه امتیازدهی به مدلهای هوش مصنوعی آغاز کرده است.
برنامه جدید OpenAI Pioneers بر ایجاد ارزیابیهایی برای مدلهای هوش مصنوعی تمرکز خواهد داشت که به گفته OpenAI در یک پست وبلاگی، “استانداردی برای عملکرد خوب تعیین میکنند.”
این شرکت در ادامه پست خود آورده است: “با افزایش سرعت پذیرش هوش مصنوعی در صنایع مختلف، نیاز به درک و بهبود تأثیر آن در جهان وجود دارد. ایجاد ارزیابیهای تخصصی برای هر حوزه، یکی از راههای بهتر برای انعکاس موارد استفاده واقعی است و به تیمها کمک میکند تا عملکرد مدل را در محیطهای عملی و پرمخاطره ارزیابی کنند.”
همانطور که بحث اخیر در مورد معیار جمعسپاری شده LM Arena و مدل Maverick متا نشان میدهد، این روزها تشخیص دقیق تفاوت بین مدلهای مختلف دشوار است. بسیاری از معیارهای ارزیابی هوش مصنوعی پرکاربرد، عملکرد را در وظایف دشوار و تخصصی مانند حل مسائل ریاضی در سطح دکترا اندازهگیری میکنند. برخی دیگر قابل تقلب هستند یا به خوبی با ترجیحات اکثر مردم همخوانی ندارند.
OpenAI از طریق برنامه Pioneers امیدوار است تا معیارهایی برای حوزههای خاص مانند حقوقی، مالی، بیمه، بهداشت و درمان و حسابداری ایجاد کند. این آزمایشگاه اعلام کرده است که در ماههای آینده با “چندین شرکت” برای طراحی معیارهای سفارشی همکاری خواهد کرد و در نهایت این معیارها را به همراه ارزیابیهای “خاص صنعت” به طور عمومی به اشتراک خواهد گذاشت.
OpenAI در پست وبلاگی خود نوشت: “اولین گروه بر استارتاپهایی تمرکز خواهد کرد که به ایجاد پایههای برنامه OpenAI Pioneers کمک میکنند. ما در حال انتخاب تعدادی از استارتاپها برای این گروه اولیه هستیم که هر کدام بر روی موارد استفاده کاربردی و با ارزش بالا کار میکنند، جایی که هوش مصنوعی میتواند تأثیر واقعی در دنیای واقعی داشته باشد.”
شرکتهای شرکتکننده در این برنامه همچنین فرصت همکاری با تیم OpenAI را برای بهبود مدلها از طریق تنظیم دقیق تقویتی خواهند داشت، روشی که مدلها را برای مجموعه محدودی از وظایف بهینه میکند.
به گزارش تککرانچ، سوال بزرگ این است که آیا جامعه هوش مصنوعی از معیارهایی که ایجاد آنها توسط OpenAI تأمین مالی شده است، استقبال خواهد کرد یا خیر. OpenAI قبلاً از تلاشهای معیارگذاری به صورت مالی حمایت کرده و ارزیابیهای خود را طراحی کرده است. اما مشارکت با مشتریان برای انتشار تستهای هوش مصنوعی ممکن است از نظر اخلاقی اقدامی بیش از حد تلقی شود.