برند OpenAI برای ارزیابی واقعی هوش مصنوعی، معیارهای تخصصی جدید طراحی می‌کند

OpenAI، برند مطرح در حوزه هوش مصنوعی، برنامه‌ای پیشگامانه را با هدف طراحی معیارهای ارزیابی جدید و تخصصی برای سنجش عملکرد واقعی مدل‌های هوش مصنوعی در صنایع مختلف راه‌اندازی کرده است. این اقدام در پی انتقاداتی صورت می‌گیرد که معیارهای فعلی، بازتاب دقیقی از کاربردهای عملی هوش مصنوعی در دنیای واقعی ندارند.

به گزارش توسعه برند، OpenAI معتقد است که معیارهای ارزیابی هوش مصنوعی ناکارآمد هستند. حال این شرکت برنامه‌ای را برای اصلاح نحوه امتیازدهی به مدل‌های هوش مصنوعی آغاز کرده است.

برنامه جدید OpenAI Pioneers بر ایجاد ارزیابی‌هایی برای مدل‌های هوش مصنوعی تمرکز خواهد داشت که به گفته OpenAI در یک پست وبلاگی، “استانداردی برای عملکرد خوب تعیین می‌کنند.”

این شرکت در ادامه پست خود آورده است: “با افزایش سرعت پذیرش هوش مصنوعی در صنایع مختلف، نیاز به درک و بهبود تأثیر آن در جهان وجود دارد. ایجاد ارزیابی‌های تخصصی برای هر حوزه، یکی از راه‌های بهتر برای انعکاس موارد استفاده واقعی است و به تیم‌ها کمک می‌کند تا عملکرد مدل را در محیط‌های عملی و پرمخاطره ارزیابی کنند.”

همانطور که بحث اخیر در مورد معیار جمع‌سپاری شده LM Arena و مدل Maverick متا نشان می‌دهد، این روزها تشخیص دقیق تفاوت بین مدل‌های مختلف دشوار است. بسیاری از معیارهای ارزیابی هوش مصنوعی پرکاربرد، عملکرد را در وظایف دشوار و تخصصی مانند حل مسائل ریاضی در سطح دکترا اندازه‌گیری می‌کنند. برخی دیگر قابل تقلب هستند یا به خوبی با ترجیحات اکثر مردم همخوانی ندارند.

OpenAI از طریق برنامه Pioneers امیدوار است تا معیارهایی برای حوزه‌های خاص مانند حقوقی، مالی، بیمه، بهداشت و درمان و حسابداری ایجاد کند. این آزمایشگاه اعلام کرده است که در ماه‌های آینده با “چندین شرکت” برای طراحی معیارهای سفارشی همکاری خواهد کرد و در نهایت این معیارها را به همراه ارزیابی‌های “خاص صنعت” به طور عمومی به اشتراک خواهد گذاشت.

OpenAI در پست وبلاگی خود نوشت: “اولین گروه بر استارتاپ‌هایی تمرکز خواهد کرد که به ایجاد پایه‌های برنامه OpenAI Pioneers کمک می‌کنند. ما در حال انتخاب تعدادی از استارتاپ‌ها برای این گروه اولیه هستیم که هر کدام بر روی موارد استفاده کاربردی و با ارزش بالا کار می‌کنند، جایی که هوش مصنوعی می‌تواند تأثیر واقعی در دنیای واقعی داشته باشد.”

شرکت‌های شرکت‌کننده در این برنامه همچنین فرصت همکاری با تیم OpenAI را برای بهبود مدل‌ها از طریق تنظیم دقیق تقویتی خواهند داشت، روشی که مدل‌ها را برای مجموعه محدودی از وظایف بهینه می‌کند.

به گزارش تک‌کرانچ، سوال بزرگ این است که آیا جامعه هوش مصنوعی از معیارهایی که ایجاد آنها توسط OpenAI تأمین مالی شده است، استقبال خواهد کرد یا خیر. OpenAI قبلاً از تلاش‌های معیارگذاری به صورت مالی حمایت کرده و ارزیابی‌های خود را طراحی کرده است. اما مشارکت با مشتریان برای انتشار تست‌های هوش مصنوعی ممکن است از نظر اخلاقی اقدامی بیش از حد تلقی شود.

برچسب ها