برند OpenAI، انتظارات بالا و نتایج بحثبرانگیز؛ مدل o3 متهم به وعدههای اغراقآمیز شد

جدال بر سر امتیاز مدل o3 برند OpenAI واکنش کاربران و کارشناسان هوش مصنوعی را برانگیخته و این برند مشهور حالا باید پاسخگوی اختلاف میان تبلیغات و واقعیت عملکرد مدلش باشد.
به گزارش توسعه برند، اختلاف قابل توجهی میان نتایج ارزیابی منتشرشده توسط خود OpenAI و نتایج مستقل مراکز دیگر درباره مدل هوش مصنوعی o3 این برند، سؤالاتی را درباره شفافیت و نحوه تست این مدل مطرح کرده است.
زمانی که برند OpenAI مدل o3 را در ماه دسامبر معرفی کرد، مدعی شد که این مدل میتواند به بیش از یکچهارم سؤالات مجموعه FrontierMath (یک مجموعه دشوار از مسئلههای ریاضی) پاسخ درست بدهد؛ رکوردی که فاصله چشمگیری با سایر رقبا داشت، چراکه بهترین مدل بعدی فقط حدود ۲ درصد از سؤالات این مجموعه را بهدرستی حل کرده بود.
مارک چن، مدیر ارشد تحقیقات برند OpenAI، در یک پخش زنده گفت: «امروز تمام مدلهای موجود کمتر از ۲ درصد در FrontierMath امتیاز میگیرند. اما ما به صورت داخلی و با استفاده از پردازشهای بالا برای تست، با مدل o3 به امتیاز بالای ۲۵ درصد رسیدهایم.»
اما اکنون مشخص شده که این رقم بالاترین مقداری بوده که با نسخه خاص و پرقدرت مدل o3 به دست آمدهاست؛ نه با نسخهای که اخیراً بهصورت عمومی عرضه شد.
موسسه پژوهشی Epoch AI، که خود طراح FrontierMath است، روز جمعه نتایج تستهای مستقل خود روی مدل o3 را منتشر کرد و نشان داد امتیاز این مدل حدود ۱۰ درصد بوده که بسیار کمتر از ادعای اولیه برند OpenAI است.
برند OpenAI مدل o3 و مدل کوچکتر و اقتصادیتر o4-mini را هفته گذشته عرضه کرد. Epoch اعلام کرده که تستهای خود را براساس نسخه جدیدتری از FrontierMath و در شرایطی متفاوت با OpenAI انجام دادهاست.
Epoch در توضیح تفاوت اعداد نوشت: «اختلاف نتایج میتواند مربوط به اجرای تست با پردازش بالاتر، استفاده از مجموعه داده متفاوت یا چیدمان داخلی خاص OpenAI باشد.»
همچنین بنیاد ARC Prize، که نسخه پیشعرضه مدل o3 را تست کرده بود، اعلام کرد نسخه عمومی این مدل «متفاوت است و بیشتر برای چت و کاربردهای محصول بهینه شده.» ARC Prize همچنین تأیید کرد که نسخههای عمومی از لحاظ قدرت محاسباتی نسبت به نسخه ارزیابیشده کوچکتر هستند و طبیعتاً امتیاز پایینتری کسب میکنند.
وندا ژو، عضو تیم فنی OpenAI، هفته گذشته در یک پخش زنده گفت مدل o3 قابل ارائه به عموم «بیشتر برای کاربردهای واقعی و سرعت بهینه شده» و ممکن است همین موضوع باعث تفاوت امتیازهای آزمون شود. او افزود: «مدل را به شکل بهینهتری ساختیم تا هزینه کمتر و کاربرد بیشتری برای کاربران داشته باشد. همچنان معتقدیم این مدل کیفیت بالایی دارد و کاربران با پاسخدهی سریعتری مواجه میشوند.»
هرچند عملکرد نسخه عمومی o3 کمتر از وعدههای برند OpenAI بوده، اما مدلهای o3-mini-high و o4-mini فعلی حتی عملکرد بهتری در FrontierMath دارند و قرار است در هفتههای آینده نسخه قویتر o3-pro نیز عرضه شود.
در مجموع این ماجرا بار دیگر نشان میدهد که نباید به امتیازهای آزمون مدلهای هوش مصنوعی صرفاً بر اساس اعلام شرکت سازنده، حتی اگر آن برند شناختهشده باشد، اکتفا کرد.
در صنعت هوش مصنوعی، «جدل» بر سر نتایج بنچمارکها به موضوع رایجی تبدیل شده است؛ شرکتها برای جلب توجه رسانهها و مشتریان با عرضه مدلهای جدید، گاهی اعداد بنچمارک را متفاوت اعلام میکنند.
به گزارش تککرانچ، در ژانویه، خود Epoch بهدلیل افشا نکردن دریافت حمایت مالی از برند OpenAI تا پس از معرفی o3، مورد انتقاد قرار گرفت و بسیاری از پژوهشگران FrontierMath از همکاری OpenAI بیاطلاع بودند. همچنین، اخیراً شرکتهای رقیب مانند xAI ایلان ماسک و Meta هم بابت انتشار نتایج گمراهکننده مورد انتقاد قرار گرفتهاند.