برند OpenAI، انتظارات بالا و نتایج بحث‌برانگیز؛ مدل o3 متهم به وعده‌های اغراق‌آمیز شد

آزمون سخت برای برند OpenAI؛ اختلاف چشمگیر در قدرت مدل هوش مصنوعی o3

جدال بر سر امتیاز مدل o3 برند OpenAI واکنش‌ کاربران و کارشناسان هوش مصنوعی را برانگیخته و این برند مشهور حالا باید پاسخگوی اختلاف میان تبلیغات و واقعیت عملکرد مدلش باشد.

به گزارش توسعه برند، اختلاف قابل توجهی میان نتایج ارزیابی منتشرشده توسط خود OpenAI و نتایج مستقل مراکز دیگر درباره مدل هوش مصنوعی o3 این برند، سؤالاتی را درباره شفافیت و نحوه تست این مدل مطرح کرده است.

زمانی که برند OpenAI مدل o3 را در ماه دسامبر معرفی کرد، مدعی شد که این مدل می‌تواند به بیش از یک‌چهارم سؤالات مجموعه FrontierMath (یک مجموعه دشوار از مسئله‌های ریاضی) پاسخ درست بدهد؛ رکوردی که فاصله چشمگیری با سایر رقبا داشت، چراکه بهترین مدل بعدی فقط حدود ۲ درصد از سؤالات این مجموعه را به‌درستی حل کرده بود.

مارک چن، مدیر ارشد تحقیقات برند OpenAI، در یک پخش زنده گفت: «امروز تمام مدل‌های موجود کمتر از ۲ درصد در FrontierMath امتیاز می‌گیرند. اما ما به صورت داخلی و با استفاده از پردازش‌های بالا برای تست، با مدل o3 به امتیاز بالای ۲۵ درصد رسیده‌ایم.»

اما اکنون مشخص شده که این رقم بالاترین مقداری بوده که با نسخه خاص و پرقدرت مدل o3 به دست آمده‌است؛ نه با نسخه‌ای که اخیراً به‌صورت عمومی عرضه شد.

موسسه پژوهشی Epoch AI، که خود طراح FrontierMath است، روز جمعه نتایج تست‌های مستقل خود روی مدل o3 را منتشر کرد و نشان داد امتیاز این مدل حدود ۱۰ درصد بوده که بسیار کمتر از ادعای اولیه برند OpenAI است.

برند OpenAI مدل o3 و مدل کوچک‌تر و اقتصادی‌تر o4-mini را هفته گذشته عرضه کرد. Epoch اعلام کرده که تست‌های خود را براساس نسخه جدیدتری از FrontierMath و در شرایطی متفاوت با OpenAI انجام داده‌است.

Epoch در توضیح تفاوت اعداد نوشت: «اختلاف نتایج می‌تواند مربوط به اجرای تست با پردازش بالاتر، استفاده از مجموعه داده متفاوت یا چیدمان داخلی خاص OpenAI باشد.»

همچنین بنیاد ARC Prize، که نسخه پیش‌عرضه مدل o3 را تست کرده بود، اعلام کرد نسخه عمومی این مدل «متفاوت است و بیشتر برای چت و کاربردهای محصول بهینه شده.» ARC Prize همچنین تأیید کرد که نسخه‌های عمومی از لحاظ قدرت محاسباتی نسبت به نسخه ارزیابی‌شده کوچک‌تر هستند و طبیعتاً امتیاز پایین‌تری کسب می‌کنند.

وندا ژو، عضو تیم فنی OpenAI، هفته گذشته در یک پخش زنده گفت مدل o3 قابل ارائه به عموم «بیشتر برای کاربردهای واقعی و سرعت بهینه شده» و ممکن است همین موضوع باعث تفاوت امتیازهای آزمون شود. او افزود: «مدل را به شکل بهینه‌تری ساختیم تا هزینه کمتر و کاربرد بیشتری برای کاربران داشته باشد. همچنان معتقدیم این مدل کیفیت بالایی دارد و کاربران با پاسخ‌دهی سریع‌تری مواجه می‌شوند.»

هرچند عملکرد نسخه عمومی o3 کمتر از وعده‌های برند OpenAI بوده، اما مدل‌های o3-mini-high و o4-mini فعلی حتی عملکرد بهتری در FrontierMath دارند و قرار است در هفته‌های آینده نسخه قوی‌تر o3-pro نیز عرضه شود.

در مجموع این ماجرا بار دیگر نشان می‌دهد که نباید به امتیازهای آزمون مدل‌های هوش مصنوعی صرفاً بر اساس اعلام شرکت سازنده، حتی اگر آن برند شناخته‌شده باشد، اکتفا کرد.

در صنعت هوش مصنوعی، «جدل» بر سر نتایج بنچمارک‌ها به موضوع رایجی تبدیل شده است؛ شرکت‌ها برای جلب توجه رسانه‌ها و مشتریان با عرضه مدل‌های جدید، گاهی اعداد بنچمارک را متفاوت اعلام می‌کنند.

به گزارش تک‌کرانچ، در ژانویه، خود Epoch به‌دلیل افشا نکردن دریافت حمایت مالی از برند OpenAI تا پس از معرفی o3، مورد انتقاد قرار گرفت و بسیاری از پژوهشگران FrontierMath از همکاری OpenAI بی‌اطلاع بودند. همچنین، اخیراً شرکت‌های رقیب مانند xAI ایلان ماسک و Meta هم بابت انتشار نتایج گمراه‌کننده مورد انتقاد قرار گرفته‌اند.

برچسب ها