برند OpenAI با عرضه مدل‌های هوش مصنوعی GPT-4.1 انقلابی تازه در کدنویسی و مهندسی نرم‌افزار رقم زد

SEOUL, SOUTH KOREA - 2025/02/04: Open AI Chief Executive Officer Sam Altman speaks during the Kakao media day in Seoul. South Korean tech giant Kakao Corp. on February 4 announced partnership with OpenAI to use ChatGPT on its new artificial intelligence (AI) service joining a global alliance led by the U.S. AI company amid intensifying competition in the global AI market. (Photo by Kim Jae-Hwan/SOPA Images/LightRocket via Getty Images)

برند OpenAI با معرفی خانواده مدل‌های هوش مصنوعی GPT-4.1، استانداردهای تازه‌ای برای کدنویسی و اجرای وظایف پیچیده مهندسی نرم‌افزار خلق کرده است؛ مدل‌هایی که علاوه بر سرعت و کارایی، قابلیت پردازش متون بسیار طولانی و بهره‌گیری از فناوری‌های پیشرفته را با قیمتی مقرون‌ به ‌صرفه در اختیار توسعه‌دهندگان و برنامه‌نویسان قرار می‌دهند و جایگاه این برند را در رقابت میان غول‌های فناوری تثبیت می‌کنند.

به گزارش توسعه برند، برند OpenAI روز دوشنبه خانواده جدیدی از مدل‌های هوش مصنوعی با نام GPT-4.1 را معرفی کرد.

این نام‌گذاری — که شامل مدل‌های GPT-4.1، GPT-4.1 mini و GPT-4.1 nano می‌شود — نشان‌دهنده ادامه روند برند OpenAI در توسعه مدل‌هایی است که به‌گفته این شرکت «در زمینه کدنویسی و پیروی از دستورالعمل‌ها برتری دارند».

مدل‌های جدید که فعلاً فقط از طریق API OpenAI و نه چت‌جی‌پی‌تی در دسترس قرار دارند، همه چندرسانه‌ای هستند و پنجره متنی ۱ میلیون توکن دارند. این یعنی می‌توانند نزدیک به ۷۵۰ هزار کلمه را در یک‌ بار پردازش خود دریافت کنند؛ عددی حتی بیشتر از رمان معروف «جنگ و صلح».

رونمایی از GPT-4.1 در شرایطی انجام شده که رقابت بین غول‌هایی مانند برند گوگل و Anthropic برای ساخت مدل‌های پیشرفته‌تر برنامه‌نویسی شدت گرفته است. مدل Gemini 2.5 Pro برند گوگل نیز که اخیراً معرفی شده، پنجره متنی یک میلیون توکن دارد و در بنچمارک‌های کدنویسی عملکرد بالایی داشته است؛ مدل‌های Claude 3.7 Sonnet از Anthropic و V3 از استارتاپ چینی DeepSeek نیز رقبا را به چالش کشیده‌اند.

یکی از اهداف اصلی برندهای فناوری از جمله OpenAI، آموزش مدل‌هایی است که بتوانند وظایف پیچیده مهندسی نرم‌افزار را به صورت کامل انجام دهند. به گفته «سارا فرایر» مدیر مالی OpenAI، چشم‌انداز بلندپروازانه این برند، خلق یک «مهندس نرم‌افزار عامل» است؛ مدلی که بتواند همه مراحل تولید نرم‌افزار — از برنامه‌نویسی گرفته تا تضمین کیفیت، تست باگ و مستندسازی — را به‌طور خودکار انجام دهد. عرضه GPT-4.1 گامی ‌در راستای همین هدف است.

سخنگوی برند OpenAI با اشاره به بهینه‌سازی GPT-4.1 برای استفاده‌های واقعی، اعلام کرد: «این مدل بر اساس بازخوردهای مستقیم و برای بهبود در حوزه‌هایی چون کدنویسی فرانت‌اند، کاهش اصلاحات غیرضروری، تبعیت دقیق از فرمت‌ها، رعایت ساختار و ترتیب پاسخ‌ها و استفاده پایدارتر از ابزارها ساخته شده است. این پیشرفت‌ها به توسعه‌دهندگان امکان می‌دهد عامل‌هایی بسازند که در وظایف مهندسی نرم‌افزار دنیای واقعی عملکرد کاملاً بهتری داشته باشند.»

برند OpenAI مدعی است که مدل کامل GPT-4.1 عملکرد بهتری نسبت به GPT-4o و GPT-4o mini در بنچمارک‌های کدنویسی مانند SWE-bench داشته است. اما مدل‌های mini و nano، در عین حال که سریع‌تر و مقرون به‌صرفه‌ترند، مقداری دقت کمتر دارند. OpenAI می‌گوید مدل nano سریع‌ترین و ارزان‌ترین مدل تاریخ این برند است.

هزینه استفاده از مدل GPT-4.1 برای هر یک میلیون توکن ورودی معادل ۲ دلار و برای هر یک میلیون توکن خروجی ۸ دلار است. مدل mini با قیمت ورودی ۰.۴۰ دلار و خروجی ۱.۶۰ دلار و مدل nano نیز با قیمت ورودی ۰.۱۰ دلار و خروجی ۰.۴۰ دلار در هر یک میلیون توکن ارائه می‌شوند.

بر اساس تست‌های داخلی برند OpenAI، مدل GPT-4.1 که توانایی تولید تعداد توکن بیشتری نسبت به GPT-4o دارد (۳۲,۷۶۸ توکن در مقابل ۱۶,۳۸۴ توکن)، در بنچمارک SWE-bench Verified که توسط انسان راستی‌آزمایی شده بین ۵۲ تا ۵۴.۶ درصد امتیاز کسب کرده است. برند OpenAI خاطرنشان کرد برخی از راه‌حل‌ها به دلایل فنی قابل اجرا در زیرساخت این شرکت نبودند که به این بازه نمرات منجر شد. این ارقام کمی پایین‌تر از امتیازات رقبایی چون Gemini 2.5 Pro برند گوگل (۶۳.۸ درصد) و Claude 3.7 Sonnet (62.3 درصد) است.

در ارزیابی جداگانه‌ای، برند OpenAI مدل GPT-4.1 را با آزمون Video-MME مورد بررسی قرار داد که هدف آن سنجش توانایی مدل برای «درک» محتوای ویدیوهاست. GPT-4.1 توانست به دقت ۷۲ درصد در دسته‌بندی ویدیوهای طولانی بدون زیرنویس، دست یابد.

هرچند عملکرد GPT-4.1 در بنچمارک‌ها مناسب است و به‌واسطه به‌روزرسانی اطلاعات، شناخت بهتری از رخدادهای اخیر (تا ژوئن ۲۰۲۴) دارد، اما باید توجه داشت که حتی بهترین مدل‌های فعلی نیز همچنان در انجام برخی وظایف تخصصی نسبت به متخصصان انسانی، چالش دارند؛ از جمله اغلب نمی‌توانند به‌ درستی باگ‌ها را رفع کنند و حتی ممکن است اشکالات امنیتی جدیدی به کد بیافزایند.

برند OpenAI همچنین اذعان می‌کند که هر چه حجم ورودی مدل بیشتر شود، دقت مدل (و قابلیت اعتماد آن) کاهش می‌یابد. برای مثال در برخی تست‌های داخلی شرکت، دقت GPT-4.1 با ۸۰۰۰ توکن ورودی حدود ۸۴ درصد و با ۱ میلیون توکن ورودی به ۵۰ درصد افت پیدا کرده است. همچنین گفته شده این مدل گاهی نسبت به GPT-4o پاسخ‌هایی صریح‌تر و تحت‌اللفظی‌تر می‌دهد و گاهی برای عملکرد دقیق‌تر نیاز به دستورات واضح‌تر و دقیق‌تری دارد.

برچسب ها