برند OpenAI با عرضه مدلهای هوش مصنوعی GPT-4.1 انقلابی تازه در کدنویسی و مهندسی نرمافزار رقم زد

برند OpenAI با معرفی خانواده مدلهای هوش مصنوعی GPT-4.1، استانداردهای تازهای برای کدنویسی و اجرای وظایف پیچیده مهندسی نرمافزار خلق کرده است؛ مدلهایی که علاوه بر سرعت و کارایی، قابلیت پردازش متون بسیار طولانی و بهرهگیری از فناوریهای پیشرفته را با قیمتی مقرون به صرفه در اختیار توسعهدهندگان و برنامهنویسان قرار میدهند و جایگاه این برند را در رقابت میان غولهای فناوری تثبیت میکنند.
به گزارش توسعه برند، برند OpenAI روز دوشنبه خانواده جدیدی از مدلهای هوش مصنوعی با نام GPT-4.1 را معرفی کرد.
این نامگذاری — که شامل مدلهای GPT-4.1، GPT-4.1 mini و GPT-4.1 nano میشود — نشاندهنده ادامه روند برند OpenAI در توسعه مدلهایی است که بهگفته این شرکت «در زمینه کدنویسی و پیروی از دستورالعملها برتری دارند».
مدلهای جدید که فعلاً فقط از طریق API OpenAI و نه چتجیپیتی در دسترس قرار دارند، همه چندرسانهای هستند و پنجره متنی ۱ میلیون توکن دارند. این یعنی میتوانند نزدیک به ۷۵۰ هزار کلمه را در یک بار پردازش خود دریافت کنند؛ عددی حتی بیشتر از رمان معروف «جنگ و صلح».
رونمایی از GPT-4.1 در شرایطی انجام شده که رقابت بین غولهایی مانند برند گوگل و Anthropic برای ساخت مدلهای پیشرفتهتر برنامهنویسی شدت گرفته است. مدل Gemini 2.5 Pro برند گوگل نیز که اخیراً معرفی شده، پنجره متنی یک میلیون توکن دارد و در بنچمارکهای کدنویسی عملکرد بالایی داشته است؛ مدلهای Claude 3.7 Sonnet از Anthropic و V3 از استارتاپ چینی DeepSeek نیز رقبا را به چالش کشیدهاند.
یکی از اهداف اصلی برندهای فناوری از جمله OpenAI، آموزش مدلهایی است که بتوانند وظایف پیچیده مهندسی نرمافزار را به صورت کامل انجام دهند. به گفته «سارا فرایر» مدیر مالی OpenAI، چشمانداز بلندپروازانه این برند، خلق یک «مهندس نرمافزار عامل» است؛ مدلی که بتواند همه مراحل تولید نرمافزار — از برنامهنویسی گرفته تا تضمین کیفیت، تست باگ و مستندسازی — را بهطور خودکار انجام دهد. عرضه GPT-4.1 گامی در راستای همین هدف است.
سخنگوی برند OpenAI با اشاره به بهینهسازی GPT-4.1 برای استفادههای واقعی، اعلام کرد: «این مدل بر اساس بازخوردهای مستقیم و برای بهبود در حوزههایی چون کدنویسی فرانتاند، کاهش اصلاحات غیرضروری، تبعیت دقیق از فرمتها، رعایت ساختار و ترتیب پاسخها و استفاده پایدارتر از ابزارها ساخته شده است. این پیشرفتها به توسعهدهندگان امکان میدهد عاملهایی بسازند که در وظایف مهندسی نرمافزار دنیای واقعی عملکرد کاملاً بهتری داشته باشند.»
برند OpenAI مدعی است که مدل کامل GPT-4.1 عملکرد بهتری نسبت به GPT-4o و GPT-4o mini در بنچمارکهای کدنویسی مانند SWE-bench داشته است. اما مدلهای mini و nano، در عین حال که سریعتر و مقرون بهصرفهترند، مقداری دقت کمتر دارند. OpenAI میگوید مدل nano سریعترین و ارزانترین مدل تاریخ این برند است.
هزینه استفاده از مدل GPT-4.1 برای هر یک میلیون توکن ورودی معادل ۲ دلار و برای هر یک میلیون توکن خروجی ۸ دلار است. مدل mini با قیمت ورودی ۰.۴۰ دلار و خروجی ۱.۶۰ دلار و مدل nano نیز با قیمت ورودی ۰.۱۰ دلار و خروجی ۰.۴۰ دلار در هر یک میلیون توکن ارائه میشوند.
بر اساس تستهای داخلی برند OpenAI، مدل GPT-4.1 که توانایی تولید تعداد توکن بیشتری نسبت به GPT-4o دارد (۳۲,۷۶۸ توکن در مقابل ۱۶,۳۸۴ توکن)، در بنچمارک SWE-bench Verified که توسط انسان راستیآزمایی شده بین ۵۲ تا ۵۴.۶ درصد امتیاز کسب کرده است. برند OpenAI خاطرنشان کرد برخی از راهحلها به دلایل فنی قابل اجرا در زیرساخت این شرکت نبودند که به این بازه نمرات منجر شد. این ارقام کمی پایینتر از امتیازات رقبایی چون Gemini 2.5 Pro برند گوگل (۶۳.۸ درصد) و Claude 3.7 Sonnet (62.3 درصد) است.
در ارزیابی جداگانهای، برند OpenAI مدل GPT-4.1 را با آزمون Video-MME مورد بررسی قرار داد که هدف آن سنجش توانایی مدل برای «درک» محتوای ویدیوهاست. GPT-4.1 توانست به دقت ۷۲ درصد در دستهبندی ویدیوهای طولانی بدون زیرنویس، دست یابد.
هرچند عملکرد GPT-4.1 در بنچمارکها مناسب است و بهواسطه بهروزرسانی اطلاعات، شناخت بهتری از رخدادهای اخیر (تا ژوئن ۲۰۲۴) دارد، اما باید توجه داشت که حتی بهترین مدلهای فعلی نیز همچنان در انجام برخی وظایف تخصصی نسبت به متخصصان انسانی، چالش دارند؛ از جمله اغلب نمیتوانند به درستی باگها را رفع کنند و حتی ممکن است اشکالات امنیتی جدیدی به کد بیافزایند.
برند OpenAI همچنین اذعان میکند که هر چه حجم ورودی مدل بیشتر شود، دقت مدل (و قابلیت اعتماد آن) کاهش مییابد. برای مثال در برخی تستهای داخلی شرکت، دقت GPT-4.1 با ۸۰۰۰ توکن ورودی حدود ۸۴ درصد و با ۱ میلیون توکن ورودی به ۵۰ درصد افت پیدا کرده است. همچنین گفته شده این مدل گاهی نسبت به GPT-4o پاسخهایی صریحتر و تحتاللفظیتر میدهد و گاهی برای عملکرد دقیقتر نیاز به دستورات واضحتر و دقیقتری دارد.