برند مایکروسافت ضعف‌های هوش مصنوعی در رفع خطاهای کدنویسی را فاش کرد

مطالعات جدید مایکروسافت نشان می‌دهد که مدل‌های هوش مصنوعی همچنان در رفع خطاهای نرم‌افزاری عملکرد ضعیفی دارند. به‌رغم تبلیغات شرکت‌هایی مانند OpenAI و Anthropic، این مدل‌ها هنوز فاصله زیادی با توانایی انسان در بخش برنامه‌نویسی دارند. برند مایکروسافت بر اهمیت داده‌های تخصصی‌تر برای آموزش این مدل‌ها و تقویت قابلیت‌های آن‌ها تأکید کرده است.

به گزارش توسعه برند، بر اساس مطالعه‌ای از بخش تحقیق و توسعه برند مایکروسافت، مدل‌های پیشرفته هوش مصنوعی شرکت‌هایی مانند OpenAI و Anthropic علی‌رغم پیشرفت‌های چشمگیر، همچنان در شناسایی و رفع خطاهای نرم‌افزاری عملکرد ضعیفی از خود نشان می‌دهند؛ این درحالی‌ است که مدیرعامل گوگل، ساندار پیچای، در اظهاراتی در اکتبر اعلام کرد که ۲۵٪ از کدهای جدید در این شرکت توسط AI تولید می‌شود. همچنین، مدیرعامل متا، مارک زاکربرگ، نیز پیش‌تر از برنامه‌های گسترده خود برای استفاده از مدل‌های کدنویسی هوش مصنوعی در شبکه‌های اجتماعی این برند خبر داده بود.

اما واقعیت این است که حتی قدرتمندترین مدل‌های امروزی نیز در رفع باگ‌هایی که توسعه‌دهندگان باتجربه به آسانی حل می‌کنند، همچنان با مشکل مواجه هستند. در مطالعه مایکروسافت که مدل‌هایی همچون Claude 3.7 Sonnet از Anthropic و o3-mini از OpenAI هدف آزمایش قرار گرفته‌اند، این سیستم‌ها در بسیاری از موارد نتوانستند مشکلات موجود در یک معیار ارزیابی نرم‌افزاری به نام SWE-bench Lite را حل کنند. چنین نتایجی نشانگر این واقعیت است که علی‌رغم تبلیغات گسترده شرکت‌هایی مانند OpenAI، هوش مصنوعی هنوز نتوانسته جایگزین تخصص انسانی در حوزه‌هایی مانند برنامه‌نویسی شود.

این مطالعه ۹ مدل مختلف را بررسی کرده و با استفاده از آن‌ها، یک “عامل مبتنی بر پرامپت” طراحی کرده است. این عامل به ابزارهای متعددی برای رفع خطا، از جمله یک دیباگر پایتون، دسترسی داشت. محققان وظیفه حل ۳۰۰ مسئله رفع خطای نرم‌افزاری را به این عامل واگذار کردند.

بر اساس یافته‌ها، حتی با استفاده از مدل‌های قوی‌تر و جدیدتر، این عامل به‌ندرت بیش از ۵۰٪ از وظایف رفع خطا را با موفقیت انجام داده است. موفق‌ترین مدل، Claude 3.7 Sonnet، با نرخ موفقیت متوسط ۴۸.۴٪ بود؛ پس از آن o1 از OpenAI با ۳۰.۲٪ و o3-mini با ۲۲.۱٪ قرار داشتند.

دلایل عملکرد نه‌چندان موفق مدل‌ها:

این مطالعه نشان داد که برخی از مدل‌ها در استفاده صحیح از ابزارهای رفع خطا و درک تفاوت عملکرد این ابزارها در حل مشکلات مختلف دچار ضعف هستند. اما مشکل بزرگ‌تر کمبود داده‌های آموزشی مناسب برای این مدل‌هاست. محققان اشاره کرده‌اند که داده‌های کافی در زمینه‌ای تحت عنوان “فرایندهای تصمیم‌گیری متوالی”، مانند ردپای رفع خطا توسط انسان‌ها، در دیتاهای آموزشی این مدل‌ها وجود ندارد.

محققان همچنین نوشته‌اند:

“ما معتقدیم که آموزش یا تنظیم دقیق‌تر [مدل‌ها] می‌تواند آن‌ها را به دیباگرهای تعاملی بهتری تبدیل کند. با این حال، این کار نیاز به داده‌های تخصصی، همچون داده‌های مسیر‌یابی که تعامل عامل‌ها با دیباگر را ثبت کرده و اطلاعات لازم را قبل از ارائه راه‌حل جمع‌آوری می‌کند، دارد.”

نتایج این مطالعه چندان غافلگیرکننده نیست. مطالعات متعددی نشان داده‌اند که مدل‌های تولید کد توسط هوش مصنوعی اغلب باعث ایجاد آسیب‌پذیری‌های امنیتی و خطاها در کدها می‌شوند، زیرا این مدل‌ها در زمینه‌هایی مانند درک منطق برنامه‌نویسی ضعف دارند. به‌عنوان مثال، در یک ارزیابی اخیر از ابزار هوش مصنوعی کدنویسی محبوبی به نام Devin، مشخص شد که این ابزار تنها توانسته ۳ مورد از ۲۰ آزمون برنامه‌نویسی را با موفقیت انجام دهد.

اما کار تحقیقاتی مایکروسافت، یکی از دقیق‌ترین بررسی‌ها درباره این مشکل مداوم مدل‌های هوش مصنوعی است. هرچند انتظار نمی‌رود که نتایج این مطالعه شور و اشتیاق سرمایه‌گذاران برای ابزارهای کدنویسی مبتنی بر هوش مصنوعی را کاهش دهد، اما احتمالاً توسعه‌دهندگان (و مدیران آن‌ها) را نسبت به اتکای بیش از حد به هوش مصنوعی در فرآیند کدنویسی محتاط‌تر خواهد کرد.

به گزارش تک‌کرانچ، به همین ترتیب، بسیاری از رهبران فناوری به‌طور فزاینده‌ای با این عقیده که هوش مصنوعی مشاغل برنامه‌نویسی را از بین خواهد برد، مخالفت کرده‌اند. افراد برجسته‌ای از جمله بیل گیتس، بنیان‌گذار مایکروسافت، امجد مسعد مدیرعامل Replit، تاد مک‌کینون مدیرعامل Okta، و آرویند کریشنا مدیر عامل IBM در اظهارات مختلف گفته‌اند که برنامه‌نویسی به‌عنوان یک حرفه همچنان باقی خواهد ماند.

برچسب ها