برند مایکروسافت ضعفهای هوش مصنوعی در رفع خطاهای کدنویسی را فاش کرد

مطالعات جدید مایکروسافت نشان میدهد که مدلهای هوش مصنوعی همچنان در رفع خطاهای نرمافزاری عملکرد ضعیفی دارند. بهرغم تبلیغات شرکتهایی مانند OpenAI و Anthropic، این مدلها هنوز فاصله زیادی با توانایی انسان در بخش برنامهنویسی دارند. برند مایکروسافت بر اهمیت دادههای تخصصیتر برای آموزش این مدلها و تقویت قابلیتهای آنها تأکید کرده است.
به گزارش توسعه برند، بر اساس مطالعهای از بخش تحقیق و توسعه برند مایکروسافت، مدلهای پیشرفته هوش مصنوعی شرکتهایی مانند OpenAI و Anthropic علیرغم پیشرفتهای چشمگیر، همچنان در شناسایی و رفع خطاهای نرمافزاری عملکرد ضعیفی از خود نشان میدهند؛ این درحالی است که مدیرعامل گوگل، ساندار پیچای، در اظهاراتی در اکتبر اعلام کرد که ۲۵٪ از کدهای جدید در این شرکت توسط AI تولید میشود. همچنین، مدیرعامل متا، مارک زاکربرگ، نیز پیشتر از برنامههای گسترده خود برای استفاده از مدلهای کدنویسی هوش مصنوعی در شبکههای اجتماعی این برند خبر داده بود.
اما واقعیت این است که حتی قدرتمندترین مدلهای امروزی نیز در رفع باگهایی که توسعهدهندگان باتجربه به آسانی حل میکنند، همچنان با مشکل مواجه هستند. در مطالعه مایکروسافت که مدلهایی همچون Claude 3.7 Sonnet از Anthropic و o3-mini از OpenAI هدف آزمایش قرار گرفتهاند، این سیستمها در بسیاری از موارد نتوانستند مشکلات موجود در یک معیار ارزیابی نرمافزاری به نام SWE-bench Lite را حل کنند. چنین نتایجی نشانگر این واقعیت است که علیرغم تبلیغات گسترده شرکتهایی مانند OpenAI، هوش مصنوعی هنوز نتوانسته جایگزین تخصص انسانی در حوزههایی مانند برنامهنویسی شود.
این مطالعه ۹ مدل مختلف را بررسی کرده و با استفاده از آنها، یک “عامل مبتنی بر پرامپت” طراحی کرده است. این عامل به ابزارهای متعددی برای رفع خطا، از جمله یک دیباگر پایتون، دسترسی داشت. محققان وظیفه حل ۳۰۰ مسئله رفع خطای نرمافزاری را به این عامل واگذار کردند.
بر اساس یافتهها، حتی با استفاده از مدلهای قویتر و جدیدتر، این عامل بهندرت بیش از ۵۰٪ از وظایف رفع خطا را با موفقیت انجام داده است. موفقترین مدل، Claude 3.7 Sonnet، با نرخ موفقیت متوسط ۴۸.۴٪ بود؛ پس از آن o1 از OpenAI با ۳۰.۲٪ و o3-mini با ۲۲.۱٪ قرار داشتند.
دلایل عملکرد نهچندان موفق مدلها:
این مطالعه نشان داد که برخی از مدلها در استفاده صحیح از ابزارهای رفع خطا و درک تفاوت عملکرد این ابزارها در حل مشکلات مختلف دچار ضعف هستند. اما مشکل بزرگتر کمبود دادههای آموزشی مناسب برای این مدلهاست. محققان اشاره کردهاند که دادههای کافی در زمینهای تحت عنوان “فرایندهای تصمیمگیری متوالی”، مانند ردپای رفع خطا توسط انسانها، در دیتاهای آموزشی این مدلها وجود ندارد.
محققان همچنین نوشتهاند:
“ما معتقدیم که آموزش یا تنظیم دقیقتر [مدلها] میتواند آنها را به دیباگرهای تعاملی بهتری تبدیل کند. با این حال، این کار نیاز به دادههای تخصصی، همچون دادههای مسیریابی که تعامل عاملها با دیباگر را ثبت کرده و اطلاعات لازم را قبل از ارائه راهحل جمعآوری میکند، دارد.”
نتایج این مطالعه چندان غافلگیرکننده نیست. مطالعات متعددی نشان دادهاند که مدلهای تولید کد توسط هوش مصنوعی اغلب باعث ایجاد آسیبپذیریهای امنیتی و خطاها در کدها میشوند، زیرا این مدلها در زمینههایی مانند درک منطق برنامهنویسی ضعف دارند. بهعنوان مثال، در یک ارزیابی اخیر از ابزار هوش مصنوعی کدنویسی محبوبی به نام Devin، مشخص شد که این ابزار تنها توانسته ۳ مورد از ۲۰ آزمون برنامهنویسی را با موفقیت انجام دهد.
اما کار تحقیقاتی مایکروسافت، یکی از دقیقترین بررسیها درباره این مشکل مداوم مدلهای هوش مصنوعی است. هرچند انتظار نمیرود که نتایج این مطالعه شور و اشتیاق سرمایهگذاران برای ابزارهای کدنویسی مبتنی بر هوش مصنوعی را کاهش دهد، اما احتمالاً توسعهدهندگان (و مدیران آنها) را نسبت به اتکای بیش از حد به هوش مصنوعی در فرآیند کدنویسی محتاطتر خواهد کرد.
به گزارش تککرانچ، به همین ترتیب، بسیاری از رهبران فناوری بهطور فزایندهای با این عقیده که هوش مصنوعی مشاغل برنامهنویسی را از بین خواهد برد، مخالفت کردهاند. افراد برجستهای از جمله بیل گیتس، بنیانگذار مایکروسافت، امجد مسعد مدیرعامل Replit، تاد مککینون مدیرعامل Okta، و آرویند کریشنا مدیر عامل IBM در اظهارات مختلف گفتهاند که برنامهنویسی بهعنوان یک حرفه همچنان باقی خواهد ماند.