برند OpenAI صدا را تصاحب کرد؛ هوش مصنوعی این شرکت حالا در استودیوها آهنگ میسازد
برند OpenAI پس از تسلط بر واژه و ویدیو، حالا به سراغ موسیقی رفته است؛ ابزاری در دست ساخت دارد که میتواند موسیقی را از متن و صدا بسازد — بلافاصله و بر اساس فرمان کاربر. این پروژه نه فقط خلق صوت، بلکه تعریف دوبارهی مرز هنر و الگوریتم است.
به گزارش توسعه برند، برند OpenAI در سکوت، به قلمرو تازهای از خلاقیت نفوذ کرده است: موسیقی زایندهی متنی.
گزارش تازهی The Information نشان میدهد شرکت، در حال ساخت ابزاری است که از ترکیب متن و ورودی صوتی، قطعهی موسیقایی کامل تولید میکند — از پسزمینهی ویدیو گرفته تا همراهی گیتار با اجرای خواننده.
«این ابزار میتواند نقش نوازنده یا کارگردان صوت را ایفا کند»؛ چنین توصیفی از برگهی درونی پروژه درز کرده است. گفته میشود OpenAI حتی با گروهی از دانشجویان مدرسهٔ جولیارد نیویورک همکاری میکند تا پارتیتورهای موسیقی را حاشیهنویسی و برای آموزش مدل آماده کنند. این اقدام نشان میدهد شرکت میخواهد بهجای تقلید از صدا، موسیقی را بفهمد.
منابع نزدیک به شرکت تأیید میکنند که هنوز مشخص نیست ابزار جدید بهصورت مستقل عرضه میشود یا به ChatGPT و پلتفرم ویدئوی OpenAI Sora اضافه خواهد شد. اما جهتگیری پروژه کاملاً روشن است: OpenAI در صدد ساخت موتور خلاقیت کامل است؛ مدلی که بتواند بنویسد، ببیند، سخن بگوید و حالا بشنود و بسازد.
به گفتهی یکی از منابع فنی،
«ایدهی اصلی این است که موسیقی همان متن است؛ فقط با واژههای نشنیدنی. اگر مدل زبان بتواند معنا را بفهمد، میتواند آهنگ بسازد.»
این نگاه، چشماندازی است که پیشتر توسط مدلهای گوگل و شرکت Suno آزمایش شده بود، اما حضور OpenAI همهچیز را تغییر میدهد. برند OpenAI در هر صنعتی که ورود کرده، استانداردی مرکزی تعریف کرده است؛ از گفتار تا تصویر، و حالا از صدا تا حس.
در مقایسهی بازار، Google MusicLM و Suno AI سال گذشته نشان دادند که تولید آهنگ از متن ممکن است، اما همچنان با محدودیتهای کیفی و حقکپی روبهرو هستند. در مقابل، OpenAI بر پایهی زیرساخت مدلهای گفتاری Whisper و Voice Engine (مدل تبدیل گفتار به صدا و برعکس) میتواند مدار بستهی تولید و کنترل صدا را کامل کند.
تحلیلگران بازار خلاقیت مصنوعی میگویند اگر OpenAI موفق شود این ابزار را با سیستم ویدیویی Sora ادغام کند، صنعت تبلیغات، آموزش و سرگرمی «پکیج تولید محتوای چندحسی» در اختیار خواهد داشت؛ تولید متن، تصویر و موسیقی در یک محیط واحد.
“”توسعه برند را در اینستاگرام و تلگرام و لینکدین دنبال کنید””
به بیان دیگر، کاربر میتواند ویدیو بنویسد نه بسازد — از جمله تعیین کند «چه سازی، با چه حسی و در چه لحظهای» وارد شود.
یکی از مهندسان سابق OpenAI در گفتوگوی غیررسمی گفته است:
«ما تا چند سال پیش سعی میکردیم کامپیوترها را وادار کنیم بشنوند. حالا میخواهیم آنها را وادار کنیم احساس کنند.»
این جمله لُب پروژه را نشان میدهد: تبدیل هوش مصنوعی از ابزار فهم به ابزار احساس. اگر این مسیر کامل شود، هوش مصنوعی OpenAI نهفقط یار نویسندهها و طراحان، بلکه همنواز هنرمندان میشود.
هنوز برنامهی زمانی رسمی برای عرضه اعلام نشده، اما منابع فنی از مرحلهی تست بسته در استودیوهای لسآنجلس خبر دادهاند.
بهاین ترتیب، OpenAI در حال بستن چرخهای است که از واژه تا تصویر تا صدا امتداد دارد — زنجیرهای که هر حلقهاش هدف واحدی دارد: تصاحب خلاقیت بشر و ساختن زبانی جدید برای بیان.



