برنامههای تبدیل متن به گفتار مانند سیری دهههاست که وجود دارند، اما هرگز قادر به اجرای یک آهنگ نبودهاند. پیشرفتهای اخیر در مدلهای صوتی هوش مصنوعی و موسیقی تولید شده توسط هوش مصنوعی، تقاضای جدیدی برای تولیدکنندههای صدای خواننده هوش مصنوعی ایجاد کرده است. بازار نیز با طیف گستردهای از ابزارها و راهحلهای مختلف به این تقاضا پاسخ میدهد.
برنامههای وب هوش مصنوعی مانند سونو و ریفیوژن، تبدیل متن به موسیقی را با صدای خوانندگی هوش مصنوعی ترکیب میکنند. کاربران ژانر یا سبک موسیقی مورد نظر خود را توصیف میکنند و در عرض ۳۰ تا ۶۰ ثانیه آهنگی دریافت میکنند. آوازهای هوش مصنوعی کاملاً با سازها مطابقت دارند.
در پشت صحنه، این نوع نرمافزارهای تبدیل متن به آواز بر روی مجموعههای بزرگی از دادههای صوتی آموزش داده شدهاند. برخی از شرکتها به کاربران اجازه میدهند تا مدلهای هوش مصنوعی خود را با ضبطهای صوتی موجود آموزش دهند.
در این مقاله، مجموعهای از بهترین تولیدکنندههای صدای خواننده هوش مصنوعی که یافتهایم را به اشتراک میگذاریم و آموزشهایی در مورد نحوه استفاده از آنها نیز قرار میدهیم.
بهترین تولیدکنندههای صدای خواننده هوش مصنوعی برای تهیهکنندگان موسیقی
تولیدکنندههای صدای هوش مصنوعی زیادی در بازار وجود دارند، اما اکثر آنها برای موسیقیدانان طراحی نشدهاند. این مقاله فقط بر روی برنامههای صوتی تمرکز دارد که میتوانید از آنها برای شروع ساخت ملودیهای آوازی با هوش مصنوعی استفاده کنید.
اگر از برنامههای تبدیل متن به گفتار لذت میبرید و قصد دارید ملودیهایی را برای تولیدکننده صدای هوش مصنوعی خود طراحی کنید، حتماً VST تبدیل متن به میدی AudioCipher را بررسی کنید. شما میتوانید کلمات و عبارات را تایپ کنید، آنها را به ملودی تبدیل کنید، آنها را به شکلی که میخواهید صدا بدهند، شکل دهید و با استفاده از برنامههای زیر، آنها را روی صداهای هوش مصنوعی خود اعمال کنید.
- Kits AI
- Controlla Voice
- ACE Studio
- Synthesizer V + Vocoflex
- Vocaloid
- Revocalize
- Emvoice
- Uberduck
- پاداش: دنیای زیرزمینی گوگل کولب (The Google Colab Underground)
- تاریخچه مختصری از صداهای خوانندگی هوش مصنوعی
تاریخچه مختصری از صداهای هوش مصنوعی آوازخوان
در آوریل ۲۰۲۳، یک آهنگ هوش مصنوعی از Drake با حضور The Weeknd منتشر شد. این قطعه با عنوان Heart on my Sleeve، طبق گزارشها، ۶۰۰۰۰۰ استریم در اسپاتیفای، ۱۵ میلیون بازدید در TikTok و ۲۷۵۰۰۰ بازدید در یوتیوب داشت تا زمانی که شرکتهای ضبط موسیقی مداخله کردند و دستور حذف آن را دادند. در ۱۸ اکتبر ۲۰۲۳، گروه موسیقی یونیورسال (Universal Music Group) یک بیانیه مطبوعاتی منتشر کرد که در آن اعلام کرد با Bandlab همکاری خواهد کرد تا از صداهای هنرمندان محافظت کند و تیلور سویفت را به عنوان نمونه ذکر کرد. انجمن صنعت ضبط موسیقی آمریکا (RIAA) بارها گفته است که جعل هویت صدای هوش مصنوعی را تهدیدی معتبر برای سود خود میداند. آنها ممکن است سابقه قانونی برای شکایت از هنرمندانی که از این صداهای هوش مصنوعی سلبریتیها کسب درآمد میکنند، داشته باشند.
خطرات واقعی با فناوری انتقال صدا وجود دارد و فراتر از حقوق موسیقی است. کلاهبرداران شروع به استفاده از کلونهای صوتی کردهاند تا افراد مسن را هدف قرار دهند و آنها را برای پول مورد سوء استفاده قرار دهند.
البته همه خبرها بد نیستند. برخی از هنرمندان از فناوری جدید استقبال میکنند و دسترسی مستقیم به صدای خود را میفروشند. Grimes، ستاره بزرگ پاپ و همسر سابق ایلان ماسک، در سال ۲۰۲۳ اعلام کرد که هر کسی میتواند از صدای هوش مصنوعی او استفاده کند، تا زمانی که آنها هنگام موفقیت آهنگ هوش مصنوعی، حق امتیاز را به اشتراک بگذارند. او در ادامه یک پلتفرم هوش مصنوعی رایگان به نام Elf Tech برای توزیع دسترسی مستقیم منتشر کرد.
در سال ۲۰۲۱، هنرمند مستقل محبوب، هالی هرندون، یک مدل هوش مصنوعی را روی صدای خودش آموزش داد و آن را با نام Holly+ منتشر کرد. او دسترسی به آن را از طریق یک DAO میفروشد و یک پادکست موسیقی هوش مصنوعی دارد که در آن این موضوعات را به تفصیل بررسی میکند.
برنامههای وب نقطه شروع عالی هستند، اما هنرمندان واقعی به پلاگینهای تولید موسیقی نیاز دارند که با گردش کار آنها سازگار باشد. نمونههای اولیه پلاگینهای صدای دیجیتال، مانند Delay Lama، برخی از هنرمندان را به شهرت رساند.
به این ترتیب – یک راهنمای کامل برای محبوبترین ژنراتورهای صدای هوش مصنوعی در سال ۲۰۲۵. امیدواریم این راهنما را مفید یافته باشید!
KITS.AI – صدای خود را به هر صدایی که میخواهید تبدیل کنید!
Kits AI یک برنامه وب رایگان (با قابلیتهای ویژه پولی) است که تبدیل صدای انسان به صدای دیگر را بر اساس مجموعهای از مدلهای صوتی با کیفیت بالا و بدون حق امتیاز ارائه میدهد. کاربران میتوانند آوازها را مستقیماً در برنامه ضبط کنند یا یک فایل صوتی تمیز و بدون صدای اضافی (بهاصطلاح “a capella”) را با فرمت mp3 و wav آپلود کنند.
در طول آزمایشهای ما، کمتر از یک دقیقه طول کشید تا تبدیل صدای هوش مصنوعی کامل شود و تمام ظرافتهای اجرای آواز حفظ شد. اگر به دنبال صدایی هستید که مجموعه صدای موجود ارائه نمیدهد، Kits AI شامل یک ویژگی ساخت مدل صدای هوش مصنوعی است. با استفاده از یک صدا و تنها با یک کلیک، میتوانید تا ۳۰ دقیقه فایل صوتی a capella را آپلود کنید و مدل هوش مصنوعی سفارشی خود را آموزش دهید.
Kits مستقیماً با هنرمندان همکاری کرده است تا قطعات ساخته شده از صدای هوش مصنوعی آنها را به طور مشترک منتشر کند. از آنجا که صنعت موسیقی این نوع فناوری را اتخاذ میکند، مهم است که رضایت و اخلاق هنرمند در نظر گرفته شود. کاربران میتوانند از کتابخانه رسمی هنرمند استفاده کنند و آهنگهای خود را برای انتشار تجاری مشترک در کنار آن هنرمند ارسال کنند. طرح رایگان به شما امکان آموزش دو مدل صدای هوش مصنوعی و دسترسی به کتابخانه صدای بدون حق امتیاز را میدهد.
Controlla Voice – مدل صدای خود را آموزش دهید و ترکیب کنید
Controlla.XYZ به عنوان یک شرکت صوتی راهاندازی شد و به یک برنامه وب بالغ تبدیل شده است که در آن افراد میتوانند مدلهای صدای خوانندگی هوش مصنوعی خود را آموزش دهند. روهان پل، بنیانگذار این شرکت، اعلام کرد که این شرکت قبل از پایان نوامبر ۲۰۲۳ به ۱۰ هزار صدای هوش مصنوعی که به صورت اخلاقی آموزش داده شدهاند، رسیده است. چگونه یک مدل Controlla Voice را آموزش میدهید؟
Controlla Voice به کاربران اجازه میدهد تا مدلهای آواز خواندن هوش مصنوعی را از قطعات آوازی a capella آموزش دهند. قطعات آوازی ایدهآل باید شامل چند سطح شدت مختلف باشد و ملودیهایی را که بیش از یک اکتاو را پوشش میدهند، داشته باشد. استثناهایی وجود دارد، مانند آموزش یک مدل رپ یا گفتار، که در آن دامنه زیر و بم صدا میتواند کمتر از یک اکتاو باشد.
هنگامی که آموزش کامل شود، هر کسی میتواند به آن سبک آوازی بخواند. یا حداقل، تقریبی هوشمندانه از آن… هنگامی که دو یا چند صدای هوش مصنوعی وجود داشته باشد، اوضاع حتی جالبتر میشود.
Controlla به شما امکان میدهد صداها را با هم ترکیب کنید تا خوانندگان هوش مصنوعی ترکیبی ایجاد کنید. تیم ما از ویژگی ترکیب لذت برد و فضای پنهان بین صداهای واقعی انسان را کشف کرد. این آواتارهای آوازی جدید و ترکیبی، یک صدای کاملاً جدید و اصیل را نشان میدهند. ما میتوانیم یک بازار صوتی Controlla را تصور کنیم که در آن خوانندگان مدلهای آوازی خود را ایجاد و مجوز آن را میفروشند. تهیهکنندگان موسیقی دیجیتال که میتوانند بخوانند اما نمیخواهند از صدای خود استفاده کنند، میتوانند دسترسی به صداها را خریداری کنند و چندین سبک را با هم ترکیب کنند و چیزی جدید بسازند.
برای کسب اطلاعات بیشتر به وب سایت آنها – Controlla.xyz – مراجعه کنید.
ACE Studio – استودیوی آواز هوش مصنوعی: از ایده تا اجرا، با تبدیل صدا به MIDI
موسیقیدانان که میخواهند بر ملودیهای آوازی خود کنترل داشته باشند، باید نگاهی به ACE Studio بیندازند. این DAW حول فناوری تغییر صدای هوش مصنوعی با یک مدل رونویسی دقیق صدا به میدی متمرکز است. به عبارت دیگر، شما میتوانید نتهای جداگانه را به عنوان شکل موج بگیرید و آنها را به دلخواه جابجا کنید. کیفیت صدا حتی زمانی که زیر و بم صدا را بالا یا پایین میبرید، ثابت میماند.
مستقیماً در ACE بخوانید یا یک آهنگ صوتی را آپلود کنید، مدل صدای خود را انتخاب کنید و سبک آوازی را در عرض چند ثانیه انتقال دهید. اگر آهنگ آوازی ندارید، MIDI را مستقیماً در DAW ضبط کنید و متن آهنگ را وارد کنید. ACE آهنگ را با استفاده از صدای دلخواه شما برایتان میخواند. ویژگی Custom Singer به شما امکان میدهد چندین صدا را با هم ترکیب کنید تا تُن آوازی خود را ایجاد کنید. پارامترهایی مانند طنین، سبک و سطح صدا را برای رسیدن به صدای دقیقی که به دنبال آن هستید، کنترل کنید.
بزرگترین مشکل ما با نرمافزار تغییر صدا، دشواری در کنترل حالتهای بیان نتهای جداگانه در یک اجرا بوده است. بنابراین ما از اینکه ACE Studio شامل پارامترهای حرکتی رسم شده با دست است، بسیار خوشحال شدیم تا بتوانید انرژی، کشش و نفس هر خط ملودیک را شکل دهید.
همه چیز در فضای ابری اتفاق میافتد، که به این معنی است که زمان پردازش بسیار سریع است و نیازی نیست CPU محلی خود را با زمان رندر کردن مشغول کنید.
نگران مسائل اخلاقی آن هستید؟ هر یک از مدلهای آوازی هوش مصنوعی مجوز گرفته و برای استفاده تجاری تأیید شدهاند. این بدان معناست که انتشار یک آهنگ با این صداهای هوش مصنوعی بیخطر است. بسیاری از خوانندگان برای فروش آلبوم دیجیتال، تبلیغات و فیلم یا تلویزیون، همانطور که در زیر نشان داده شده است، رایگان هستند.
لیست پخش آموزش ویدیویی کامل را در کانال یوتیوب ACE Studio در اینجا پیدا کنید. شما میتوانید قبل از اینکه وارد شوید و شروع کنید، درباره نحوه عملکرد آن بیشتر بدانید. در غیر این صورت، اگر آماده دانلود برنامه هستید، به وب سایت آنها مراجعه کنید و لذت ببرید
DAW سینتی سایزر V + پلاگین تغییر صدای Vocoflex
Synthesizer V یک DAW با یک ژنراتور صدای هوش مصنوعی داخلی و پیشرفته است. مانند ACE Studio، کاربران میتوانند ملودی اجرا شده توسط هوش مصنوعی را شکل دهند. نتها را در یک ویرایشگر ترکیبی شکل موج-میدی به بالا و پایین بکشید. Synth V به شما امکان میدهد مفصلبندیهای ظریف را در اجرای آواز کنترل کنید تا به حفظ تُن احساسی و واقعی صدا کمک کنید.
شرکت مادر، Dreamtonics، در توکیو مستقر است. این شهری است که خواننده مجازی هاتسونه مایک در آن مورد استقبال قرار گرفت و جایی است که شرکتهای VST نوظهور مانند NeuTone شانس موفقیت دارند. قوانین ژاپن از تولید موسیقی هوش مصنوعی محافظت میکند.
Vocoflex جدیدترین پلاگین تغییر صدای Dreamtonics است که در جولای ۲۰۲۴ منتشر شد. این پلاگین درون هر DAW (از جمله Synthesizer V) بارگذاری میشود و به تهیهکنندگان این امکان را میدهد که با نمونههای کوتاه به اندازه ۱۰ ثانیه، یک پروفایل صوتی را هدف قرار دهند. به نظر من، تجسمگر مدل صوتی Vocoflex که در بالا نشان داده شده است، نوآورانهترین ویژگی است که آن را از هر پلاگین دیگری متمایز میکند. نحوه عملکرد آن به شرح زیر است:
- DAW خود را باز کنید و یک ترک صوتی جدید و خالی ایجاد کنید. یک برداشت آوازی تمیز را وارد یا ضبط کنید و پلاگین Vocoflex را روی آن ترک بارگذاری کنید.
- این رابط از شما میخواهد که مجموعهای از نمونههای آوازی مجزا حداقل به طول ۱۰ ثانیه را وارد کنید. هرچه صدا تمیزتر باشد، بهتر است.
- به Vocoflex اجازه دهید این صداهای وارد شده را تجزیه و تحلیل کند و تجسمهایی ایجاد کند. هر نمونه آوازی به عنوان یک منحنی نشان داده میشود که چند گره یا نقطه در امتداد منحنی نشان دهنده قطعات طنین گرفته شده از نمونه اصلی است.
- ماوس خود را روی این مناطق نگه دارید تا انتقال طنین بیدرنگ را بشنوید. Vocoflex خطوط هندسی رنگارنگ بین همه گرههای امتداد منحنی که انتخاب کردهاید، ترسیم میکند تا به شما در تجسم و تعامل با فضای پنهان مدل کمک کند.
تهیهکنندگانی که میخواهند دستان خود را از صفحه کلید بردارند، میتوانند نقاط مسیر را به این منحنیهای آوازی اضافه کنند و آنها را به یک کنترلر MIDI نگاشت کنند. از دکمهها و لغزندهها برای کشف حرکت بین صداها به روشی حرکتیتر استفاده کنید.
فضای بین صداها را کاوش کنید تا آنها را با هم ترکیب و به چیزی کاملاً جدید تبدیل کنید. این میتواند به ویژه برای طراحان صدا که به دنبال ترکیب صداهای جدید و تخیلی هستند، جالب باشد. همچنین میتواند برای نمونهسازی یک قطعه قبل از ارسال آن به یک هنرمند مفید باشد.
برای کسب اطلاعات بیشتر به وب سایت Vocoflex مراجعه کنید.
Vocaloid: صدای خواننده خود را خلق کنید! (هوش مصنوعی یاماها برای موسیقیدانان)
Vocaloid توسط یاماها نیز با در نظر گرفتن تهیهکنندگان موسیقی ساخته شده است. با بیش از ۱۰۰ صدا برای انتخاب، به راحتی میتوانید انواع مختلف صدا را روی آهنگ خود آزمایش کنید. Vocaloid 6 شامل یک تغییر دهنده صدا نیز میشود، بنابراین میتوانید یک ملودی را بخوانید و آن را تغییر دهید، اما ما دریافتیم که نسبت به ACE Studio از ویژگیهای کمتری برخوردار است.
Revocalize: ضبط کنید، تبدیل کنید، لذت ببرید! (تغییر صدا به آسانی)
Revocalize از ابزارهای تبدیل متن به گفتار صرف نظر کرده و مستقیماً به تغییر صدا پرداخته است. این تمرکز لیزری به آنها پهنای باند لازم را داده است تا به یکی از بهترین برنامهها برای تولید آهنگهای آوازی هوش مصنوعی تبدیل شوند. ویژگیهای ظریف صدای شما، مانند لهجه یا احساسی که هنگام صحبت کردن دارید، به صدای جدید منتقل میشود. برای شنیدن نمایشی از تغییر دهنده صدا، به صفحه اصلی آنها مراجعه کنید.
این شرکت میگوید که قصد دارد از صدای شما محافظت کند، اما مشخص نیست که چگونه قصد انجام این کار را دارد. آنها میتوانند گامهای هالی هرندون را دنبال کنند و از DAOها برای مدیریت و فروش دسترسی استفاده کنند. Water and Music نیز مطالب زیادی را در مورد نحوه فروش مواد موسیقی مرتبط با هوش مصنوعی، از جمله صدای شما، در Web3 به اشتراک گذاشته است.
Emvoice: هر صدایی که میخواهید، در دسترس شماست!
Emvoice One رویکردی جدید را برای نرمافزار آواز خواندن هوش مصنوعی اتخاذ کرده است و یک رابط پیانوی MIDI را با جعبههای متنی برای قطعات متن شعر ترکیب کرده است. کاربران یک ملودی را به صورت دستی برنامهریزی میکنند و برای هر بخش ملودیک، Emvoice یک منطقه متنی اختصاصی ایجاد میکند. عبارت کوتاه خود را تایپ کنید و مدل آوازی تمام تلاش خود را میکند تا شکل ملودیک را با الگوی کلمات شما مطابقت دهد.
طرفداران نرمافزار آنها اشاره کردهاند که رویکرد اشاره و کلیک به ملودیها میتواند کمی وقتگیر باشد. اگر میخواهید قبل از تعهد به مدلهای آوازی ۶۹ دلاری (برچسب قیمتی که با رقبا همتراز است) آن را امتحان کنید، آنها یک دوره آزمایشی رایگان ارائه میدهند که به ملودیهای فقط با هفت نت محدود است.
گوگل کولب: ابزاری قدرتمند برای ساخت موسیقی با هوش مصنوعی
تنها حدود نیم دوجین برنامه صدای هوش مصنوعی وجود دارد که برای آواز خواندن طراحی شدهاند، اما میتوانید گزینههای بسیار بیشتری را از توسعهدهندگان مستقل و هکرها در اینترنت پیدا کنید. یک راه خوب برای یافتن آنها این است که به دنبال یک ابزار محبوب تبدیل متن به گفتار، مانند ElevenLabs باشید و سپس یک جستجوی گوگل مانند “آواز خواندن ElevenLabs” را اجرا کنید. شما تعدادی از مکالمات Reddit، Twitter و Quora را در این زمینه پیدا خواهید کرد.
برای ارائه یک مثال ملموس، یک موضوع Reddit ما را به مدل تبدیل صدای آواز در گوگل کولب (Google Colab) هدایت کرد. این ابزارها چیزی بیشتر از توانایی آپلود یک فایل، فشار دادن دکمه پخش Colab یک مرحله در یک زمان و صبر در حین رندر شدن آهنگهای شما نیاز ندارند.