آموزش هوش مصنوعی برای تقلید صداهایی مشابه با انسان

آیا تا به حال پیش آمده که مجبور شوید صدای موتور خراب ماشینتان را توصیف کنید یا مثل گربه همسایه “میو” کنید؟ تقلید صداها با استفاده از صدا می‌تواند زمانی که کلمات توانایی انتقال مفهوم را ندارند، بسیار مفید باشد.

تقلید صوتی را می‌توان معادل شنیداری یک تصویر سریع کشیده شده در نظر گرفت؛ البته به جای استفاده از مداد برای کشیدن یک تصویر، از دستگاه صوتی بدن خود یعنی حنجره، گلو، زبان و لب‌ها کمک می‌گیرید. شاید این کار سخت به نظر برسد، اما در واقعیت همگی ما به صورت طبیعی آن را انجام می‌دهیم: برای امتحان کردنش، سعی کنید صدای آژیر آمبولانس، کلاغ یا زنگی که به صدا درآمده را تقلید کنید.

دانشمندان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) با بهره‌گیری از علوم شناختی درباره نحوه ارتباطات ما، سیستمی هوش مصنوعی طراحی کرده‌اند که می‌تواند بدون هیچ‌گونه آموزش و حتی بدون شنیدن صداهای تولید شده توسط انسان، تقلیدهایی مشابه با صداهای انسانی ایجاد کند.

برای دستیابی به این موفقیت، محققان سیستمی را طراحی کردند که صداها را به روشی مشابه انسان‌ها تولید و تفسیر می‌کند. آن‌ها ابتدا مدلی از دستگاه صوتی بدن انسان ایجاد کردند که نحوه تغییر ارتعاشات حنجره توسط گلوی، زبان و لب‌ها را شبیه‌سازی می‌کند. سپس از یک الگوریتم هوش مصنوعی الهام گرفته از علوم شناختی برای کنترل این مدل استفاده کردند تا تقلیدهایی ایجاد کند که بر اساس روش‌های خاص و موقعیتی انسان‌ها در تولید صداها شکل می‌گیرد.

این مدل قادر است بسیاری از صداهای طبیعی موجود در جهان را دریافت کرده و تقلیدهایی مشابه انسان از آن‌ها تولید کند؛ مانند صدای خش‌خش برگ‌ها، هیس‌هیس مار یا صدای نزدیک شدن آژیر آمبولانس. این مدل به صورت معکوس نیز عمل می‌کند، به این معنا که می‌تواند از تقلیدهای صوتی انسانی به صداهای واقعی نزدیک شود، مشابه عملکرد برخی سیستم‌های بینایی ماشین که می‌توانند تصاویر باکیفیتی را از روی طرح‌های ابتدایی بازسازی کنند. برای مثال، این مدل به درستی می‌تواند تفاوت صدای انسانی که یک “میو” گربه را تقلید می‌کند با “هیس” آن را تشخیص دهد.

در آینده، این مدل می‌تواند به توسعه رابط‌های تعاملی مبتنی بر تقلید صدا برای طراحان صوت، ایجاد شخصیت‌های هوش مصنوعی انسانی‌تر در واقعیت مجازی و حتی روش‌هایی برای آموزش زبان‌های جدید به دانش‌آموزان کمک کند.

هنر تقلید در سه مرحله

تیم تحقیقاتی سه نسخه متفاوت از این مدل را برای موشکافی رفتارهای تقلیدی انسان طراحی کردند. ابتدا یک مدل پایه طراحی شد که هدف آن تولید تقلیدهایی بود که تا حد ممکن شبیه صداهای واقعی باشند. اما این مدل تطابق چندانی با رفتارهای انسانی نداشت.

در گام بعد، آن‌ها یک مدل دوم به نام مدل “ارتباطی” طراحی کردند. این مدل به ویژگی‌های برجسته یک صدا برای شنونده توجه می‌کند. به عنوان مثال، شما برای تقلید صدای قایق موتوری احتمالاً صدای لرزش موتور آن را تقلید می‌کنید، زیرا این بخش برجسته‌ترین ویژگی صوتی آن است، حتی اگر بلندترین قسمت صدا نباشد (در مقایسه با مثلاً صدای آب).

در نهایت، برای بهبود بیشتر، محققان یک لایه اضافی از منطق به مدل اضافه کردند. تقلیدهای صوتی ممکن است بسته به میزان تلاش و انرژی مصرف‌شده متفاوت باشند. این مدل تلاش می‌کند از تولید صداهایی که بسیار سریع، بلند یا دارای دامنه‌ای بالا و پایین هستند اجتناب کند، چرا که انسان‌ها کمتر احتمال دارد چنین صداهایی را در مکالمات روزمره استفاده کنند. نتیجه، تقلیدهایی انسانی‌تر با شباهتی نزدیک به تصمیمات صوتی انسان‌ها شد.

بعد از ساخت این مدل، تیم تحقیقاتی یک آزمایش رفتاری برگزار کردند تا ببینند آیا تقلیدهای صوتی تولید شده توسط انسان یا هوش مصنوعی، برای داوران انسانی جذاب‌تر است. نتایج نشان داد که شرکت‌کنندگان در ۲۵ درصد از مواقع، تقلیدهای هوش مصنوعی را ترجیح داده‌اند؛ حتی این عدد برای برخی موارد خاص مانند تقلید صدای قایق موتوری به ۷۵ درصد و برای صدای شلیک گلوله به ۵۰ درصد رسید.

به سمت فناوری‌های صوتی بیشتر و بهتر

کارتیک چندرا، یکی از نویسندگان اصلی این پروژه، معتقد است که این مدل می‌تواند به هنرمندان کمک کند تا صداها را به شکل دقیق‌تری به سیستم‌های کامپیوتری منتقل کنند. همچنین می‌تواند به فیلم‌سازان و سایر تولید‌کنندگان محتوا در خلق صداهایی که برای اهداف خاص طراحی شده‌اند یاری رساند. حتی این فناوری می‌تواند به موسیقی‌دانان کمک کند تا با تقلید یک صدا بانک صدای خاصی را جستجو کنند که توصیف آن با متن دشوار است.

این تیم تحقیقاتی در تلاش برای بررسی اثرات مدل خود در حوزه‌های دیگر، از جمله فرایند یادگیری زبان توسط نوزادان، رفتارهای تقلیدی در پرندگانی مانند طوطی‌ها و پرندگان آوازخوان و شکل‌گیری زبان است.

البته نسخه فعلی مدل هنوز محدودیت‌هایی دارد. به عنوان مثال هنوز برخی از صامت‌ها مانند “ز” را به درستی تقلید نمی‌کند، که این موضوع باعث شده که برخی تقلیدها مانند تقلید صدای “وزوز زنبور” دقیق نباشند. همچنین، مدل در حال حاضر نمی‌تواند به خوبی تقلیدهای مربوط به گفتار، موسیقی یا صداهایی که در زبان‌های مختلف به صورت متفاوت تقلید می‌شوند (مانند صدای ضربان قلب) را شبیه‌سازی کند.

بر اساس گفته‌های پروفسور رابرت هاوکینز از دانشگاه استنفورد، زبان پر از واژه‌هایی مانند “میو” است که تا حدودی صداهای واقعی را تقلید می‌کنند. این مدل، گامی هیجان‌انگیز در جهت رسمی‌سازی و آزمایش تئوری‌هایی درباره این فرایندها محسوب می‌شود.

این پژوهش توسط کارتیک چندرا، کاریما ما، متیو کارن و دیگر محققان آزمایشگاه CSAIL، شامل جاناتان ریگان-کلی و جاشوا تننبام انجام شده و در کنفرانس SIGGRAPH Asia ارائه گردیده است. این پژوهش با حمایت بنیاد هرتز و بنیاد ملی علوم به سرانجام رسیده است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *