آموزش هوش مصنوعی برای تقلید صداهایی مشابه با انسان
آیا تا به حال پیش آمده که مجبور شوید صدای موتور خراب ماشینتان را توصیف کنید یا مثل گربه همسایه “میو” کنید؟ تقلید صداها با استفاده از صدا میتواند زمانی که کلمات توانایی انتقال مفهوم را ندارند، بسیار مفید باشد.
تقلید صوتی را میتوان معادل شنیداری یک تصویر سریع کشیده شده در نظر گرفت؛ البته به جای استفاده از مداد برای کشیدن یک تصویر، از دستگاه صوتی بدن خود یعنی حنجره، گلو، زبان و لبها کمک میگیرید. شاید این کار سخت به نظر برسد، اما در واقعیت همگی ما به صورت طبیعی آن را انجام میدهیم: برای امتحان کردنش، سعی کنید صدای آژیر آمبولانس، کلاغ یا زنگی که به صدا درآمده را تقلید کنید.
دانشمندان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) با بهرهگیری از علوم شناختی درباره نحوه ارتباطات ما، سیستمی هوش مصنوعی طراحی کردهاند که میتواند بدون هیچگونه آموزش و حتی بدون شنیدن صداهای تولید شده توسط انسان، تقلیدهایی مشابه با صداهای انسانی ایجاد کند.
برای دستیابی به این موفقیت، محققان سیستمی را طراحی کردند که صداها را به روشی مشابه انسانها تولید و تفسیر میکند. آنها ابتدا مدلی از دستگاه صوتی بدن انسان ایجاد کردند که نحوه تغییر ارتعاشات حنجره توسط گلوی، زبان و لبها را شبیهسازی میکند. سپس از یک الگوریتم هوش مصنوعی الهام گرفته از علوم شناختی برای کنترل این مدل استفاده کردند تا تقلیدهایی ایجاد کند که بر اساس روشهای خاص و موقعیتی انسانها در تولید صداها شکل میگیرد.
این مدل قادر است بسیاری از صداهای طبیعی موجود در جهان را دریافت کرده و تقلیدهایی مشابه انسان از آنها تولید کند؛ مانند صدای خشخش برگها، هیسهیس مار یا صدای نزدیک شدن آژیر آمبولانس. این مدل به صورت معکوس نیز عمل میکند، به این معنا که میتواند از تقلیدهای صوتی انسانی به صداهای واقعی نزدیک شود، مشابه عملکرد برخی سیستمهای بینایی ماشین که میتوانند تصاویر باکیفیتی را از روی طرحهای ابتدایی بازسازی کنند. برای مثال، این مدل به درستی میتواند تفاوت صدای انسانی که یک “میو” گربه را تقلید میکند با “هیس” آن را تشخیص دهد.
در آینده، این مدل میتواند به توسعه رابطهای تعاملی مبتنی بر تقلید صدا برای طراحان صوت، ایجاد شخصیتهای هوش مصنوعی انسانیتر در واقعیت مجازی و حتی روشهایی برای آموزش زبانهای جدید به دانشآموزان کمک کند.
هنر تقلید در سه مرحله
تیم تحقیقاتی سه نسخه متفاوت از این مدل را برای موشکافی رفتارهای تقلیدی انسان طراحی کردند. ابتدا یک مدل پایه طراحی شد که هدف آن تولید تقلیدهایی بود که تا حد ممکن شبیه صداهای واقعی باشند. اما این مدل تطابق چندانی با رفتارهای انسانی نداشت.
در گام بعد، آنها یک مدل دوم به نام مدل “ارتباطی” طراحی کردند. این مدل به ویژگیهای برجسته یک صدا برای شنونده توجه میکند. به عنوان مثال، شما برای تقلید صدای قایق موتوری احتمالاً صدای لرزش موتور آن را تقلید میکنید، زیرا این بخش برجستهترین ویژگی صوتی آن است، حتی اگر بلندترین قسمت صدا نباشد (در مقایسه با مثلاً صدای آب).
در نهایت، برای بهبود بیشتر، محققان یک لایه اضافی از منطق به مدل اضافه کردند. تقلیدهای صوتی ممکن است بسته به میزان تلاش و انرژی مصرفشده متفاوت باشند. این مدل تلاش میکند از تولید صداهایی که بسیار سریع، بلند یا دارای دامنهای بالا و پایین هستند اجتناب کند، چرا که انسانها کمتر احتمال دارد چنین صداهایی را در مکالمات روزمره استفاده کنند. نتیجه، تقلیدهایی انسانیتر با شباهتی نزدیک به تصمیمات صوتی انسانها شد.
بعد از ساخت این مدل، تیم تحقیقاتی یک آزمایش رفتاری برگزار کردند تا ببینند آیا تقلیدهای صوتی تولید شده توسط انسان یا هوش مصنوعی، برای داوران انسانی جذابتر است. نتایج نشان داد که شرکتکنندگان در ۲۵ درصد از مواقع، تقلیدهای هوش مصنوعی را ترجیح دادهاند؛ حتی این عدد برای برخی موارد خاص مانند تقلید صدای قایق موتوری به ۷۵ درصد و برای صدای شلیک گلوله به ۵۰ درصد رسید.
به سمت فناوریهای صوتی بیشتر و بهتر
کارتیک چندرا، یکی از نویسندگان اصلی این پروژه، معتقد است که این مدل میتواند به هنرمندان کمک کند تا صداها را به شکل دقیقتری به سیستمهای کامپیوتری منتقل کنند. همچنین میتواند به فیلمسازان و سایر تولیدکنندگان محتوا در خلق صداهایی که برای اهداف خاص طراحی شدهاند یاری رساند. حتی این فناوری میتواند به موسیقیدانان کمک کند تا با تقلید یک صدا بانک صدای خاصی را جستجو کنند که توصیف آن با متن دشوار است.
این تیم تحقیقاتی در تلاش برای بررسی اثرات مدل خود در حوزههای دیگر، از جمله فرایند یادگیری زبان توسط نوزادان، رفتارهای تقلیدی در پرندگانی مانند طوطیها و پرندگان آوازخوان و شکلگیری زبان است.
البته نسخه فعلی مدل هنوز محدودیتهایی دارد. به عنوان مثال هنوز برخی از صامتها مانند “ز” را به درستی تقلید نمیکند، که این موضوع باعث شده که برخی تقلیدها مانند تقلید صدای “وزوز زنبور” دقیق نباشند. همچنین، مدل در حال حاضر نمیتواند به خوبی تقلیدهای مربوط به گفتار، موسیقی یا صداهایی که در زبانهای مختلف به صورت متفاوت تقلید میشوند (مانند صدای ضربان قلب) را شبیهسازی کند.
بر اساس گفتههای پروفسور رابرت هاوکینز از دانشگاه استنفورد، زبان پر از واژههایی مانند “میو” است که تا حدودی صداهای واقعی را تقلید میکنند. این مدل، گامی هیجانانگیز در جهت رسمیسازی و آزمایش تئوریهایی درباره این فرایندها محسوب میشود.
این پژوهش توسط کارتیک چندرا، کاریما ما، متیو کارن و دیگر محققان آزمایشگاه CSAIL، شامل جاناتان ریگان-کلی و جاشوا تننبام انجام شده و در کنفرانس SIGGRAPH Asia ارائه گردیده است. این پژوهش با حمایت بنیاد هرتز و بنیاد ملی علوم به سرانجام رسیده است.