ربات جدید مایکروسافت هر صدایی را تقلید می کند

ربات جدید مایکروسافت هر صدایی را تقلید می کند ما دیجیتال: به گزارش ما دیجیتال، ربات هوش مصنوعی جدید تبدیل متن به صدای شرکت مایکروسافت معروف به VALL-E تنها با ۳ ثانیه گوش سپردن به صدای شخص می تواند آنرا به خوبی تقلید کند و حتی می تواند احساسات گوینده را هم حفظ کند.


به گزارش ما دیجیتال به نقل از ایسنا، مایکروسافت تازه ترین پژوهش های خویش را در حوزه تبدیل متن به گفتار با مدلی به نام VALL-E نشان داده است که می تواند صدای افراد را تنها از یک نمونه صوتی سه ثانیه ای شبیه سازی کند.
پژوهشگران شرکت مایکروسافت این مدل چشم گیر جدید هوش مصنوعی تبدیل متن به گفتار را به نحوی طراحی نموده اند که می تواند فقط چند ثانیه به یک صدا گوش دهد، سپس آن صدا را تقلید کند و هرچه کاربر دوست دارد، بگوید.
گفتار نه فقط می تواند با صدای گوینده، بلکه با لحن احساسی وی و حتی آکوستیک یک اتاق همخوانی داشته باشد.
مایکروسافت می گوید، روزی می توان از این ربات برای برنامه های کاربردی تبدیل متن به گفتار سفارشی یا پیشرفته استفاده کرد، باآنکه مانند فناوری دیپ فیک(جعل عمیق)، خطر سوءاستفاده را هم به همراه دارد.
ربات هوش مصنوعی VALL-E چیزی است که مایکروسافت آنرا «مدل زبان عصبی کدک»(neural codec language model) می نامد که از شبکه فشرده سازی عصبی شرکت «متا» موسوم به Encodec مشتق شده است که صدا را از ورودی متن و نمونه های کوتاه از بلندگوی هدف تولید می کند.
پژوهشگران در مقاله ای، نحوه آموزش دیدن VALL-E را با ۶۰ هزار ساعت گفتار انگلیسی از بیشتر از ۷۰۰۰ سخنران در کتابخانه صوتی LibriLight متا شرح داده اند. صدایی که این ربات می کوشد تقلید کند باید با صدای داده های آموزشی مطابقت داشته باشد.
این گروه دقیقا نشان میدهد که این کار توسط VALL-E چقدر خوب به انجام می رسد. بدین سبب برای هر عبارتی که می خواهید هوش مصنوعی آنرا بگوید، یک پیام سه ثانیه ای از گوینده برای تقلید کافی است.
البته نتایج کار این ربات هم اکنون، ترکیبی است و تعدادی از آنها شبیه به صدای ماشینی و برخی دیگر به طرز شگفت آوری واقعی هستند.
این واقعیت که VALL-E لحن احساسی نمونه های اصلی را حفظ می نماید، نکته برجسته آنست. همین طور کاملاً با محیط آکوستیک مطابقت دارد، بدین سبب اگر گوینده صدای خویش را در سالن پژواک ضبط کند، خروجی VALL-E هم بنظر می رسد که از همان مکان آمده است.
کار Vall-E در تقلید لهجه ها هم بسیار عالی است و حداقل لهجه های آمریکایی، بریتانیایی و چند لهجه اروپایی را به خوبی تقلید می کند.
مایکروسافت برای بهبود این مدل می خواهد داده های آموزشی خویش را «برای بهبود عملکرد مدل در قواعد زبانی، سبک گفتاری و شباهت به صدای سخنران» افزایش دهد. همین طور درحال بررسی راه هایی برای کاهش کلماتی است که نامفهوم یا فراموش شده اند.
نتایج این نوع فناوری کاملاً واضح است. از جنبه مثبت می توان اینگونه در نظر گرفت که کاربران می توانند از این ربات بخواهند مثلاً فهرست خرید آنها را با صدای هنرپیشگان و صداپیشگان مشهور برایشان بخواند. یا اگر بازیگری در نیمه راه فیلمبرداری یک فیلم فوت کند، می توان با استفاده از این فنآوری و جلوه های ویژه پروژه را پایان رساند.
اما جنبه منفی آن هم این است که خبر خوبی برای صداپیشه ها و گویندگان نیست، چون که هوش مصنوعی ممکنست بتواند گویندگی را به سرعت و بسیار ارزان انجام دهد، اما خب نمی توان انتظار زیادی از آن داشت تا چندان هنرمندانه باشد.
پتانسیل کلاهبرداری با این فناوری هم بسیار بالاست. اگر یک کلاهبردار بتواند برای سه ثانیه با شما تلفنی صحبت کند، می تواند صدای شما را بدزدد و با آن با خویشاوندانتان تماس بگیرد یا با آن می توان هر دستگاه امنیتی تشخیص صدا را دور زد.
مایکروسافت احیانا به سبب خطرات ذاتی این ربات هوش مصنوعی که می تواند کلمات دلخواه را در دهان شخص دیگری بگذارد، کد آنرا بصورت منبع باز قرار نداده است، چون که از آنجا که VALL-E می تواند گفتار را به صورتی ترکیب کند که هویت گوینده را تقلید کند، ممکنست خطرات بالقوه ای در استفاده نادرست، مانند جعل صدا یا جعل هویت داشته باشد.
این الگوریتم جدید نمونه ای از خیلی از الگوریتم های هوش مصنوعی است که می تواند صدای ضبط شده یک فرد را تقلید کند و کلمات و جملاتی را بیان کند که شخص مورد نظر هیچگاه آنها را بازگو نکرده است.
ظهور هوش مصنوعی های خلاق مانند DALL-E، ربات گفتگوگر ChatGPT، الگوریتم های دیپ فیک مختلف و تعداد بی شماری از الگوریتم های دیگر بنظر می رسد که در چند ماه گذشته در نقطه عطف قرار گرفته و آغاز به خارج شدن از لابراتوار ها و ورود به دنیای واقعی کرده است. این فناوری ها هم مانند همه تغییرات دیگر، فرصت ها و خطراتی را به همراه دارند و حاکی از آن هستند که ما واقعاً در زمان جالبی زندگی می نماییم.




منبع:

1401/10/22
14:58:35
5.0/5
327
تگهای خبر: آموزش , بازی , پروژه , تلفن
این مطلب را می پسندید؟
(1)
(0)
تازه ترین مطالب مرتبط
نظرات بینندگان در مورد این مطلب
نظر شما در مورد این مطلب
نام:
ایمیل:
نظر:
سوال:
= ۵ بعلاوه ۳
madigital.ir - حقوق مادی و معنوی سایت ما دیجیتال محفوظ است

ما دیجیتال

اخبار دیجیتال و فناوری اطلاعات