یکی از زیرمجموعههای خانواده گوگل به نام دیپمایند که پیش از این برای برنامه آلفاگو نامش بر سر زبانها افتاده بود، به تازگی برنامهای جدید برای تبدیل متن به گفتار معرفی کرده است.
به گزارش زومیت و به نقل از ساینس الرت، اگر تابهحال در کوچههای تودرتوی یوتیوب، گشتوگذار کرده و به تماشای ویدیوهای مختلف نشسته باشید، احتمالا کلیپهایی از کامپیوترهایی عجیبوغریب که در حال خواندن مقالههای خبری هستند، به چشمتان خورده است.
البته صدای این کامپیوترهای متنخوان، بیش از آنکه شباهتی به صدای طبیعی انسان داشته باشد، یادآور حرف زدن مقطع و درهموبرهم آدمآهنیها در فیلمهای سینمایی است.
اما از حضور این آدمآهنیها و رباتهای نهچندان خوشصدا در فیلمها و کارتونها، زمان زیادی سپری شده است و نوبتی هم که باشد، نوبت کامپیوترهایی است که با تکیه بر دانش هوش مصنوعی میتوانند دست به تقلید بیکموکاست از صدای انسان بزنند.
بهتازگی یک مدعی و رقیبی تازهنفس برای نرمافزارهای متنخوان وارد میدان شده است، نرمافزاری جدید که مغزهای درخشان کمپانی دیپمایند (DeepMind) در پشت آن قرار دارند. این کمپانی بریتانیایی که دو سال پیش به خانواده بزرگ غول جستوجوی اینترنت یعنی گوگل پیوست، از یک برنامه تولید صدای مصنوعی به نام ویونت (WaveNet) رونمایی کرده که پشتش به دانش هوش مصنوعی عصبی ژرف یا Deep Neural AI گرم است.
پیش از این برنامههایی از قبیل جستوجوی صوتی گوگل توانستهاند با اتکا به فناوریهای تشخیص و پردازش گفتار، کلمات را از دل کلام انسان بیرون بکشند، اما با قطعیت میتوان گفت توسعه برنامهای برای تبدیل متن به گفتار، چالشهای پیش روی محققان را دوچندان خواهد کرد.
فراگیرترین روشی که در حال حاضر برای تبدیل نوشتار به گفتار به کار میرود، روش Concatenative TTS یا تبدیل متن به صدا به شیوه الحاقی است. در این فناوری، اجزای یک صدای ضبط شده مانند قطعات یک پازل کنار هم چیده میشوند تا در نهایت یک کلمه یا جمله قابلفهم، تولید شود.
اما مشکل اینجا است که در این روش، صدای خروجی که از ادغام قطعات صوتی به هم حاصل میشود، بیش از آنکه به صدای یک انسان شبیه باشد، یادآور همان صدای عجیبوغریب رباتهای سینمایی است.
روش دیگری که برای تبدیل متن به گفتار به کار میرود، روش Parametric TTS یا تبدیل متن به صدا به شیوه پارامتریک است. در این شیوه، صدای تولید شده از درون مجموعهای از کدکهای صوتی به نام vocoder عبور داده میشود که البته باز هم نتیجه به دست آمده چنگی به دل نمیزند.
اما برنامه تازه از راه رسیده گوگل از یک رویکرد کاملا متفاوت بهره میبرد. ویونت به جای تجزیهوتحلیل صداهایی که به آن خورانده میشود، درست همانند سایر سیستمهای عصبی ژرف، آنها را یاد میگیرد.
این برنامه با کار کردن بر روی ۱۶ هزار نمونه در هر ثانیه، میتواند نمونههای صوتی خام خود را تولید کند. ویونت تمامی این کارها را بدون کوچکترین دخالت انسان انجام داده و به کمک روشهای آماری، قطعات صوتی موردنیاز بعدی را پیشبینی میکند.
اگر علاقه دارید این فایلهای صوتی را بشنوید، سری به این صفحه بزنید. در این صفحه، چندین نمونه صوتی به زبانهای انگلیسی و چینی وجود دارد. علاوه بر صدا، ویونت با برخورداری از قابلیت تجزیهوتحلیل الگوهای صوتی میتواند از پس تولید موسیقی نیز بربیاید.
گفتنی است این برنامه بدون دریافت هیچگونه ورودی قادر است دست به تولید گفتار بزند. درحالیکه اکثر سیستمهای TTS به دریافت ورودی نیاز دارند، ویونت میتواند بدون هیچگونه نقشه راهی، آواهای صوتی تولید کند. اگرچه نتیجه حاصله تنها رشتهای از صداهای نامفهوم را در اختیار میگذارد، اما دربرگیرنده اصوات حرکات دهان و حتی تنفس نیز هست.
تمامی این شواهد و قرائن حاکی از آن است که سیستمهای تبدیل متن به گفتار از ظرفیت و قابلیتی حیرتانگیز برای تقلید موبهموی صدای انسان برخوردار هستند.