WaveNet، نرم‌افزار جدید گوگل برای تبدیل متن به گفتار

کمپانی بریتانیایی که دو سال پیش به خانواده بزرگ غول جست‌وجوی اینترنت یعنی گوگل پیوست، از یک برنامه تولید صدای مصنوعی به نام ویونت (WaveNet) رونمایی کرده که پشتش به دانش هوش مصنوعی عصبی ژرف یا Deep Neural AI گرم است.

تاریخ انتشار: ۱۶:۵۴ - ۱۹ مهر ۱۳۹۵

یکی از زیرمجموعه‌های خانواده گوگل به نام دیپ‌مایند که پیش از این برای برنامه آلفاگو نامش بر سر زبان‌ها افتاده بود، به تازگی برنامه‌ای جدید برای تبدیل متن به گفتار معرفی کرده است.

به گزارش زومیت و به نقل از ساینس الرت، اگر تابه‌حال در کوچه‌های تودرتوی یوتیوب، گشت‌وگذار کرده و به تماشای ویدیوهای مختلف نشسته باشید، احتمالا کلیپ‌هایی از کامپیوترهایی عجیب‌وغریب که در حال خواندن مقاله‌های خبری هستند، به چشمتان خورده است.

البته صدای این کامپیوترهای متن‌خوان، بیش از آنکه شباهتی به صدای طبیعی انسان داشته باشد، یادآور حرف زدن مقطع و درهم‌وبرهم آدم‌آهنی‌ها در فیلم‌های سینمایی است.

اما از حضور این آدم‌آهنی‌ها و ربات‌های نه‌چندان خوش‌صدا در فیلم‌ها و کارتون‌ها، زمان زیادی سپری شده است و نوبتی هم که باشد، نوبت کامپیوترهایی است که با تکیه بر دانش هوش مصنوعی می‌توانند دست به تقلید بی‌کم‌وکاست از صدای انسان بزنند.

به‌تازگی یک مدعی و رقیبی تازه‌نفس برای نرم‌افزارهای متن‌خوان وارد میدان شده است، نرم‌افزاری جدید که مغزهای درخشان کمپانی دیپ‌مایند (DeepMind) در پشت آن قرار دارند. این کمپانی بریتانیایی که دو سال پیش به خانواده بزرگ غول جست‌وجوی اینترنت یعنی گوگل پیوست، از یک برنامه تولید صدای مصنوعی به نام ویونت (WaveNet) رونمایی کرده که پشتش به دانش هوش مصنوعی عصبی ژرف یا Deep Neural AI گرم است.

پیش از این برنامه‌هایی از قبیل جست‌وجوی صوتی گوگل توانسته‌اند با اتکا به فناوری‌های تشخیص و پردازش گفتار، کلمات را از دل کلام انسان بیرون بکشند، اما با قطعیت می‌توان گفت توسعه برنامه‌ای برای تبدیل متن به گفتار، چالش‌های پیش روی محققان را دوچندان خواهد کرد.

فراگیرترین روشی که در حال حاضر برای تبدیل نوشتار به گفتار به کار می‌رود، روش Concatenative TTS یا تبدیل متن به صدا به شیوه الحاقی است. در این فناوری، اجزای یک صدای ضبط شده مانند قطعات یک پازل کنار هم چیده می‌شوند تا در نهایت یک کلمه یا جمله قابل‌فهم، تولید شود.

اما مشکل اینجا است که در این روش، صدای خروجی که از ادغام قطعات صوتی به هم حاصل می‌شود، بیش از آنکه به صدای یک انسان شبیه باشد، یادآور همان صدای عجیب‌وغریب ربات‌های سینمایی است.

روش دیگری که برای تبدیل متن به گفتار به کار می‌رود، روش Parametric TTS یا تبدیل متن به صدا به شیوه پارامتریک است. در این شیوه، صدای تولید شده از درون مجموعه‌ای از کدک‌های صوتی به نام vocoder عبور داده می‌شود که البته باز هم نتیجه به دست آمده چنگی به دل نمی‌زند.

اما برنامه تازه از راه رسیده گوگل از یک رویکرد کاملا متفاوت بهره می‌برد. ویونت به جای تجزیه‌وتحلیل صداهایی که به آن خورانده می‌شود، درست همانند سایر سیستم‌های عصبی ژرف، آن‌ها را یاد می‌گیرد.

این برنامه با کار کردن بر روی ۱۶ هزار نمونه در هر ثانیه، می‌تواند نمونه‌های صوتی خام خود را تولید کند. ویونت تمامی این کارها را بدون کوچک‌ترین دخالت انسان انجام داده و به کمک روش‌های آماری، قطعات صوتی موردنیاز بعدی را پیش‌بینی می‌کند.

WaveNet، نرم‌افزار جدید گوگل برای تبدیل متن به گفتار

اگر علاقه دارید این فایل‌های صوتی را بشنوید، سری به این صفحه بزنید. در این صفحه، چندین نمونه صوتی به زبان‌های انگلیسی و چینی وجود دارد. علاوه بر صدا، ویونت با برخورداری از قابلیت تجزیه‌وتحلیل الگوهای صوتی می‌تواند از پس تولید موسیقی نیز بربیاید.

گفتنی است این برنامه بدون دریافت هیچ‌گونه ورودی قادر است دست به تولید گفتار بزند. درحالی‌که اکثر سیستم‌های TTS به دریافت ورودی نیاز دارند، ویونت می‌تواند بدون هیچ‌گونه نقشه راهی، آواهای صوتی تولید کند. اگرچه نتیجه حاصله تنها رشته‌ای از صداهای نامفهوم را در اختیار می‌گذارد، اما دربرگیرنده اصوات حرکات دهان و حتی تنفس نیز هست.

تمامی این شواهد و قرائن حاکی از آن است که سیستم‌های تبدیل متن به گفتار از ظرفیت و قابلیتی حیرت‌انگیز برای تقلید موبه‌موی صدای انسان برخوردار هستند.

از میان اخبار