
تبدیل متن به گفتار
سرویس تبدیل متن به گفتار مهرا، یک تکنولوژی ارتباطی بین برنامه های رایانهای و کاربر است که با کمک برنامههای تشخیص و شناسایی صدا، متون را به گفتار روان و طبیعی بیان میکند. این سرویس با استفاده از الگوریتم و محاسبات هوش مصنوعی، تکنیکهای یادگیری عمیق و همچنین استفاده از حجم بسیار زیادی از اطلاعات پردازش شده، توانایی خواندن متون فارسی را دارد. انتخاب مجموعه دادههای ذخیره شده این سرویس، با طراحی الگوریتم های اختصاصی و با در نظر گرفتن علم زبانشناسی صورت گرفته است و دادگان منتخب با به روزترین مدلهای یادگیری عمیق (Deep Learning) و متدهای یادگیری انتقالی (Transfer Learning) آموزش دیدهاند. مدل نهایی این سرویس کیفیت قابل توجهی در تشخیص گفتار و خوانش متون فارسی و انگلیسی دارد.
سیستم تبدیل متن به صوت مهرا چگونه کار می کند؟
این سرویس تبدیل متن به گفتار، از الگوریتمها، مدلهای پیچیده هوش مصنوعی و تکنیک یادگیری عمیق، برای تحلیل و تولید صوت استفاده میکند و از دو بخش عمده پردازش زبان طبیعی و پردازش سیگنال تشکیل شده است. سرویس مهرا، ابتدا متن ورودی را تحلیل میکند و ساختار و قواعد زبانی آن را درک میکند. سپس با استفاده از مدلهای صوتی، متن را به صورت صوتی تولید میکند. برای تبدیل متن به گفتار، ابتدا متن ورودی به شکل جملات و کلمات تجزیه میشود. سپس برای هر کلمه، نمایش صوتی آن در دیکشنری صوتی جستجو میشود. این دیکشنری شامل نمونههای صوتی از کلمات است که با استفاده از فرآیند ضبط صدا تهیه شدهاند.
بعد از پیدا کردن نمایش صوتی کلمات، سیستم برای تولید جملات، قواعد و آواییهای زبان را به کار میبرد. این قواعد شامل ترتیب کلمات، تلفظ صحیح و استرسهای صوتی در جملات است. سیستم با استفاده از این قواعد و آواییها، متن را به صورت صوتی تولید میکند. در فرآیند تبدیل متن به گفتار، برخی عوامل دیگر نیز ممکن است مورد استفاده قرار بگیرند. برای مثال، الگوریتمهای پردازش زبان طبیعی میتوانند به تشخیص نقش و گرامر کلمات کمک کنند. همچنین، الگوریتمهای تطبیق صوت و تصویر میتوانند در تولید صوت متناسب با حالت صورت کاربر مورد استفاده قرار بگیرند.
ویژگی های سیستم تبدیل متن به گفتار
- تبدیل متن به صوت فارسی با صدای طبیعی
- سرعت و دقت بالا در تشخیص، تبدیل متن به صدا و تلفظ کلمات
- امکانِ افزودن کلمات توسط کاربر و ذخیره عبارات مورد علاقه
- قابلیت پیشبینی کلمه و عبارت
- قابلیت استفاده از فرهنگ لغت، اصطلاحنامه و کتاب عبارات
- قابلیت خواندن اِعراب، اعداد، علائم و کلمات انگلیسی
- پشتیبانی از پروتکلهای WebSocket و REST
- خواندن متن بلافاصله پس از کپی کردن
- دقت بالا در تشخیص و بیان کلمههای همنگاره و کسره اضافه
- امکان خواندن متون با لحن محاورهای
- انتخاب نوع صدا و تنوع آن، انتخاب جنسیت، بلندی، زیر و بمی صدا
- قابلیت تنظیم سرعت خواندن (؟-؟ کلمه در دقیقه) و برآورد زمان خواندن
- امکان تهیه و ذخیره فایل صوتی با فرمتهای MP3, WAV, WMA, AAC, OGG, M4A, RA از متن
- پشتیبانی VoiceOver
- قابلیت استفاده در حالت آفلاین
- قابلیت وارد کردن عکس و نقشه های متنی
- رابط کاربری خوب و کارآمد
- قابلیت استفاده از صدای پس زمینه
- جستجوی متن کامل یا بر اساس صفحه یا فصل
کاربرد سیستم تبدیل متن به گفتار
- سهولت در استفاده از دستگاههای الکترونیکی و سیستم های پاسخگوی خودکار
- استفاده در صنعت تبلیغات
- کمک به افراد با ناتوانیهای بینایی و شنوایی
- استفاده در رباتهای با قابلیت گفتگو
- کمک به افراد با مشکلات خواندن، نوشتن، تلفظ و تلفظ نادرست
- استفاده در برنامههای آموزشی و آموزشی آنلاین
- استفاده در برنامههای کاربردی برای رانندگی
- استفاده در برنامههای پزشکی برای پشتیبانی از بیماران
- استفاده در برنامههای پشتیبانی مشتری برای پاسخ به سوالات مشتریان
تبدیل متن به گفتار قابل کنترل:
این فناوری به کاربران اجازه میدهد تا متون خود را به صورت گفتاری به دست آورده و با استفاده از دستورات کنترلی، سرعت، نوع صدا و بسیاری از ویژگیهای دیگر را تنظیم کنند. این قابلیتها شامل انتخاب گوینده موردنظر از بین گویندههای موجود، تولید فایل صوتی با صدایی مشابه صدای دری افتی، دریافت نحوه خوانش متون ورودی، شامل نوع احساسات گوینده، جنسیت و غیره خواهد بود.
تولید گفتار با استفاده از تکنولوژیهای تبدیل متن به گفتار با قابلیت پشتیبانی از زبان فارسی، به دلیل پیچیدگی این زبان ضعفهای قابلتوجهای نسبت به نمونههای مطرح خارجی چون مترجم گوگل، دستیار هوشمند الکسا و غیره را دارد. در حال حاضر، تولید گفتار با کیفیت بالا، با چالشهای عملیاتی روبرو است و نیاز به پژوهشهای بیشتر و بهبود مدلها دارد.
مشکلاتی چون عدم درج حرکات در کلمات، عدم تشخیص تلفظ صحیح، وجود کلمات مشابه با بیان مختلف و غیره موجب عدم دسترسی مناسب به سرویسهای تبدیل متن به گفتار در سرویسهای ایرانی شده است. سرویس تبدیل متن به صوت قابل کنترل، در لیست اهداف شرکت قرار دارد. هدف نهایی این مجموعه، ارائه سرویسی جهت تامین نیازهای موجود و ارتقاء سیستم های مشابه موجود در بازار است. در آینده امکاناتی برای کنترل نحوه تولید خروجی برای این سرویس در نظر گرفته خواهد شد.