
تبدیل گفتار به متن
سیستم تبدیل گفتار به متن شرکت هوش مصنوعی مهرا، یک سرویس تشخیص صدا است که با شناسایی عبارات و کلمات بیانشده توسط شخص، آن را به متن تبدیل میکند. این سرویس با استفاده از جدیدترین فناوریهای هوش مصنوعی و مدلهای پردازش گفتار، متشکل از شبکههای عصبی پیچشی عمیق (Deep Convolutional Neural Networks) و ترنسفورمرها (Transformers) مبتنی بر تکنیک توجه (Attention Mechanism)، توسط متخصصان هوش مصنوعی این شرکت شکل گرفت. این سیستم از حجم زیاد و متنوعی از دادههای فارسی آموزشدیده است و با بهرهگیری از این موارد سعی در دقت بالا و زمان پاسخدهی مناسب در بازشناسی گفتار فارسی دارد.
سیستم تبدیل گفتار به متن چگونه کار میکند؟
- تجزیه و تحلیل صدا
- تقسیمبندی صدا
- دیجیتالی کردن آن به یک قالب قابل خواندن توسط کامپیوتر
- استفاده از الگوریتم مناسب جهت تبدیل صوت به متن
سیستم پردازش گفتار از دو بخش اصلی تشکیل شده است:
بخش اول، شناسایی گفتار است که به کمک الگوریتم روشهای شناسایی الگو و مدلهای زبان طبیعی، صدای گفتار را به صورت دیجیتال را تغییر میدهد. این الگوریتمها با تحلیل فرکانس و مدت زمان صدای گفتار، به شناسایی و واکاوی تحلیل الگوها و نمونههای مختلف صدای گفتار میپردازند.
برای شناسایی گفتار، این سیستم از چندین مرحله استفاده میکند. در مرحله اول، سیستم با استفاده از میکروفون، صدای کاربر را ضبط میکند. در مرحله دوم، سیستم به دنبال الگوهای صوتی در صدای ضبط شده است که به تشخیص گفتار کمک میکند. در مرحله سوم، سیستم با استفاده از الگوریتمهای پردازش زبان طبیعی، صدای ضبط شده را به متن تبدیل میکند. درنهایت، متن تولیدشده به عنوان ورودی به دستگاه الکترونیکی ارسال میشود. این سیستم با استفاده از یادگیری عمیق و شبکههای عصبی، قادر به تشخیص گفتار با دقت بالا است.
بخش دوم، تفسیر گفتار است که با استفاده از الگوریتمهای هوش مصنوعی و مدلهای زبان طبیعی، صدای گفتار به معنای آن تفسیر میشود. این الگوریتمها با تحلیل الگوهای زبانی و معنایی صدای گفتار، به شناسایی و تفسیر مفاهیم مختلف صدای گفتار میپردازند.
در فرایند تفسیر گفتار، ابتدا صدای گفتار به شکل دیجیتالی ضبط و پردازش میشود. سپس با استفاده از الگوریتمهای شناسایی الگو و مدلهای زبان طبیعی، صدای گفتار به الگوها و معانی زبانی تقسیمبندی میشود. در این مرحله، الگوریتمها با تحلیل الگوهای زبانی و معنایی صدای گفتار، به شناسایی و تفسیر مفاهیم مختلف صدای گفتار میپردازند. بهعنوانمثال، در صورتی که گفتار شامل جملات سؤالی باشد، سیستم پردازش گفتار با تحلیل الگوهای زبانی و معنایی صدای گفتار، به شناسایی سؤالات و پاسخهای آنها میپردازد. درنتیجه، تفسیر گفتار در سیستم پردازش گفتار به شکل تحلیلی و دقیق انجام میشود و با استفاده از الگوریتمهای پیشرفته، میتوان به شناسایی و تفسیر مفاهیم مختلف صدای گفتار پرداخت.
فواید کاربرد سیستم تبدیل گفتار به متن
این فناوری به واسطه آسان نمودن ارتباط انسان با ماشین، شامل مزایای زیادی میشود که در زیر به برخی از آنها اشاره شده است:
- قابلیت استفاده از این سیستم به عنوان یک اپراتور هوشمند و پاسخگویی به مشتریان با کمک سیستم متن به گفتار و ایجاد تعامل با مشتری
- افزایش بهرهوری و کاهش خطا: با استفاده از سیستم پردازش گفتار، کاربران میتوانند به راحتی با دستگاههای الکترونیکی خود ارتباط برقرار کنند. بدین طریق، علاوه بر عدم اتلاف وقت و کاهش خطاهای تایپ کردن، دقت و صحت اطلاعات را بهبود بخشند.
- بهبود دسترسی: یکی از مزایای قابلتوجه این سیستم، کمک به افرادی است که دارای مشکلات جسمی ازجمله کمشنوایان و بیماران با ناتوانی حرکتی هستند.
- افزایش امنیت: سیستم پردازش گفتار میتواند به عنوان یک روش امنیتی برای دستگاههای الکترونیکی استفاده شود، این سیستم میتواند با شناسایی صدا جایگزین استفاده از رمز عبور شود.
ویژگیهای سیستم تبدیل گفتار به متن
- بهکارگیری از بروزترین تکنولوژی هوش مصنوعی در گسترش سرویس گفتار به متن مهرا
- استفاده از تکنولوژی یادگیری عمیق و ترنسفورمرها در ایجاد سرویس گفتار به متن مهرا
- مستقل و عدم وابستگی به گوینده خاص
- عملکرد عالی در برابر نویز محیطی
- دقت و سرعت بالا در تبدیل صدا به متن و احتمال اشتباه بسیار پایین
- قابلیت تبدیل انواع گفتار (دو حالت رسمی و محاوره) و پشتیبانی از لهجههای زبان فارسی
- دارای آموزش انجین در بالاترین سطح زبان فارسی و استفاده از بزرگترین گستره لغات در زبان فارسی
- قابلیت دسترسی و اجرا از طریق وب، ویندوز و دستگاههای اندرویدی
- امکان اشتراکگذاری از طریق ایمیل و شبکههای اجتماعی
- توانایی تبدیل گفتار به متن به صورت آفلاین
- پشتیبانی از انواع فرمتهای ویدیویی و صوتی
- قابلیت استفاده از انواع فونت و قالبهای مختلف چون txt, doc, pdf
- امکان اضافه کردن متن و ویرایش آن
- بررسی غلط املایی و خطاهای ویرایشی چون نقطهگذاری پس از اتمام سند
- قابلیت هایلایت کردن کلماتی که نرمافزار متوجه معنای نمیشود و پیشنهاد جایگزین برای آن
- درج هایپرلینک از طریق صوت روی کلمات
- قابلیت اضافه کردن میانبرهای متنی، ذخیرهسازی هوشمند کلمات و عبارات پرکاربرد به صورت صوتی
- ضبط علائم نگارشی و اعداد و ثبت آنها (بهطور مثالگفتن علامت ویرگول یا کاما و قرارگیری در متن)
- پاسخدهی به اجرای دستور حذف، کپی، شروع خط بعد، مشخص کردن پاراگراف و فاصله بین آنها یا قرارگیری مکاننما در انتهای سند به صورت صوتی
- پشتیبانی از ایموجی (Emoji) قابلیت استفاده از فرمان صوتی برای ثبت آن
- قابلیت استفاده از ابزار ترجمه متون (مبتنی بر ترجمه گوگل)
- رابط کاربری آسان (شروع ضبط با یک کلیک بر روی آیکون میکروفون و تبدیل به متن)
- قابلیت استفاده از حالت خواب (Sleep) و شروع دوباره با دستور صوتی
- ذخیره خودکار متن
- قابلیت استفاده از فرهنگ لغت شخص برای افزودن اطلاعات شخصی مانند شماره تلفن و آدرس
- قابلیت سفارشی سازی برای کسبوکارهای مختلف و امکان مدلسازی زبانی و آوایی (Model Acoustic و Model Language) متناسب با زمینه موجود
- ضمانت عدم افشای دادههای محصول سفارشی
- امکان نصب بر روی سرور مشتری بر اساس موقعیت مکانی
- قابلیت استفاده از حجم بالای داده، بدون اعمال محدودیت