
تاریخچه و کاربردهای تشخیص خودکار گفتار (ASR)
مقدمه
سیوان مفتخر است بخشی از نسل جدید نرمافزارهای خلاقانه باشد که با پیشرفتهای اخیر در فناوری تشخیص خودکار گفتار (Automatic Speech Recognition یا ASR) امکانپذیر شدهاند. این روزها زمان هیجانانگیزی است: فناوری ASR به تازگی از مرحلهٔ وعدههای دوردست عبور کرده و بهطور عملی در خدمت کاربران قرار گرفته، و هر روز هم دقیقتر و کاراتر میشود.
اما این لحظه بیش از نیم قرن در راه بوده است؛ از دههها پژوهش و نقاط امید و ناامیدی گذشته تا رسیدن به نقطهٔ کنونی. چه چیزی باعث شد ASR در کاربردهای تجاری قابل اتکا شود؟ و این سیستمها چه دستاوردهایی دارند، حتی پیش از آنکه سیری (Siri) و همشهریانش پا به میدان بگذارند؟
داستان تشخیص گفتار؛ زنجیرهای از رویکردها و فناوریها
پیشرفتهای ASR نه تنها به توسعهٔ فناوری بستگی داشت، بلکه ترکیبی بود از کاربردِ روشهای مختلف: تحلیل اصوات، ساختار زبان و روشهای آماری. در طول چند دهه، محققان راههای گوناگونی برای «بُریده» کردن زبان آزمودند تا بفهمند چگونه میتوان صداها را به متن تبدیل کرد.
روزهای اولیه
علاقهٔ بشر به شناسایی و تولید گفتار دستکم به صدها سال پیش بازمیگردد، اما تا میانهٔ سدهٔ بیستم چیز قابل توجهی ساخته نشد که بتوان نام «تشخیص خودکار گفتار» بر آن گذاشت.
- ۱۹۵۲ – آدری (Audrey)
محققان آزمایشگاههای بل پروژهای ساده به نام Audrey تولید کردند که میتوانست اعداد گفتاری را با استفاده از «فرمانت»ها (formants) — نشانههای صوتیِ متمایز — تشخیص دهد. - ۱۹۶۱ – IBM Shoebox
شرکت IBM دستگاه Shoebox را معرفی کرد که علاوه بر اعداد، دستورهای حسابی مثل «جمع» و «مجموع» را نیز میشناخت و میتوانست سؤال را به ماشین حساب مکانیکی ارسال کند تا حاصل را حساب و پرینت کند.
در همان دهه افراد در ژاپن سختافزاری ساختند که مصوتها را تشخیص میداد و تیمی در دانشگاه کالج لندن انگلستان با تحلیل فونمها (کوچکترین واحدهای صدایی زبان) توانست چهار مصوت و نه صامت را شناسایی کند.
اکتبر ۱۹۶۹ – «انجماد» در تحقیقات
یک نقطهعطف مهم در قالب نامهای سرگشاده توسط جان آر. پیرس (John R. Pierce) منتشر شد. پیرس، مهندس نامآشنای آزمایشگاههای بل و نامگذار «ترانزیستور»، در مجلهٔ Acoustical Society of America هشدار داد که میدان تشخیص گفتار در دورهای از «بودجهٔ سرسامآور پس از جنگ و اسپوتنیک» گرفتار آزمایشهای بینظم و غیر علمی شده است:
«ما همه معتقدیم که علم گفتار ممکن است، با این حال افراد اندکی در این حوزه شبیه دانشمند رفتار میکنند و نتایجی نظیر علم ارائه میدهند.»
— جان آر. پیرس، ۱۹۶۹
او برای نشان دادن جدیت، بودجهٔ پروژههای ASR در بل را قطع کرد تا پس از کنارهگیریاش در ۱۹۷۱ مجدداً فعال شوند.
پیشرفت ادامه دارد
در اوایل دههٔ ۱۹۷۰، آژانس تحقیقاتی ارتش آمریکا (ARPA، امروز DARPA) برنامهٔ پنجسالهای به نام Speech Understanding Research را حمایت کرد که منجر به ساخت چند سیستم ASR شد. موفقترین آنها، هارپی (Harpy) از دانشگاه کارنگی ملون بود که تا سال ۱۹۷۶ توانست بیش از هزار کلمه را بشناسد.
همزمان IBM و بل آزمایشگاهها تلاش میکردند ASR را در گردش کار اداری و سیستمهای کنترل فرمان به کار بگیرند؛ پیشدرآمد سیستمهای شمارهگیر صوتی و درختوارههای پاسخ خودکار تلفنی امروزی.
دههٔ ۸۰: مارکوفها و انقلاب آماری
میانهٔ دههٔ ۱۹۸۰ انقلابی دیگر رقم خورد با همهگیر شدن مدلهای مخفی مارکوف (HMMs). این مدلها از روشهای آماری بهره میبردند و دقت تشخیص را به شکل چشمگیری بالا بردند.
- پایههای نظری HMM در دههٔ ۱۹۶۰ توسط لئونارد بام (Leonard E. Baum) مطرح شد.
- جیم بیکر (Jim Baker) در اوایل دههٔ ۱۹۷۰ در CMU نخستین کاربردها را در ASR بررسی کرد.
- اما محبوبیت و گسترش واقعی آن به سال ۱۹۸۰ بازمیگردد، وقتی جک فرگوسن (Jack Ferguson) در مؤسسهٔ تحلیل دفاع سخنرانیهایی ارائه داد که آغازی بود بر همهگیری HMMs.
این رویکرد آماری، همراه با قدرت پردازشی روزافزون کامپیوترها، مسیر ASR را از آزمون و خطاهای تصادفی به دامنهای ساختاریافته و قابل اندازهگیری سوق داد.
دههٔ ۹۰: ورود به بازار مصرف
دههٔ ۱۹۹۰ برای اولین بار ASR را به مصرفکنندهٔ عادی معرفی کرد:
- ۱۹۹۰ – Dragon Dictate
نرمافزاری با دیکشنری ۸۰٬۰۰۰ کلمه که با قیمت نجومی ۹۰۰۰ دلار عرضه شد. کاربران مجبور بودند نرمافزار را به صدای خود «آموزش» دهند تا دقت بالا برود. - ۱۹۹۷ – Dragon NaturallySpeaking
نسخهای روانتر و سریعتر که با قیمت ۱۵۰ دلار در دسترس کاربران خانگی قرار گرفت و تحولی در پذیرش عمومی ASR ایجاد کرد.
با این حال شکایتهایی هم وجود داشت؛ از عملکرد نهچندان طبیعی تا نیاز به صحبت کردن با لهجهی مصنوعی. اما همین محصولات بودند که راه را برای صنعت ASR هموار کردند.
چشمانداز بعد از ۱۹۹۳
۲۵ سال پس از نامهٔ پیرس، IEEE مقالهای با عنوان «Whither Speech Recognition: the Next 25 Years» منتشر کرد که نگرش خوشبینانهتری نسبت به آیندهٔ ASR داشت:
- درک کامل معنی گفتار توسط کامپیوترها تا آن زمان «غیرممکن» به نظر میرسید.
- با این حال کاربردهای متنوعی وجود داشت که نیازی به فهم عمیق معنی نداشتند.
- پیشبینی شد تا سال ۲۰۰۰، استفاده از واسطهای گفتاری برای دسترسی به اطلاعات از طریق گفتگو بیش از کیبوردزدن باشد.
نتیجهگیری و آینده
در پستهای آینده به بررسی تحولات نوین در ASR میپردازیم که شبکههای عصبی نقش اصلی را ایفا کردهاند؛ فناوریای که ریشهاش به دههٔ ۱۹۵۰ بازمیگردد، اما اکنون با توان محاسباتی و حجم دادههای عظیم، به نقطهای رسیده که چشمانداز را دگرگون کرده است.
سیوان با تکیه بر همین رویکردهای پیشرفته و تجربهٔ نیمقرن تلاش علمی، آماده است تا خدمات تشخیص گفتار فارسی را در سطوحی نوین ارائه دهد. همراه ما باشید و از آخرین اخبار و مقالات ما در مدیوم، توییتر و اینستاگرام با خبر شوید!