sewane-logo
تاریخچه و کاربردهای تشخیص خودکار گفتار (ASR)

تاریخچه و کاربردهای تشخیص خودکار گفتار (ASR)

۲۴ اردیبهشت ۱۴۰۴· داوود کاکائی

مقدمه

سیوان مفتخر است بخشی از نسل جدید نرم‌افزارهای خلاقانه باشد که با پیشرفت‌های اخیر در فناوری تشخیص خودکار گفتار (Automatic Speech Recognition یا ASR) امکان‌پذیر شده‌اند. این روزها زمان هیجان‌انگیزی است: فناوری ASR به تازگی از مرحلهٔ وعده‌های دوردست عبور کرده و به‌طور عملی در خدمت کاربران قرار گرفته، و هر روز هم دقیق‌تر و کاراتر می‌شود.

اما این لحظه بیش از نیم قرن در راه بوده است؛ از دهه‌ها پژوهش و نقاط امید و ناامیدی گذشته تا رسیدن به نقطهٔ کنونی. چه چیزی باعث شد ASR در کاربردهای تجاری قابل اتکا شود؟ و این سیستم‌ها چه دستاوردهایی دارند، حتی پیش از آنکه سیری (Siri) و همشهریانش پا به میدان بگذارند؟

داستان تشخیص گفتار؛ زنجیره‌ای از رویکردها و فناوری‌ها

پیشرفت‌های ASR نه تنها به توسعهٔ فناوری بستگی داشت، بلکه ترکیبی بود از کاربردِ روش‌های مختلف: تحلیل اصوات، ساختار زبان و روش‌های آماری. در طول چند دهه، محققان راه‌های گوناگونی برای «بُریده» کردن زبان آزمودند تا بفهمند چگونه می‌توان صداها را به متن تبدیل کرد.


روزهای اولیه

علاقهٔ بشر به شناسایی و تولید گفتار دست‌کم به صدها سال پیش بازمی‌گردد، اما تا میانهٔ سدهٔ بیستم چیز قابل توجهی ساخته نشد که بتوان نام «تشخیص خودکار گفتار» بر آن گذاشت.

  • ۱۹۵۲ – آدری (Audrey)
    محققان آزمایشگاه‌های بل پروژه‌ای ساده به نام Audrey تولید کردند که می‌توانست اعداد گفتاری را با استفاده از «فرمانت»‌ها (formants) — نشانه‌های صوتیِ متمایز — تشخیص دهد.
  • ۱۹۶۱ – IBM Shoebox
    شرکت IBM دستگاه Shoebox را معرفی کرد که علاوه بر اعداد، دستورهای حسابی مثل «جمع» و «مجموع» را نیز می‌شناخت و می‌توانست سؤال را به ماشین حساب مکانیکی ارسال کند تا حاصل را حساب و پرینت کند.

در همان دهه افراد در ژاپن سخت‌افزاری ساختند که مصوت‌ها را تشخیص می‌داد و تیمی در دانشگاه کالج لندن انگلستان با تحلیل فونم‌ها (کوچک‌ترین واحدهای صدایی زبان) توانست چهار مصوت و نه صامت را شناسایی کند.


اکتبر ۱۹۶۹ – «انجماد» در تحقیقات

یک نقطه‌عطف مهم در قالب نامه‌ای سرگشاده توسط جان آر. پیرس (John R. Pierce) منتشر شد. پیرس، مهندس نام‌آشنای آزمایشگاه‌های بل و نام‌گذار «ترانزیستور»، در مجلهٔ Acoustical Society of America هشدار داد که میدان تشخیص گفتار در دوره‌ای از «بودجهٔ سرسام‌آور پس از جنگ و اسپوتنیک» گرفتار آزمایش‌های بی‌نظم و غیر علمی شده است:

«ما همه معتقدیم که علم گفتار ممکن است، با این حال افراد اندکی در این حوزه شبیه دانشمند رفتار می‌کنند و نتایجی نظیر علم ارائه می‌دهند.»
— جان آر. پیرس، ۱۹۶۹

او برای نشان دادن جدیت، بودجهٔ پروژه‌های ASR در بل را قطع کرد تا پس از کناره‌گیری‌اش در ۱۹۷۱ مجدداً فعال شوند.


پیشرفت ادامه دارد

در اوایل دههٔ ۱۹۷۰، آژانس تحقیقاتی ارتش آمریکا (ARPA، امروز DARPA) برنامهٔ پنج‌ساله‌‌ای به نام Speech Understanding Research را حمایت کرد که منجر به ساخت چند سیستم ASR شد. موفق‌ترین آنها، هارپی (Harpy) از دانشگاه کارنگی ملون بود که تا سال ۱۹۷۶ توانست بیش از هزار کلمه را بشناسد.

هم‌زمان IBM و بل آزمایشگاه‌ها تلاش می‌کردند ASR را در گردش کار اداری و سیستم‌های کنترل فرمان به کار بگیرند؛ پیش‌درآمد سیستم‌های شماره‌گیر صوتی و درختواره‌های پاسخ خودکار تلفنی امروزی.


دههٔ ۸۰: مارکوف‌ها و انقلاب آماری

میانهٔ دههٔ ۱۹۸۰ انقلابی دیگر رقم خورد با همه‌گیر شدن مدل‌های مخفی مارکوف (HMMs). این مدل‌ها از روش‌های آماری بهره می‌بردند و دقت تشخیص را به شکل چشمگیری بالا بردند.

  • پایه‌های نظری HMM در دههٔ ۱۹۶۰ توسط لئونارد بام (Leonard E. Baum) مطرح شد.
  • جیم بیکر (Jim Baker) در اوایل دههٔ ۱۹۷۰ در CMU نخستین کاربردها را در ASR بررسی کرد.
  • اما محبوبیت و گسترش واقعی آن به سال ۱۹۸۰ بازمی‌گردد، وقتی جک فرگوسن (Jack Ferguson) در مؤسسهٔ تحلیل دفاع سخنرانی‌هایی ارائه داد که آغازی بود بر همه‌گیری HMMs.

این رویکرد آماری، همراه با قدرت پردازشی روزافزون کامپیوترها، مسیر ASR را از آزمون و خطاهای تصادفی به دامنه‌ای ساختاریافته و قابل اندازه‌گیری سوق داد.


دههٔ ۹۰: ورود به بازار مصرف

دههٔ ۱۹۹۰ برای اولین بار ASR را به مصرف‌کنندهٔ عادی معرفی کرد:

  • ۱۹۹۰ – Dragon Dictate
    نرم‌افزاری با دیکشنری ۸۰٬۰۰۰ کلمه که با قیمت نجومی ۹۰۰۰ دلار عرضه شد. کاربران مجبور بودند نرم‌افزار را به صدای خود «آموزش» دهند تا دقت بالا برود.
  • ۱۹۹۷ – Dragon NaturallySpeaking
    نسخه‌ای روان‌تر و سریع‌تر که با قیمت ۱۵۰ دلار در دسترس کاربران خانگی قرار گرفت و تحولی در پذیرش عمومی ASR ایجاد کرد.

با این حال شکایت‌هایی هم وجود داشت؛ از عملکرد نه‌چندان طبیعی تا نیاز به صحبت کردن با لهجه‌ی مصنوعی. اما همین محصولات بودند که راه را برای صنعت ASR هموار کردند.


چشم‌انداز بعد از ۱۹۹۳

۲۵ سال پس از نامهٔ پیرس، IEEE مقاله‌ای با عنوان «Whither Speech Recognition: the Next 25 Years» منتشر کرد که نگرش خوش‌بینانه‌تری نسبت به آیندهٔ ASR داشت:

  • درک کامل معنی گفتار توسط کامپیوترها تا آن زمان «غیرممکن» به نظر می‌رسید.
  • با این حال کاربردهای متنوعی وجود داشت که نیازی به فهم عمیق معنی نداشتند.
  • پیش‌بینی شد تا سال ۲۰۰۰، استفاده از واسط‌های گفتاری برای دسترسی به اطلاعات از طریق گفتگو بیش از کیبورد‌زدن باشد.

نتیجه‌گیری و آینده

در پست‌های آینده به بررسی تحولات نوین در ASR می‌پردازیم که شبکه‌های عصبی نقش اصلی را ایفا کرده‌اند؛ فناوری‌ای که ریشه‌اش به دههٔ ۱۹۵۰ بازمی‌گردد، اما اکنون با توان محاسباتی و حجم داده‌های عظیم، به نقطه‌ای رسیده که چشم‌انداز را دگرگون کرده است.

سیوان با تکیه بر همین رویکردهای پیشرفته و تجربهٔ نیم‌قرن تلاش علمی، آماده است تا خدمات تشخیص گفتار فارسی را در سطوحی نوین ارائه دهد. همراه ما باشید و از آخرین اخبار و مقالات ما در مدیوم، توییتر و اینستاگرام با خبر شوید!