كيف يتعرف الكمبيوتر على الصوت

لم يعد التحدث للكمبيوتر امراً مستغربا هذه الأيام فالعديد من الشركات الكبرى اصبحت تستخدم اجهزة ترد على المتصلين وتوجههم للفرع المطلوب بالطلب منك ان تقوم بالضغط على احد ازرار الهاتف ليقوم بتحويلك ألياً الى الشخص الذي سيلبي طلبك، وليس هذا فحسب فهناك بعض الانظمة المتطورة تستطيع ان تستقبل اوامر لفظية كأوامر للتحكم بوظائف معينة. ولن نستعرب ايضا اذا ما قمنا بالتحدث للاجهزة المختلفة في المنزل مثل اطفاء وتشغيل التلفزيون والتحكم به او ان نعطي اوامر صوتية للميكروويف او ان نجد شحض ييأمر المصعد بان يفتح الباب بدون الضغط على اية ازرار. ان استخدام اصواتنا كمصدر للاوامر الكمبيوتر هو نتاج لعمل وجهد شاق ومضن لتطوير برامج كمبيوتر تأتي باسم برامج التعرف على الاصوات Speech Recognition Program .

أنواع برامج التعرف على الصوت
برامج عامة وبكلمات محدود
هذه البرامج المستخدمة في انظمة الاتصالات الحديثة والتي تقوم فيها البدالة بالرد على المتصلين. حيث يتحدث المتصل للاستعلام عن أمر ما ويقوم البرنامج بتحليل الصوت وفهمه وربما الطلب من المتحدث باداء ضغطة او اكثر على هاتفه لاستكمال المهمة بدون الاستعانة بموظف او عامل.
برامج خاصة وبكلمات عديدة

هذه البرامج تعمل مع فئة محدودة من الناس الذين تجمعهم بئية عمل مشتركة وتصل كفاءة هذه البرامج إلى 85% او اكثر في التعرف على التعليمات الصوتية بغض النظر عن اللهجة واختلاف نبرات الصوت. ويتم تدريب هذه الانظمة من خلال تعريفها باصوات المستخدمين. وكمثال توضيحي لذلك التعليمات الصوتية التي نقوم بتخزينها في الجوال لتشغيل بعض وظائف الجوال ومن ثم يصبح الجوال قادراً على التعرف على هذه التعلميات الصوتية التي تصدر من صاحب الصوت الاصلي، وبالطبع هذا المثال لتوضيح الفكرة فقط لان برامج التعرف على الصوت اكثر تعقيداً لانها يجب ان تكون قادرة على التجاوب مع عدد كبير من المتحدثين وبالتأكيد نطق كل شخص يختلف عن الآخر.

مجموعة من البرامج المتخصصة في التعرف على الاصوات

نظام تعليمي للطلبة الصم يعتمد على نقل صورة المدرسة الى الطالب عن طريق الكمبيوتر وتحويل الصوت إلى نص مقروء ليتمكن الطالب متابعة الشرح

تحويل الصوت إلى بيانات رقمية

لتحويل الصوت المسموع الى نص مطبوع على شاشة الكمبيوتر او تنفيذ امر من اوامر الكمببوتر بمجرد نطقه للجهاز عبر الميكرفون فإنه على الكمبيوتر القيام بالعديد من الخطوات المعقدة لانجاز هذه المهمة. وهذه الخطوات هي:
(1) عندما نتحدث فإن اضراب في الهواء الخارج من الفم ينتشر في الهواء في صورة اهتزازات.
(2) يتلقى الكمبيوتر هذه الاهتزازات عبر الميكرفون ويحولها من اشارة تناظريةanalog إلى اشارة رقمية digital من خلال دائرة الكترونية تعرف باسم analog-to-digital converter وتكتب اختصاراً ADC .
وهذه الخطوة تعتبر اهم خطوة حيث يقوم فيها الكمبيوتر بتحويل الموجة الصوتية وتقسيمها إلى عناصر صغيرة Samples وتسمى في بعض كتب الكمبيوتر العربية المترجمة بعملية النمذجة، وهذه العناصر تشكل المعلومات الرقمية التي يستطيع الكمبيوتر من التعامل معها وفهمها، ويخزن الكمبيوتر معلومات عن كل عنصر من هذه العناصر الرقمية تحتوي عى التردد الشدة كما هو موضح في الشكل الموضح ادناه
(3) يقوم الكمبيوتر في هذه الخطوة بالتخلص من الاصوات التي صدرت في الخلفية وتشكل ضجيج يتداخل مع الصوت من خلال البرنامج والذي يقوم ايضا بضبط الصوت ومعايرة شدته لمستوى سمعي محدد. كما يقوم البرنامج بضبط سرعة الصوت لتتوافق مع سرعة الصوت العياري المخزن في البرنامج لان كل شخص يتحدث بسرعة تختلف عن الأخر.

يتم تحويل الاشارة الصوتية التناظرية (باللون الاحمر) إلى اشارة صوتية رقمية مقسمة إلى عناصر او نماذج (باللون الأخضر) وكلما كانت العناصر اصغر كلما كانت الدقة اعلى والجودة اكثر

(4) بعد عملية النمذجة “التقسيم” يتم اخضاع مكونات الصوت (الفونيماتphonemes ) لفحص ومقارنة بالمقاطع الصوتية للغة المستخدمة والمخزنة في البرنامج والتي تعرف باسم الفونيمات phonemes وهي الاجزاء او المقاطع الصوتية التي تخرج من الفم لتشكل مع بعضها البعض اصواتاً مفهومة. وفي اللغة الانجليزية يوجد حوالي 40 فونيم، ولكل لغة يوجد عدد من الفونيم الخاص بها قد يكون اقل او اكثر.

(5) في هذه الخطوة الاكثر حساسية وصعوبة للكمبيوتر في انجازها والتي يعمل كل المطورين والخراء على تطويرها والتي تتعلق في عمل البرنامج الذي يعمل على فحص اللفظ اللغوي في سياق الجملة ومن ثم يعزله عن الاصوات الصادرة حوله وهذه العملية تتطلب القيام بالكثير من المحاولات الاحصائية المعقدة ومقارنة النتائج مع مكتبة ضخمة من الكلمات المعروفة والجمل الشائعة والعبارات المتداولة. وبعدها يستطيع البرنامج من تحديد ماذا يقصد المتحدث بالضبط وهل هي اوامر للتنفيذ ام هي نص للطباعة.

وسوف نقوم في ما يلي بتوضيح وشرح المقصود بالخطوة الخامسة وكيف يقوم البرنامج بانجازها لان اي تطور في مجال برامج التعرف على الصوت يرتكز على تطوير هذه الخطوة حيث ان الخطوات الاربعة السابقة هي خطوات تحضيرية للخطوة الخامسة وتعتمد على التقدم في مجال الالكترونيات والكمبيوتر وهذا متاح ولا مشكلة فيه.

برامج التعرف على الصوت والنماذج الاحصائية المستخدمة

إن نموذج ماركوف المخفي هو النموذج الأكثر شيوعا، لذا سوف نتناوله بالشرح والتوضيح. في هذا النموذج، فإن كلّ فونيم phoneme يعتبر كالوصلة فيسلسلة، حيث نعتبر ان الكلمة هي عبارة عن سلسلة. وتتفرّع هذه السلسلة في إتجاهات مختلفة في حين يعمل البرنامج على مقارنة الصوت الرقمي مع الفونيم الذي يقابله. وخلال هذه العملية، يخصص البرنامج نسبة محددة لكل احتمالية معتمداً على قاموس لغوي وعلى التدريب الصوتي الذي قام المستخدم بالتدرب عليه في اول مرة قام بتشغيل البرنامج.
هذه العملية معقدة جداً مع الجمل والعبارات لان البرنامج عليه أن يحدد أين تبدأ الكلمة وأين تتوقف في الجملة. فمثلاً الجملة “recognize speech” اي “التعرف على الحديث” اذا ما نطقت بسرعة تبدو وكانك تقول “wreck a nice beach” أي “شاطئ لطيف محطم”. إن البرنامج عليه ان يحلل الفونيمات التي تستعمل في الجملة لكي يفهمه بشكل صحيح. وبتجزأة الجملتين على النحو التالي:

لماذا يبدو الامر مقعداً لهذه الدرجة؟ لنفترض مثلاً ان البرنامج يحتوي على عدد 60,000 كلمة فإن هناك 216 ترليون احتمالية لتكوين جملة من ثلاثة كلمات؟ وبالتأكيد اي كمبيوتر مهما كانت قدراته الحاسوبية فإنه غير قادر على البحث في كل هذه الاحتمالات بدون مساعدة او تدخل ما.

برنامج التدريب الخاص بالتعرف على الصوت والموجود ضمن برنامج التشغيل ويندوز اكس بي

تأتي المساعدة للكمبيوتر من خلال نموذج ماركوف المعتمد على برنامج التدريب حيث تحتاج هذه الأنظمة الإحصائية الكثير من بيانات التدريب النموذجية للوصول إلى أدائهم المثالي فالكلام المسجل كتدريب للبرنامج يستعمل لتكوين نماذج السمعية من الكلمات، والجمل والعبارات لتشكل للبرنامج شبكات إحتمالية متعددة. ولذلك عند حصولك على برنامج من برامج التعرف على الصوت فإنك بعد تنصيبه على الجهاز يطلب منك تدريب البرنامج من خلال قراءة نصوص تظهر لك على شاشة البرنامج بصوت واضح وتستغرق فترة التدريب هذه بحد اقصى 10 دقائق. وتكون هذه النصوص التي تقرأها معدة بطريقة دقيقة وربما تكون موجهة لتخصص معبن اذا كنت قد حددت للبرنامج مجال عملك كالطب او الادارة او السياسة.

عيوب ومشاكل انظمة التعرف على الصوت

لا يوجد نظام تعرف على الصوت مثالية تعمل بدقة 100% كما ان هناك عدة عوامل يمكن أن تقلل من الدقة بعضها عوامل تقنية وبعضها الأخر يرجع للمستخدم نفسه. ومن هذه العوامل ما يلي:

مستقبل انظمة التعرف على الصوت

من الجدير ذكره ان العالم جراهام بيل هو اول من حاول في ايجاد طريقة لتحويل الاصوات الى صور وذلك في محاولة منه لمساعدة زوجته التي كانت لا تسمع في ان تفهم ما يقوله لها ونجح في تحويل الصوت الى منحنيات مرسومة ولكن لم تستطع زوجته من فهمها ولكن بحثه المستمر في هذا المجال ادى الى ان يخترع لنا الهاتف.
ولعدة عقود مضت، طور العلماء طرق تجريبية لتمييز الصوت الكترونياً ولكن لم تكن اجهزة الكمبيوتر كتوفرة في ذلك الوفت. وفي التسعينيات حيث بدأت أجهزة الكمبيوتر تتوفر لتستخدم في مجال تمييز الصوت. واستمرت البحوث وتطورت مع تطور اجهزة الكمبيوتر ومن المتوقع ان تؤدّي هذه البحوث قريبا إلى التقنيات المستخدمة في افلام الخيال العلمي مثل سلسلة افلام ” Star Trek ” أي “رحلة عبر النجوم.”
إن وكالة الدفاع للبحوث والمشاريع المتقدمة Defense Advanced Research Projects Agency ( DARPA ) خصصت ثلاثة من الفرق البحثية للعمل على مشروع باسم Global Autonomous Language Exploitation (GALE), أي تطوير لغة مستقلة عالمية بحيث تعمل هذه اللغة كوسيط بين لغات العالم بحيث تستطيع استقبال ارسال الاقمار الصناعية باي لغة وتحويلها الى اللغة التي نتحدث بها ونفهما واي تعمل مثل الافلام المدبلجة فتستطيع ان تستمع لاي محطة في العالم وباي لغة. أي اننا في المستقبل سوف نشاهد برامج ترجمة فورية تستطيع ان تترجم لغتان فوراً وبدقة تصل إلى 90%. . “وكالة مشاريع البحوث المتقدمة دفاع تموّل أيضا R & D جهد دعا ترانستاك لتمكين جنودنا لإتّصال عمليا أكثر مع السكان المدنيين في البلدان غير الناطقة بالأنجليزية، “قال غاروفولو، يضيف بأنّ التقنية ستوزّع أسهم بلا شك إلى التطبيقات المدنية، بضمن ذلك a مترجم عالمي.
هذا كما وتمول وكالة الدفاع للبحوث والمشاريع المتقدمة مسار أخر للبحوث في هذا المجال وباسم TRANSTAC يهدف إلى تمكين الجنود من التحدث إلى لغة البلد التي يحتلوها ويفهموها كما لو كانوا ناطقين بها.
اما على المستقبل البعيد فإن الوصول الى المترجم العالمي هو هدف الباحثين بالرغم من التحديات الكبيرة التي تواجه هذه الفكرة والناجمة عن اللهجات المختلفة والقواعد النحوية العديدة والعامية المستخدمة في الحياة اليومية هذا بالاضافة الى ان كلمة باللغة العربية قد تحتاج الى جملة من اربع الى خمس كلمات لتقابلها.
كما انه في وقت ما في المستقبل، قد ننتقل من التعرف الى الصوت إلى مرحلة الفهم وادراك المعنى والمقصود وربما بعد 25 سنة سنجد الكمبيوتر يتناقش ويتحاور معنا بل ويناقش مثل ما نشاهد في افلام الخيال العلمي.

اترك تعليقاً إلغاء الرد