वॉयस रिकग्निशन क्या है? (What is Voice Recognition?)
वॉयस रिकग्निशन एक कंप्यूटर सॉफ्टवेयर प्रोग्राम या हार्डवेयर डिवाइस है जिसमें मानव की आवाज को डिकोड करने की क्षमता होती है। वॉयस रिकॉग्निशन का उपयोग आमतौर पर किसी डिवाइस को संचालित करने, कमांड करने, या कीबोर्ड, माउस का उपयोग किए बिना लिखने या किसी भी बटन को दबाने के लिए किया जाता है। आज, यह ASR (automatic speech recognition) सॉफ्टवेयर प्रोग्राम वाले कंप्यूटर पर किया जाता है। कई ASR प्रोग्राम्स को उपयोगकर्ता को अपनी आवाज को पहचानने के लिए एएसआर प्रोग्राम को “प्रशिक्षित” करने की आवश्यकता होती है ताकि यह स्पीच को टेक्स्ट में अधिक सटीक रूप से परिवर्तित कर सके। उदाहरण के लिए, आप कह सकते हैं “ओपन इंटरनेट” और कंप्यूटर इंटरनेट ब्राउज़र को खोलेगा।
वॉयस रिकग्निशन किसी व्यक्ति के वॉयस बायोमेट्रिक्स का मूल्यांकन करता है, जैसे कि उनकी आवाज़ की आवृत्ति और प्रवाह और उनका प्राकृतिक उच्चारण। वॉइस रिकग्निशन को स्पीकर रिकग्निशन के रूप में भी जाना जाता है।
वॉयस रिकग्निशन का इतिहास (History of Voice Recognition)
उपभोक्ताओं के लिए पहला स्पीकर रिकग्निशन उत्पाद 1990 में ड्रैगन द्वारा लॉन्च किया गया था, जिसे ड्रैगनडिक्टेट कहा जाता है। 1996 में, आईबीएम ने पहला वॉयस रिकग्निशन प्रोडक्ट पेश किया जो निरंतर भाषण को पहचान सकता था।
2000 के दशक के उत्तरार्ध में स्मार्टफोन के लॉन्च के बाद, Google ने iPhone के लिए अपना वॉयस सर्च ऐप लॉन्च किया। तीन साल बाद, Apple ने सिरी को पेश किया, जो अब एक प्रमुख वॉयस रिकग्निशन अस्सिस्टेंट है।
पिछले एक दशक के दौरान, कई अन्य तकनीकी कंपनियों ने भी अधिक परिष्कृत वॉइस रिकग्निशन सॉफ्टवेयर विकसित किया है, जिसमें अमेज़ॅन की इको की विशेषता एलेक्सा और माइक्रोसॉफ्ट का कोरटाना है – दोनों ही व्यक्तिगत सहायक के रूप में कार्य करते हैं जो वॉइस कमांड पर प्रतिक्रिया देते हैं।
वॉयस रिकग्निशन के लिए क्या आवश्यक है? (What is required for Voice Recognition?)
काम करने के लिए आवाज की पहचान के लिए, आपके पास एक साउंड कार्ड और एक माइक्रोफोन या एक हेडसेट होना चाहिए। अन्य उपकरणों जैसे स्मार्ट फोन में डिवाइस में निर्मित सभी आवश्यक हार्डवेयर होते हैं। इसके अलावा, आपके द्वारा उपयोग किए जाने वाले सॉफ़्टवेयर को वॉइस रिकग्निशन सपोर्ट की आवश्यकता होती है|
वॉयस रिकग्निशन कैसे काम करता है (How Voice Recognition Works)
कंप्यूटर पर वॉयस रिकग्निशन सॉफ्टवेयर के लिए आवश्यक है कि एनालॉग ऑडियो को डिजिटल सिग्नल में परिवर्तित किया जाए, जिसे एनालॉग-टू-डिजिटल रूपांतरण कहा जाता है। एक कंप्यूटर के लिए एक सिग्नल को समझने के लिए, उसके पास शब्दों या सिलेबल्स का एक डिजिटल डेटाबेस या शब्दावली होना चाहिए, साथ ही इस डेटा को संकेतों की तुलना करने के लिए एक त्वरित साधन होना चाहिए। स्पीच पैटर्न हार्ड ड्राइव पर संग्रहीत होते हैं और प्रोग्राम चलाने पर मेमोरी में लोड होते हैं।
वॉयस रिकग्निशन का उपयोग कहां किया जाता हैं (Where Voice Recognition is Used)
जैसे-जैसे वॉइस रिकग्निशन में सुधार होता जा रहा है, वैसे वैसे इसका हर जगह पर प्रयोग किया जा रहा है और आपने भी इसका प्रयोग कही न कही जरुर किया होगा नीचे कुछ अच्छे उदाहरण दिए गए हैं, जहाँ से आपको आवाज की पहचान हो सकती है।
- स्वचालित फ़ोन सिस्टम (Automated phone systems) – कई कंपनियां आज अपने फ़ोन सिस्टम में वॉइस रिकग्निशन का उपयोग करती हैं जो कॉलर को सही विभाग में निर्देशित करने में मदद करती हैं।
- गूगल वॉइस (Google Voice) – Google वॉइस एक ऐसी सेवा है जो आपको अपने कंप्यूटर, टैबलेट और फोन पर खोज और प्रश्न पूछने की अनुमति देती है।
- डिजिटल सहायक (Digital assistant) – अमेज़ॅन इको, ऐप्पल के सिरी, और Google सहायक डिजिटल असिस्टेंट के साथ बातचीत करने के लिए आवाज पहचान का उपयोग करते हैं जो सवालों के जवाब देने में मदद करता है।
- कार ब्लूटूथ (Car Bluetooth ) – ब्लूटूथ या हैंड्सफ्री फोन पेयरिंग वाली कारों के लिए, आप कमांड बनाने के लिए वॉयस रिकग्निशन का उपयोग कर सकते हैं, जैसे कि “Call Ankit”|
वॉयस रिकग्निशन प्रणाली के प्रकार (Types of Voice Recognition System)
स्वचालित स्पीच रिकग्निशन आवाज पहचान का सिर्फ एक उदाहरण है। नीचे वॉइस रिकग्निशन प्रणाली के अन्य उदाहरण हैं।
- स्पीकर डिपेंडेंट सिस्टम (Speaker dependent system) – इस वॉयस रिकॉग्निशन का उपयोग करने से पहले प्रशिक्षण की आवश्यकता होती है, जिसके लिए आपको शब्दों और वाक्यांशों की एक श्रृंखला को पढ़ना पड़ता है।
- स्पीकर इंडिपेंडेंट सिस्टम (Speaker independent system) – यह वॉयस रिकग्निशन सॉफ्टवेयर अधिकांश उपयोगकर्ताओं की आवाज को बिना किसी प्रशिक्षण के पहचानता है।
- असतत स्पीच रिकग्निशन (Discrete speech recognition)- उपयोगकर्ता को प्रत्येक शब्द के बीच विराम देना चाहिए ताकि स्पीच रिकग्निशन प्रत्येक अलग शब्द को पहचान सके।
- निरंतर स्पीच रिकग्निशन (Continuous speech recognition)– आवाज की पहचान बोलने की सामान्य दर को समझ सकती है।
- प्राकृतिक भाषा (Natural language) – स्पीच रिकग्निशन न केवल आवाज को समझ सकती है, बल्कि उन प्रश्नों या अन्य प्रश्नों के उत्तर भी दे सकती है जो पूछे जा रहे हैं।