International Character set in Multimedia

International Character set

ASCII Character Set

ASCII का पूर्ण विस्तार अमेरिकन स्टैंडर्ड कोड फॉर इंफॉर्मेशन एक्सचेंज है| ASCII एक स्टैंडर्ड अल्फान्यूमेरिक कोड है जो numbers, Alphabets, Character और symbol को एक 7 बिट का code format प्रयोग करके रिप्रेजेंट करता है| स्टैंडर्ड ASCII Character सेट 128 Decimal numbers से बने होते हैं जो 0 से लेकर 127 तक होते हैं| इन्हें letters, numbers, punctuation marks और सबसे कॉमन special Character के साथ साइन किया जाता है|

ASCII कोड नंबर हमेशा इंग्लिश अल्फाबेट की ही letter या symbol को रिप्रेजेंट करते हैं| ताकि एक कंप्यूटर या प्रिंटर उस नंबर के साथ कार्य कर सकें जो letter को रिप्रेजेंट करता है| चाहे वह letter स्क्रीन या प्रिंट आउट में कैसा भी दिखाई देता हो| ASCII Character set के साथ काम करने वाले कंप्यूटर के लिए 65 नंबर, उदाहरण के लिए हमेशा letter A को रिप्रेजेंट करता है| 66 letter, B को और इसी तरह आगे बढ़ा जाता है| letter जब मॉनिटर पर डिस्प्ले किए जाते हैं या प्रिंट किए जाते हैं तो नंबर letter में बदल जाते हैं|
ASCII कोड का प्रयोग व्यापक तौर पर छोटे कंप्यूटर पेरिफेरल, इंस्ट्रूमेंट्स और कम्युनिकेशन डिवाइस में होता है| इससे कई स्पेशल कोड रिप्लेस हो जाते हैं जो पहले निर्माताओं द्वारा इस्तेमाल किए जाते थे|

Extended Character Set

एक बाइट (8 बिट) कंप्यूटर की प्रोसेसिंग में सबसे अधिक एवं आमतौर पर इस्तेमाल होने वाली निर्माण इकाई है| ASCII में 128 Character को कोड करने के लिए केवल 7 बिट्स का ही प्रयोग किया जाता है, byte कि आठवीं बिट खाली रह जाती है| यह अतिरिक्त bit अन्य 129 Character को एनकोड करने की अनुमति देती है इससे पहले कि byte पूरी तरह से इस्तेमाल हो जाए और आजकल के कंप्यूटर सिस्टम 128 अतिरिक्त वैल्यूज को ही Extended Character Set के लिए इस्तेमाल की जाती है| Extended Character Set बहुत ही सामान्य रूप से ANSI (अमेरिकन नेशनल स्टैंडर्ड इंस्टिट्यूट) स्टैंडर्ड Character से भरा होता है| जिसमे अक्सर इस्तेमाल होने वाले symbol एवं international diacritics या alphabet Character का प्रयोग होता है| 255 Character के संपूर्ण सेट को ISO – Latin – 1 Character सेट भी कहा जाता है| इसे तब प्रयोग किया जाता है जब HTML वेब पेज के टेक्स्ट की प्रोग्रामिंग की जाती है|

Unicode

कम्‍प्‍यूटर के बढ़ते व्‍यवहार तथा अलग-अलग भाषाओं में कम्‍प्‍यूटर के उपयोग ने एक Public code की आवश्‍यकता को जन्‍म दिया, जिसमें संसार के प्रत्‍येक कैरेक्‍टर के लिए एक अलग कोड निर्धारित हो ताकि प्रत्‍येक भाषा, प्रत्‍येक प्रोग्राम तथा प्रत्‍येक साफ्टवेयर में उसका प्रयोग किया जा सके। इसके लिए यूनीकोड की व्‍यवस्‍था की गई जिसमें एक लाख कैरेक्‍टर के निरूपण की क्षमता हैं|

यूनीकोड विश्‍व की सभी भाषाओं में प्रयुक्‍त पहले 256 कैरेक्‍टर का निरूपण आस्‍की कोड (ASCI Code0) के समान ही है। इसमें प्रत्‍येक कैरेक्‍टर को 32 बिट में निरूपित किया जाता हैं। यूनीकोड में तीन प्रकार की व्‍यवस्‍था प्रयोग में लायी जाती हैं।

1. यूटीएफ – 8 (UTF-8-Unicode Transformation Format-8)

यूटीएफ-8 फार्मेट में समस्‍त यूनीकोड अक्षरों को एक‍, दो, तीन या चार बाइट के कोड में बदला जाता हैं।


2. यूटीएफ – 16 (UTF-16)

इस फार्मेट में यूनीकोड अक्षरों को एक या दो शब्‍दों (1 शब्‍द = 16 बिट) के कोड में बदला जाता हैं। अत: इसे Word Oriented Format भी कहते हैं।

3. यूटीएफ-32 (UTF-32)

इस कोड में समस्‍त अक्षरों को दो शब्‍दों (Words) यानी 32 बिट के यूनीकोड में बदला जाता हैं।

मूल रूप से कंप्यूटर्स केवल नंबर के साथ ही कार्य करते हैं इनमें लेटर्स या अन्य Character इस्तेमाल किए जाते हैं और प्रत्येक के साथ एक नंबर साइन किया जाता है यूनिकोड के आविष्कार से पहले इन नंबर को असाइन करने के लिए सैकड़ों अलग-अलग एनकोडिंग सिस्टम थे किसी भी एक एंकोडिंग मैं पर्याप्त कैरेक्टर्स नहीं हो सकते थे उदाहरण के लिए केवल यूरोपियन यूनियन के लिए ही कई अलग-अलग एनकोडिंग की आवश्यकता होती है ताकि इसकी सभी लैंग्वेज को कवर किया जा सके यहां तक कि एक सिंगल लैंग्वेज ऐसे इंग्लिश के सभी लेटर्स पंक्चुएशन एवं टेक्निकल symbol जो आमतौर पर इस्तेमाल किए जाते हैं कोई भी symbol एनकोडिंग पर्याप्त नहीं होती है|

यह एनकोडिंग सिस्टम एक दूसरे से मेल नहीं खाते हैं अर्थात दो एनकोडिंग में एक ही नंबर को दो अलग-अलग Character के लिए इस्तेमाल किया जा सकता है या यह एक ही Character के लिए अलग-अलग नंबर इस्तेमाल कर सकते हैं|



error: Content is protected !!