Sun. Sep 8th, 2024
    कंप्यूटर नेटवर्क में यूनिकोड

    विषय-सूचि

    यूनिकोड क्या है? (unicode in hindi)

    यूनिकोड एक वैश्विक encoding सिस्टम है जो कि comprehensive करैक्टर सेट है और जिसे यूनिकोड आयोग (बहुत सारी भाषाओँ में सॉफ्टवेर बनाने वाली कम्पनियों का समूह) द्वारा बनाया गया था।

    यूनिकोड सॉफ्टवेर लोकलाइजेशन को और भी सरल बना देता है और एक से ज्यादा भाषाओँ में टेक्स्ट को प्रोसेस करने की क्षमता बढाता है। ये ASCHII और एक्सटेंडेड ASCHII की परेशानियों से पार आता है।

    यूनिकोड ने स्क्रिप्ट के व्यवहार को एक स्टैण्डर्ड दिया है जो कि किसी भी प्रकार के करैक्टर के कॉम्बिनेशन को बढ़ावा देता है चाहे उन्हें किसी भी भाषाओँ या स्क्रिप्ट से मिला कर बनाया गया हो।

    और ये सब एक सिंगल डॉक्यूमेंट में को-एक्सिस्ट करते हैं। यूनिकोड अपने सिंगल करैक्टर सेट को मल्टीपल इनकोडिंग में परिभाषित करता है। जैसे कि; UTF-7, UTF-8, UTF-16, और UTF-32. इन सभी इनकोडिंग के बीच डाटा का लोसलेस कन्वर्जन होता है।

    यूनिकोड असल में एक दो बाइट का करैक्टर सेट था लेकिन यूनिकोड के तीसरे वर्जन में इसे 4 बाइट कोड बनाया गया। ये ASCII और एक्सटेंडेड ASCII के साथ पूरे तरह से सपोर्ट करता है।

    ये सभी करैक्टर के समान सेट को इनकोड कर कते हैं:

    • UTF-8: ये 1 से 4 बाइट पर करैक्टर तक प्रयोग करता है जो कि करैक्टर पर निर्भर  करता है। लेकिन ASCII केवल 1 बाइट लेता है और जो असामान्य हैं उनके लिए 4 बाइट।
    • UTF-16: ये अधिकतर करैक्टर के लिए 2 बाइट लेता है लेकिन unusual करैक्टर के लिए 4 बाइट लेता है।
    • UTF-32: ये चार बाइट पर करैक्टर प्रयोग करता है। इसमें हम करैक्टर की संख्या कैलकुलेट कर सकते हैं और इसके लिए हमे सिर्फ बाइट की गणना करनी होगी।

    नोटेशन (notation)

    इसके नोटेशन निम्नलिखित हेक्साडेसीमल का प्रयोग करते हैं:

    इसका नम्बरिंग U-00000000 से U-FFFFFFFF तक जाता है। यूनिकोड उपलब्ध स्पेस कोड को प्लेन्स में विभाजित कर देता है। एक प्लेन 65,536 कोड पॉइंट का एक कंटीन्यूअस समूह होता है।

    मोस्ट significant 16 डिजिट प्लेन को परिभाषित करते हैं (जैसे प्लेन्स की संख्या: 65,535) और प्रत्येक प्लेन 65,536 करैक्टर या सिंबल को परिभाषित कर सकता है।

    प्लेन्स के प्रकार (types of plains)

    प्लेन्स और उनके प्रकार को विवरण के साथ नीचे लिस्ट किया गया है:

    1. Basic multilingual plane (BMP) –  प्लेन 0000, बेसिक बहुभाषीय प्लेन को पिछले 16 बिट यूनिकोड के साथ रहने के लिए डिजाईन किया गया था। इस प्लेन में मोस्ट significant 16 बिट के सभी बिट्स शुन्य होते हैं। ये करैक्टर सेट को विभिन्न भाषाओ में परिभाषित करता है (कुछ कण्ट्रोल और कुछ खास करैक्टर को छोड़ कर). इसे U+XXXX की तरह दिखाया जाता है जहां XXXX लीस्ट significant 16 बिट्स होता है। जैसे; U+0900 to U+09FF को देवनागरी के लिए रिज़र्व कर के रखा गया है, बंगाली के लिए U+2200 है और गणितीय ऑपरेशन के लिए U+22FF है।
    2. Supplementary multilingual plane (SMP) – प्लेन 0001, बहुभाषीय प्लेन को इसीलिए डिजाईन किया गया था ताकि कुछ बहुभाषीय करैक्टर जो BMP में छूट गये हैं उन्हें भी कोड दिया जा सके। जैसे 10140-1018F को प्राचीन ग्रीक संख्याओं के लिए रिज़र्व किया गया है।
    3. Supplementary ideography plane (SIP) – इस supplementary ideography प्लेन को ideographic सिम्बल्स को कोड देने के लिए डिजाईन किया गया था। जैसे ऐसे सिंबल जो ध्वनी के रेस्पेक्ट में प्रयोग किये जाएँ, जैसे कि 20000-2A6DF को CJK यूनिफाइड एक्सटेंशन B के लिए रिज़र्व रखा गया है।
    4. Supplementary special plane (SSP) – 000E, ये एक supplementary स्पेशल प्लेन है जिसे ख़ास कैरेक्टर्स के लिए प्रयोग किया जाता है। जैसे E0000-E007F टैग्स के लिए रिज़र्व हैं।
    5. Private use planes (PUPs) – 000F और 0010 के प्लेन केवल प्राइवेट प्रयोग के लिए हैं।

    इस लेख से सम्बंधित यदि आपका कोई भी सवाल या सुझाव है, तो आप उसे नीचे कमेंट में लिख सकते हैं।

    By अनुपम कुमार सिंह

    बीआईटी मेसरा, रांची से कंप्यूटर साइंस और टेक्लॉनजी में स्नातक। गाँधी कि कर्मभूमि चम्पारण से हूँ। समसामयिकी पर कड़ी नजर और इतिहास से ख़ास लगाव। भारत के राजनितिक, सांस्कृतिक और भौगोलिक इतिहास में दिलचस्पी ।

    Leave a Reply

    Your email address will not be published. Required fields are marked *