DISM कंसोल उपयोगिता का उपयोग करना।

नमस्कार, ब्लॉग साइट के प्रिय पाठकों। आज हम आपसे इस बारे में बात करेंगे कि किसी वेबसाइट और प्रोग्राम में क्रैकोज़्याब्र्स कहां से आते हैं, कौन से टेक्स्ट एन्कोडिंग मौजूद हैं और किन का उपयोग किया जाना चाहिए। आइए उनके विकास के इतिहास पर करीब से नज़र डालें, बुनियादी ASCII से लेकर इसके विस्तारित संस्करण CP866, KOI8-R, Windows 1251 और आधुनिक यूनिकोड कंसोर्टियम एन्कोडिंग UTF 16 और 8 तक।

कुछ लोगों के लिए, यह जानकारी अनावश्यक लग सकती है, लेकिन क्या आप जानते हैं कि मुझे विशेष रूप से क्रॉलिंग क्राकोज़्याब्र्स (वर्णों का अपठनीय सेट) के संबंध में कितने प्रश्न प्राप्त होते हैं। अब मुझे इस लेख के पाठ को सभी को संदर्भित करने और अपनी गलतियाँ खोजने का अवसर मिलेगा। खैर, जानकारी को आत्मसात करने के लिए तैयार हो जाइए और कहानी के प्रवाह का अनुसरण करने का प्रयास करें।

ASCII - लैटिन वर्णमाला के लिए मूल पाठ एन्कोडिंग

टेक्स्ट एनकोडिंग का विकास आईटी उद्योग के गठन के साथ-साथ हुआ और इस दौरान उनमें काफी बदलाव हुए। ऐतिहासिक रूप से, यह सब EBCDIC से शुरू हुआ, जो रूसी उच्चारण में असंगत था, जिससे लैटिन वर्णमाला के अक्षरों, अरबी अंकों और विराम चिह्नों को नियंत्रण वर्णों के साथ एन्कोड करना संभव हो गया।

लेकिन फिर भी, आधुनिक टेक्स्ट एन्कोडिंग के विकास के लिए प्रसिद्ध को शुरुआती बिंदु माना जाना चाहिए एएससीआईआई(सूचना इंटरचेंज के लिए अमेरिकी मानक कोड, जिसे रूसी में आमतौर पर "पूछें" के रूप में उच्चारित किया जाता है)। यह अंग्रेजी बोलने वाले उपयोगकर्ताओं द्वारा सबसे अधिक उपयोग किए जाने वाले पहले 128 वर्णों का वर्णन करता है - अरबी अंक और विराम चिह्न।

ASCII में वर्णित इन 128 वर्णों में कुछ सेवा वर्ण जैसे कोष्ठक, हैश चिह्न, तारांकन आदि भी शामिल हैं। वास्तव में, आप उन्हें स्वयं देख सकते हैं:

यह ASCII के मूल संस्करण के ये 128 अक्षर हैं जो मानक बन गए हैं, और किसी भी अन्य एन्कोडिंग में आप निश्चित रूप से उन्हें पाएंगे और वे इस क्रम में दिखाई देंगे।

लेकिन तथ्य यह है कि जानकारी के एक बाइट की मदद से आप 128 नहीं, बल्कि 256 अलग-अलग मानों (दो की शक्ति आठ के बराबर 256) को एन्कोड कर सकते हैं, इसलिए असुका का मूल संस्करण सामने आने के बाद एक पूरी श्रृंखला विस्तारित ASCII एन्कोडिंग, जिसमें 128 मूल वर्णों के अलावा, राष्ट्रीय एन्कोडिंग (उदाहरण के लिए, रूसी) के प्रतीकों को एनकोड करना भी संभव था।

यहां, विवरण में उपयोग की जाने वाली संख्या प्रणालियों के बारे में शायद थोड़ा और कहना उचित होगा। सबसे पहले, जैसा कि आप सभी जानते हैं, एक कंप्यूटर केवल बाइनरी सिस्टम में संख्याओं के साथ काम करता है, अर्थात् शून्य और एक ("बूलियन बीजगणित", यदि किसी ने इसे किसी संस्थान या स्कूल में लिया हो)। , जिनमें से प्रत्येक की घात दो है, शून्य से शुरू होकर दो से सातवीं तक:

यह समझना मुश्किल नहीं है कि ऐसे डिज़ाइन में शून्य और एक के सभी संभावित संयोजन केवल 256 ही हो सकते हैं। किसी संख्या को बाइनरी सिस्टम से दशमलव सिस्टम में परिवर्तित करना काफी सरल है। आपको बस दो की सभी शक्तियों को उनके ऊपर वाले के साथ जोड़ना होगा।

हमारे उदाहरण में, यह 1 (शून्य की घात 2) प्लस 8 (3 की घात दो), प्लस 32 (पांचवीं घात दो), प्लस 64 (छठी घात), प्लस 128 होता है। (सातवीं शक्ति तक)। दशमलव अंकन में कुल 233 है। जैसा कि आप देख सकते हैं, सब कुछ बहुत सरल है।

लेकिन यदि आप ASCII वर्णों वाली तालिका को करीब से देखेंगे, तो आप देखेंगे कि उन्हें हेक्साडेसिमल एन्कोडिंग में दर्शाया गया है। उदाहरण के लिए, "तारांकन" अस्की में हेक्साडेसिमल संख्या 2ए से मेल खाता है। आप शायद जानते होंगे कि हेक्साडेसिमल संख्या प्रणाली में अरबी अंकों के अलावा, ए (मतलब दस) से एफ (मतलब पंद्रह) तक लैटिन अक्षरों का भी उपयोग किया जाता है।

तो ठीक है, के लिए बाइनरी संख्या को हेक्साडेसिमल में परिवर्तित करनानिम्नलिखित सरल और स्पष्ट विधि का सहारा लें। जानकारी के प्रत्येक बाइट को चार बिट्स के दो भागों में विभाजित किया गया है, जैसा कि उपरोक्त स्क्रीनशॉट में दिखाया गया है। वह। प्रत्येक आधे बाइट में, केवल सोलह मान (दो से चौथी शक्ति) को बाइनरी में एन्कोड किया जा सकता है, जिसे आसानी से हेक्साडेसिमल संख्या के रूप में दर्शाया जा सकता है।

इसके अलावा, बाइट के बाएं आधे हिस्से में, डिग्री को शून्य से शुरू करके फिर से गिनना होगा, न कि जैसा कि स्क्रीनशॉट में दिखाया गया है। परिणामस्वरूप, सरल गणनाओं के माध्यम से, हम पाते हैं कि स्क्रीनशॉट में नंबर E9 एन्कोड किया गया है। मुझे आशा है कि मेरे तर्क का मार्ग और इस पहेली का समाधान आपके लिए स्पष्ट था। खैर, अब आइए, वास्तव में, टेक्स्ट एन्कोडिंग के बारे में बात करना जारी रखें।

असुका के विस्तारित संस्करण - छद्मग्राफिक्स के साथ CP866 और KOI8-R एन्कोडिंग

तो, हमने ASCII के बारे में बात करना शुरू कर दिया, जो कि सभी आधुनिक एन्कोडिंग (विंडोज 1251, यूनिकोड, यूटीएफ 8) के विकास के लिए शुरुआती बिंदु था।

प्रारंभ में, इसमें लैटिन वर्णमाला के केवल 128 अक्षर, अरबी अंक और कुछ और शामिल थे, लेकिन विस्तारित संस्करण में सभी 256 मानों का उपयोग करना संभव हो गया जिन्हें सूचना के एक बाइट में एन्कोड किया जा सकता है। वे। अस्की में अपनी भाषा के अक्षरों के प्रतीक जोड़ना संभव हो गया।

यहां हमें समझाने के लिए फिर से विषयांतर की आवश्यकता होगी - हमें एन्कोडिंग की आवश्यकता ही क्यों है?पाठ और यह इतना महत्वपूर्ण क्यों है। आपके कंप्यूटर स्क्रीन पर वर्ण दो चीज़ों के आधार पर बनते हैं - विभिन्न वर्णों के वेक्टर रूपों (प्रतिनिधित्व) के सेट (वे फ़ाइलों में स्थित होते हैं) और कोड जो आपको वेक्टर रूपों (फ़ॉन्ट फ़ाइल) के इस सेट से बाहर निकलने की अनुमति देता है ) बिल्कुल वही अक्षर जिसे सही जगह पर डालने की आवश्यकता होगी।

यह स्पष्ट है कि फ़ॉन्ट स्वयं वेक्टर आकृतियों के लिए ज़िम्मेदार हैं, लेकिन ऑपरेटिंग सिस्टम और उसमें प्रयुक्त प्रोग्राम एन्कोडिंग के लिए ज़िम्मेदार हैं। वे। आपके कंप्यूटर पर कोई भी टेक्स्ट बाइट्स का एक सेट होगा, जिनमें से प्रत्येक इस टेक्स्ट के एक एकल वर्ण को एन्कोड करता है।

प्रोग्राम जो इस पाठ को स्क्रीन पर प्रदर्शित करता है (पाठ संपादक, ब्राउज़र, आदि), कोड को पार्स करते समय, अगले वर्ण के एन्कोडिंग को पढ़ता है और संबंधित वेक्टर फॉर्म की तलाश करता है आवश्यक फ़ाइलफ़ॉन्ट जो इस टेक्स्ट दस्तावेज़ को प्रदर्शित करने के लिए जुड़ा हुआ है। सब कुछ सरल और साधारण है.

इसका मतलब यह है कि किसी भी वर्ण को एनकोड करने के लिए जिसकी हमें आवश्यकता है (उदाहरण के लिए, राष्ट्रीय वर्णमाला से), दो शर्तों को पूरा करना होगा - इस वर्ण का वेक्टर रूप उपयोग किए गए फ़ॉन्ट में होना चाहिए और इस वर्ण को विस्तारित ASCII एनकोडिंग में एन्कोड किया जा सकता है एक बाइट. इसलिए, ऐसे विकल्पों का एक पूरा समूह मौजूद है। केवल रूसी भाषा के अक्षरों को एन्कोड करने के लिए, विस्तारित अस्का की कई किस्में हैं।

उदाहरण के लिए, मूल रूप से दिखाई दिया सीपी866, जिसमें रूसी वर्णमाला के वर्णों का उपयोग करने की क्षमता थी और यह ASCII का एक विस्तारित संस्करण था।

वे। इसका ऊपरी हिस्सा पूरी तरह से अस्का (128 लैटिन अक्षर, संख्याएं और अन्य बकवास) के मूल संस्करण से मेल खाता है, जो कि ऊपर स्क्रीनशॉट में प्रस्तुत किया गया है, लेकिन CP866 एन्कोडिंग के साथ तालिका के निचले हिस्से की उपस्थिति ठीक नीचे स्क्रीनशॉट में दर्शाई गई है। और अन्य 128 संकेतों (रूसी अक्षरों और सभी प्रकार के छद्मलेखों) को एन्कोड करना संभव बना दिया:

आप देखिए, दाएँ कॉलम में संख्याएँ 8 से शुरू होती हैं, क्योंकि... 0 से 7 तक की संख्याएं ASCII के मूल भाग को संदर्भित करती हैं (पहला स्क्रीनशॉट देखें)। वह। सीपी866 में रूसी अक्षर "एम" में कोड 9सी होगा (यह हेक्साडेसिमल संख्या प्रणाली में 9 के साथ संबंधित पंक्ति और संख्या सी के साथ कॉलम के चौराहे पर स्थित है), जिसे सूचना के एक बाइट में लिखा जा सकता है, और यदि रूसी अक्षरों के साथ उपयुक्त फ़ॉन्ट है, तो यह पत्र बिना किसी समस्या के पाठ में दिखाई देगा।

यह रकम कहां से आई? सीपी866 में छद्मोग्राफिक्स? संपूर्ण मुद्दा यह है कि रूसी पाठ के लिए यह एन्कोडिंग उन जर्जर वर्षों में विकसित की गई थी जब ग्राफिकल ऑपरेटिंग सिस्टम उतने व्यापक नहीं थे जितने अब हैं। और डोसा और इसी तरह के टेक्स्ट ऑपरेटिंग सिस्टम में, स्यूडोग्राफ़िक्स ने कम से कम किसी तरह से टेक्स्ट के डिज़ाइन में विविधता लाना संभव बना दिया, और इसलिए असुका के विस्तारित संस्करणों की श्रेणी से CP866 और इसके अन्य सभी साथी इसमें प्रचुर मात्रा में हैं।

CP866 को IBM द्वारा वितरित किया गया था, लेकिन इसके अलावा, रूसी भाषा के वर्णों के लिए कई एन्कोडिंग विकसित किए गए थे, उदाहरण के लिए, उसी प्रकार (विस्तारित ASCII) को जिम्मेदार ठहराया जा सकता है KOI8-R:

इसके संचालन का सिद्धांत वही है जो थोड़ा पहले वर्णित CP866 का है - पाठ का प्रत्येक वर्ण एक एकल बाइट द्वारा एन्कोड किया गया है। स्क्रीनशॉट KOI8-R तालिका का दूसरा भाग दिखाता है, क्योंकि पहला भाग पूरी तरह से मूल असुका के अनुरूप है, जो इस आलेख में पहले स्क्रीनशॉट में दिखाया गया है।

KOI8-R एन्कोडिंग की विशेषताओं के बीच, यह ध्यान दिया जा सकता है कि इसकी तालिका में रूसी अक्षर वर्णमाला क्रम में नहीं हैं, उदाहरण के लिए, उन्होंने इसे CP866 में किया था।

यदि आप पहले स्क्रीनशॉट (मूल भाग का, जो सभी विस्तारित एन्कोडिंग में शामिल है) को देखते हैं, तो आप देखेंगे कि KOI8-R में रूसी अक्षर तालिका के समान कक्षों में लैटिन वर्णमाला के संबंधित अक्षरों के रूप में स्थित हैं। तालिका के पहले भाग से. यह केवल एक बिट (दो से सातवीं शक्ति या 128) को हटाकर रूसी से लैटिन अक्षरों में स्विच करने की सुविधा के लिए किया गया था।

विंडोज़ 1251 - एएससीआईआई का आधुनिक संस्करण और दरारें क्यों आती हैं

टेक्स्ट एनकोडिंग का आगे विकास इस तथ्य के कारण हुआ कि ग्राफिकल ऑपरेटिंग सिस्टम लोकप्रियता हासिल कर रहे थे और उनमें छद्मग्राफिक्स का उपयोग करने की आवश्यकता समय के साथ गायब हो गई। परिणामस्वरूप, एक पूरा समूह उत्पन्न हुआ, जो संक्षेप में, अभी भी असुका के विस्तारित संस्करण थे (पाठ का एक वर्ण जानकारी के केवल एक बाइट के साथ एन्कोड किया गया है), लेकिन छद्मोग्राफ़िक प्रतीकों के उपयोग के बिना।

वे तथाकथित एएनएसआई एन्कोडिंग से संबंधित थे, जिन्हें अमेरिकी मानक संस्थान द्वारा विकसित किया गया था। आम बोलचाल में, सिरिलिक नाम का उपयोग रूसी भाषा समर्थन वाले संस्करण के लिए भी किया जाता था। इसका एक उदाहरण होगा.

यह पहले से उपयोग किए गए CP866 और KOI8-R से अनुकूल रूप से भिन्न था क्योंकि इसमें छद्मोग्राफ़िक प्रतीकों का स्थान रूसी टाइपोग्राफी (उच्चारण चिह्न को छोड़कर) के लापता प्रतीकों द्वारा लिया गया था, साथ ही साथ स्लाव भाषाओं में उपयोग किए गए प्रतीकों द्वारा भी लिया गया था। रूसी (यूक्रेनी, बेलारूसी, आदि):

रूसी भाषा एन्कोडिंग, फ़ॉन्ट निर्माताओं और निर्माताओं की इतनी प्रचुरता के कारण सॉफ़्टवेयरसिरदर्द लगातार उठता रहा, और आप और मैं, प्रिय पाठकों, अक्सर वही कुख्यात हो गए krakozyabryजब पाठ में प्रयुक्त संस्करण को लेकर भ्रम था।

अक्सर वे संदेश भेजते और प्राप्त करते समय दिखाई देते हैं ईमेल, जिसमें बहुत जटिल रूपांतरण तालिकाओं का निर्माण शामिल था, जो वास्तव में, मूल रूप से इस समस्या को हल करने में असमर्थ थे, और उपयोगकर्ता अक्सर CP866, KOI8-R या Windows 1251 जैसे रूसी एन्कोडिंग का उपयोग करते समय कुख्यात नौटंकी से बचने के लिए पत्राचार के लिए उपयोग करते थे।

वास्तव में, रूसी पाठ के स्थान पर दिखाई देने वाले क्राकोज़ीब्रा एन्कोडिंग के गलत उपयोग का परिणाम थे इस भाषा का, जो उससे मेल नहीं खाता जिसमें इसे एन्कोड किया गया था पाठ संदेशशुरू में।

मान लीजिए कि यदि आप Windows 1251 कोड तालिका का उपयोग करके CP866 का उपयोग करके एन्कोड किए गए वर्णों को प्रदर्शित करने का प्रयास करते हैं, तो ये वही अस्पष्ट (वर्णों का एक अर्थहीन सेट) सामने आएंगे, जो संदेश के पाठ को पूरी तरह से बदल देंगे।

इसी तरह की स्थिति अक्सर मंचों या ब्लॉगों पर उत्पन्न होती है, जब रूसी अक्षरों वाला पाठ गलती से गलत एन्कोडिंग में सहेजा जाता है जो साइट पर डिफ़ॉल्ट रूप से उपयोग किया जाता है, या गलत एन्कोडिंग में पाठ संपादक, जो कोड में ऐसे गैग्स जोड़ता है जो नग्न आंखों को दिखाई नहीं देते हैं।

अंत में, बहुत से लोग बहुत सारे एन्कोडिंग और लगातार रेंगने वाले बदमाशों के साथ इस स्थिति से थक गए, और एक नई सार्वभौमिक विविधता के निर्माण के लिए आवश्यक शर्तें सामने आईं जो सभी मौजूदा लोगों को प्रतिस्थापित कर देगी और अंततः उपस्थिति के साथ समस्या का समाधान करेगी। अपठनीय पाठों का. इसके अलावा, चीनी जैसी भाषाओं की भी समस्या थी, जहाँ 256 से कहीं अधिक भाषा वर्ण थे।

यूनिकोड - सार्वभौमिक एन्कोडिंग यूटीएफ 8, 16 और 32

दक्षिण पूर्व एशियाई भाषा समूह के इन हजारों वर्णों को संभवतः सूचना के एक बाइट में वर्णित नहीं किया जा सकता है, जिसे ASCII के विस्तारित संस्करणों में वर्ण एन्कोडिंग के लिए आवंटित किया गया था। परिणामस्वरूप, एक संघ बनाया गया जिसे कहा जाता है यूनिकोड(यूनिकोड - यूनिकोड कंसोर्टियम) कई आईटी उद्योग के नेताओं (जो सॉफ्टवेयर का उत्पादन करते हैं, जो हार्डवेयर को एनकोड करते हैं, जो फ़ॉन्ट बनाते हैं) के सहयोग से, जो एक सार्वभौमिक टेक्स्ट एन्कोडिंग के उद्भव में रुचि रखते थे।

यूनिकोड कंसोर्टियम के तत्वावधान में जारी किया गया पहला संस्करण था यूटीएफ 32. एन्कोडिंग नाम में संख्या का अर्थ उन बिट्स की संख्या है जिनका उपयोग एक वर्ण को एन्कोड करने के लिए किया जाता है। 32 बिट्स जानकारी के 4 बाइट्स के बराबर हैं जिनकी आवश्यकता नए यूनिवर्सल यूटीएफ एन्कोडिंग में एक एकल वर्ण को एनकोड करने के लिए होगी।

परिणामस्वरूप, बाद वाले मामले में, ASCII के विस्तारित संस्करण और UTF-32 में एन्कोड की गई समान टेक्स्ट फ़ाइल का आकार (वजन) चार गुना बड़ा होगा। यह बुरा है, लेकिन अब हमारे पास YTF का उपयोग करके दो से बत्तीस सेकंड की शक्ति के बराबर वर्णों की संख्या को एन्कोड करने का अवसर है ( अरबों अक्षर, जो किसी भी वास्तव में आवश्यक मूल्य को भारी मार्जिन के साथ कवर करेगा)।

लेकिन यूरोपीय समूह की भाषाओं वाले कई देशों को एन्कोडिंग में इतनी बड़ी संख्या में वर्णों का उपयोग करने की आवश्यकता नहीं थी, हालांकि, यूटीएफ -32 का उपयोग करते समय, उन्हें बिना किसी कारण के पाठ दस्तावेजों के वजन में चार गुना वृद्धि प्राप्त हुई, और परिणामस्वरूप, इंटरनेट ट्रैफ़िक की मात्रा और संग्रहीत डेटा की मात्रा में वृद्धि हुई। यह बहुत है, और कोई भी इस तरह की बर्बादी बर्दाश्त नहीं कर सकता।

यूनिकोड के विकास के परिणामस्वरूप, यूटीएफ-16, जो इतना सफल साबित हुआ कि इसे डिफ़ॉल्ट रूप से हमारे द्वारा उपयोग किए जाने वाले सभी पात्रों के लिए आधार स्थान के रूप में अपनाया गया। यह एक अक्षर को एन्कोड करने के लिए दो बाइट्स का उपयोग करता है। आइए देखें कि यह चीज़ कैसी दिखती है।

विंडोज़ ऑपरेटिंग सिस्टम में, आप "स्टार्ट" - "प्रोग्राम्स" - "एक्सेसरीज़" - "सिस्टम टूल्स" - "कैरेक्टर टेबल" पथ का अनुसरण कर सकते हैं। परिणामस्वरूप, आपके सिस्टम पर स्थापित सभी फ़ॉन्ट के वेक्टर आकार के साथ एक तालिका खुल जाएगी। यदि आप "उन्नत विकल्प" में यूनिकोड वर्ण सेट का चयन करते हैं, तो आप प्रत्येक फ़ॉन्ट के लिए उसमें शामिल वर्णों की पूरी श्रृंखला को अलग से देख पाएंगे।

वैसे आप इनमें से किसी पर भी क्लिक करके उसकी टू-बाइट देख सकते हैं UTF-16 प्रारूप में कोड, जिसमें चार हेक्साडेसिमल अंक शामिल हैं:

16 बिट्स का उपयोग करके UTF-16 में कितने वर्णों को एन्कोड किया जा सकता है? 65,536 (16 की घात दो), और यह वह संख्या है जिसे यूनिकोड में आधार स्थान के रूप में अपनाया गया था। इसके अलावा, इसका उपयोग करके लगभग दो मिलियन वर्णों को एन्कोड करने के तरीके हैं, लेकिन वे पाठ के दस लाख वर्णों के विस्तारित स्थान तक सीमित थे।

लेकिन यूनिकोड एन्कोडिंग के इस सफल संस्करण से भी उन लोगों को बहुत संतुष्टि नहीं मिली, जिन्होंने उदाहरण के लिए, केवल प्रोग्राम लिखे अंग्रेज़ी, क्योंकि ASCII के विस्तारित संस्करण से UTF-16 में संक्रमण के बाद, दस्तावेज़ों का वजन दोगुना हो गया (Aski में प्रति वर्ण एक बाइट और UTF-16 में एक ही वर्ण प्रति दो बाइट्स)।

यूनिकोड कंसोर्टियम में सभी को और हर चीज़ को संतुष्ट करने के लिए ही इसे लाने का निर्णय लिया गया था परिवर्तनीय लंबाई एन्कोडिंग. इसे UTF-8 कहा गया। इसके नाम में आठ होने के बावजूद, वास्तव में इसकी लंबाई परिवर्तनशील है, अर्थात। पाठ के प्रत्येक अक्षर को लंबाई में एक से छह बाइट्स के अनुक्रम में एन्कोड किया जा सकता है।

व्यवहार में, यूटीएफ-8 केवल एक से चार बाइट्स तक की सीमा का उपयोग करता है, क्योंकि कोड के चार बाइट्स से अधिक कुछ भी कल्पना करना अब सैद्धांतिक रूप से संभव नहीं है। इसमें सभी लैटिन अक्षर अच्छे पुराने ASCII की तरह ही एक बाइट में एन्कोड किए गए हैं।

उल्लेखनीय बात यह है कि केवल लैटिन वर्णमाला को एन्कोड करने के मामले में, यहां तक कि वे प्रोग्राम जो यूनिकोड को नहीं समझते हैं, वे अभी भी वही पढ़ेंगे जो YTF-8 में एन्कोड किया गया है। वे। असुका का मुख्य भाग यूनिकोड कंसोर्टियम की इस रचना में स्थानांतरित कर दिया गया था।

UTF-8 में सिरिलिक वर्ण दो बाइट्स में एन्कोड किए गए हैं, और, उदाहरण के लिए, जॉर्जियाई वर्ण तीन बाइट्स में एन्कोड किए गए हैं। यूनिकोड कंसोर्टियम ने यूटीएफ 16 और 8 बनाने के बाद मुख्य समस्या हल कर दी - अब हमारे पास है फ़ॉन्ट में एक ही कोड स्थान होता है. और अब उनके निर्माता इसे केवल अपनी ताकत और क्षमताओं के आधार पर टेक्स्ट वर्णों के वेक्टर रूपों से भर सकते हैं। अब वे सेट में भी आते हैं।

ऊपर "वर्ण तालिका" में आप देख सकते हैं कि विभिन्न फ़ॉन्ट विभिन्न संख्या में वर्णों का समर्थन करते हैं। कुछ यूनिकोड-समृद्ध फ़ॉन्ट काफी भारी हो सकते हैं। लेकिन अब वे इस बात में भिन्न नहीं हैं कि वे अलग-अलग एन्कोडिंग के लिए बनाए गए थे, बल्कि इस तथ्य में कि फ़ॉन्ट निर्माता ने कुछ वेक्टर रूपों के साथ एकल कोड स्थान को पूरी तरह से भर दिया है या नहीं भरा है।

रूसी अक्षरों के बजाय पागल शब्द - इसे कैसे ठीक करें

आइए अब देखें कि पाठ के स्थान पर क्राकोज़्याब्र्स कैसे दिखाई देते हैं या, दूसरे शब्दों में, रूसी पाठ के लिए सही एन्कोडिंग का चयन कैसे किया जाता है। दरअसल, यह उस प्रोग्राम में सेट होता है जिसमें आप टेक्स्ट के टुकड़ों का उपयोग करके इसी टेक्स्ट या कोड को बनाते या संपादित करते हैं।

संपादन और निर्माण के लिए पाठ फ़ाइलेंनिजी तौर पर, मेरी राय में, मैं एक बहुत अच्छे का उपयोग करता हूं। हालाँकि, यह वाक्यविन्यास को भी उजागर कर सकता है एक अच्छा शतकप्रोग्रामिंग और मार्कअप भाषाएं, और प्लगइन्स का उपयोग करके विस्तार करने की क्षमता भी है। पढ़ना विस्तृत समीक्षादिए गए लिंक पर यह अद्भुत कार्यक्रम।

नोटपैड++ के शीर्ष मेनू में एक आइटम "एनकोडिंग" है, जहां आपको मौजूदा विकल्प को अपनी साइट पर डिफ़ॉल्ट रूप से उपयोग किए जाने वाले विकल्प में बदलने का अवसर मिलेगा:

जूमला 1.5 और उच्चतर पर एक साइट के मामले में, साथ ही वर्डप्रेस पर एक ब्लॉग के मामले में, आपको दरारों की उपस्थिति से बचने के लिए विकल्प चुनना चाहिए यूटीएफ 8 बिना बीओएम के. BOM उपसर्ग क्या है?

तथ्य यह है कि जब वे YUTF-16 एन्कोडिंग विकसित कर रहे थे, तो किसी कारण से उन्होंने इसमें कैरेक्टर कोड को सीधे अनुक्रम (उदाहरण के लिए, 0A15) और रिवर्स (150A) दोनों में लिखने की क्षमता जैसी चीज़ संलग्न करने का निर्णय लिया। . और प्रोग्रामों को यह समझने के लिए कि कोड को किस क्रम में पढ़ना है, इसका आविष्कार किया गया था बीओएम(बाइट ऑर्डर मार्क या, दूसरे शब्दों में, हस्ताक्षर), जिसे दस्तावेजों की शुरुआत में तीन अतिरिक्त बाइट जोड़ने में व्यक्त किया गया था।

यूटीएफ-8 एन्कोडिंग में, यूनिकोड कंसोर्टियम में कोई बीओएम प्रदान नहीं किया गया था, और इसलिए एक हस्ताक्षर जोड़ना (दस्तावेज़ की शुरुआत में कुख्यात अतिरिक्त तीन बाइट्स) बस कुछ प्रोग्रामों को कोड पढ़ने से रोकता है। इसलिए, यूटीएफ में फ़ाइलों को सहेजते समय, हमें हमेशा बिना बीओएम (हस्ताक्षर के बिना) विकल्प का चयन करना चाहिए। तो आप पहले से हैं अपने आप को रेंगने वाले क्राकोज़्याब्र्स से बचाएं.

उल्लेखनीय बात यह है कि विंडोज़ में कुछ प्रोग्राम ऐसा नहीं कर सकते हैं (वे बीओएम के बिना यूटीएफ -8 में टेक्स्ट को सेव नहीं कर सकते हैं), उदाहरण के लिए, वही कुख्यात विंडोज़ नोटपैड। यह दस्तावेज़ को UTF-8 में सहेजता है, लेकिन फिर भी इसकी शुरुआत में हस्ताक्षर (तीन अतिरिक्त बाइट्स) जोड़ता है। इसके अलावा, ये बाइट्स हमेशा समान रहेंगे - कोड को सीधे क्रम में पढ़ें। लेकिन सर्वर पर इस छोटी सी बात की वजह से समस्या पैदा हो सकती है - बदमाश सामने आ जाएंगे।

अत: किसी भी परिस्थिति में नहीं नियमित विंडोज़ नोटपैड का उपयोग न करेंयदि आप नहीं चाहते कि कोई दरार दिखे तो अपनी साइट पर दस्तावेज़ों को संपादित करें। सबसे अच्छा और सबसे ज्यादा सरल विकल्पमैं पहले से उल्लिखित संपादक नोटपैड++ पर विचार करता हूं, जिसका व्यावहारिक रूप से कोई नुकसान नहीं है और इसमें केवल फायदे हैं।

नोटपैड++ में, जब आप किसी एन्कोडिंग का चयन करते हैं, तो आपके पास टेक्स्ट को यूसीएस-2 एन्कोडिंग में बदलने का विकल्प होगा, जो प्रकृति में यूनिकोड मानक के बहुत करीब है। साथ ही नोटपैड में टेक्स्ट को एएनएसआई में एन्कोड करना संभव होगा, यानी। रूसी भाषा के संबंध में, यह विंडोज़ 1251 होगा, जिसके बारे में हम पहले ही ऊपर बता चुके हैं कि यह जानकारी कहाँ से आती है?

यह आपके रजिस्टर में दर्ज है ऑपरेटिंग सिस्टमविंडोज़ - एएनएसआई के मामले में कौन सा एन्कोडिंग चुनना है, ओईएम के मामले में कौन सा चुनना है (रूसी भाषा के लिए यह सीपी866 होगा)। यदि आप अपने कंप्यूटर पर कोई अन्य डिफ़ॉल्ट भाषा सेट करते हैं, तो इन एन्कोडिंग को उसी भाषा के लिए ANSI या OEM श्रेणी से समान एन्कोडिंग से बदल दिया जाएगा।

नोटपैड++ में दस्तावेज़ को अपनी आवश्यक एन्कोडिंग में सहेजने या संपादन के लिए साइट से दस्तावेज़ खोलने के बाद, आप संपादक के निचले दाएं कोने में इसका नाम देख सकते हैं:

गुंडों से बचने के लिएऊपर वर्णित कार्यों के अलावा, साइट के सभी पृष्ठों के स्रोत कोड के हेडर में इस एन्कोडिंग के बारे में जानकारी शामिल करना उपयोगी होगा ताकि सर्वर या स्थानीय होस्ट पर कोई भ्रम न हो।

सामान्य तौर पर, एचटीएमएल को छोड़कर सभी हाइपरटेक्स्ट मार्कअप भाषाएं एक विशेष एक्सएमएल घोषणा का उपयोग करती हैं, जो टेक्स्ट एन्कोडिंग को निर्दिष्ट करती है।

कोड को पार्स करने से पहले, ब्राउज़र को पता होता है कि किस संस्करण का उपयोग किया जा रहा है और उसे उस भाषा के कैरेक्टर कोड की वास्तव में व्याख्या कैसे करनी है। लेकिन उल्लेखनीय बात यह है कि यदि आप दस्तावेज़ को डिफ़ॉल्ट यूनिकोड में सहेजते हैं, तो इस xml घोषणा को छोड़ा जा सकता है (यदि कोई BOM नहीं है तो एन्कोडिंग को UTF-8 या BOM होने पर UTF-16 माना जाएगा)।

HTML भाषा दस्तावेज़ के मामले में, एन्कोडिंग का उपयोग इंगित करने के लिए किया जाता है मेटा तत्व, जो खुलने और बंद होने वाले हेड टैग के बीच लिखा होता है:

... ...

यह प्रविष्टि अपनाई गई प्रविष्टि से काफी अलग है, लेकिन धीरे-धीरे पेश किए जा रहे नए HTML 5 मानक के साथ पूरी तरह से अनुपालन करती है, और इसे वर्तमान में उपयोग किए जाने वाले किसी भी ब्राउज़र द्वारा पूरी तरह से सही ढंग से समझा जाएगा।

सिद्धांत रूप में, HTML दस्तावेज़ के एन्कोडिंग को इंगित करने वाला एक मेटा तत्व रखना बेहतर होगा दस्तावेज़ शीर्षलेख में जितना संभव हो उतना ऊँचाताकि पाठ में पहले वर्ण का सामना करने के समय जो मूल एएनएसआई (जो हमेशा सही ढंग से और किसी भी भिन्नता में पढ़ा जाता है) से नहीं है, ब्राउज़र को पहले से ही इन वर्णों के कोड की व्याख्या करने के बारे में जानकारी होनी चाहिए।

आप सौभाग्यशाली हों! जल्द ही ब्लॉग साइट के पन्नों पर मिलते हैं

आपकी रुचि हो सकती है

यूआरएल पते क्या हैं, किसी साइट के लिए पूर्ण और सापेक्ष लिंक कैसे भिन्न होते हैं?
ओपनसर्वर - एक आधुनिक स्थानीय सर्वर और अपने कंप्यूटर पर वर्डप्रेस इंस्टॉल करने के लिए इसका उपयोग करने का एक उदाहरण
Chmod क्या है, फ़ाइलों और फ़ोल्डरों (777, 755, 666) को क्या अनुमतियाँ निर्दिष्ट करनी हैं और इसे PHP के माध्यम से कैसे करें
साइट और ऑनलाइन स्टोर द्वारा यांडेक्स खोज

कभी-कभी, किसी न किसी कारण से, विंडोज़ ओएस उपयोगकर्ताओं के साथ कुछ ऐसा हो जाता है जिससे एन्कोडिंग विफलता हो जाती है। कुछ नए इंस्टॉल किए गए प्रोग्राम, एक वायरस, रजिस्ट्री में हेरफेर, आप कभी नहीं जान पाएंगे... एन्कोडिंग ख़त्म हो गई है और बस इतना ही!

ऐसी ही एक घटना दूसरे दिन मेरे साथ घटी. कुछ रूसी कार्यक्रमों में, कुछ इंटरफ़ेस शिलालेख ऐसे दिखने लगे मानो अक्षरों के स्थान पर पक्षी के पंजे के निशान डाले गए हों:

सच कहूँ तो, मैंने समस्या का समाधान खोजने में लगभग दो दिन बिताये। सभी मंचों और "प्रश्न और उत्तर" सेवाओं पर, सभी मैनुअल और निर्देशों में, सभी ने एक ही समाधान नुस्खा दोहराया, जिससे शायद किसी को मदद मिली हो। लेकिन मेरे लिए नहीं. और केवल जब मेरा दिमाग उबलने लगा और समस्या के समाधान की सारी आशाएँ मुझसे दूर हो गईं, तो सब कुछ ठीक हो गया।

मैंने खोज परिणामों को "में प्रारूपित करने का निर्णय लिया सभी ऑपरेटिंग रूम कोडिंग समस्याओं को हल करने के लिए वन-स्टॉप गाइड विंडोज़ सिस्टमएक्सपी और विंडोज विस्टा/7" हालाँकि शायद यह इतना सार्वभौमिक नहीं है... ;)

Windows XP में एन्कोडिंग समस्याओं का समाधान:

बिंदु 1. सबसे पहले आपको यह सुनिश्चित करना होगा कि उन प्रोग्रामों के लिए जो यूनिकोड का समर्थन नहीं करते हैं, रूसी भाषा स्थापित है।

प्रारंभिक « कंट्रोल पैनल» और आइकन पर डबल क्लिक करें « » . टैब पर जाएं « इसके अतिरिक्त» « ».

इसके बाद, उसी टैब पर स्थित सूची में आइटम 20880 ढूंढें और उसके बगल में स्थित बॉक्स को चेक करें:

बिंदु 2. यह संभव है कि एन्कोडिंग समस्याएं सिस्टम फ़ॉन्ट सेटिंग्स के उल्लंघन के कारण होती हैं।

फ़ॉन्ट सेटिंग पुनर्स्थापित करने के लिए, इस संग्रह को डाउनलोड करें

बिंदु 3. अगला चरण उन रजिस्ट्री कुंजियों को बदलना है जो एन्कोडिंग के लिए ज़िम्मेदार हैं।इन परिवर्तनों को केवल अंतिम उपाय के रूप में करने की सलाह दी जाती है और केवल तभी जब पिछले सभी बिंदुओं से कोई परिणाम नहीं निकला हो।

यह पुरालेख

Windows Vista/7 में एन्कोडिंग समस्याओं का समाधान:

1. जैसा कि विंडोज एक्सपी के मामले में होता है, पहले सुनिश्चित करें कि उन प्रोग्रामों के लिए जो यूनिकोड का समर्थन नहीं करते हैं, भाषा रूसी पर सेट है।

प्रारंभिक « कंट्रोल पैनल» और आइकन पर डबल क्लिक करें « क्षेत्र और भाषा» . टैब पर जाएं « इसके अतिरिक्त» और रूसी भाषा को इस रूप में सेट करें « प्रोग्रामों की भाषा जो यूनिकोड का समर्थन नहीं करती»:

परिवर्तन सहेजें और अपने कंप्यूटर को पुनरारंभ करें। यदि समस्या बनी रहती है, तो चरण 2 पर जाएँ।

2. फ़ॉन्ट सेटिंग्स को पुनर्स्थापित करने के लिए, इस संग्रह को डाउनलोड करें और सभी सिस्टम चेतावनियों को अनदेखा करते हुए, इसमें स्थित फ़ाइल को चलाएँ:

सिस्टम पुनः प्रारंभ करें. यदि समस्या बनी रहती है, तो चरण 3 पर जाएँ।

3. अगला चरण रजिस्ट्री कुंजियों को बदलना है जो एन्कोडिंग के लिए जिम्मेदार हैं। इन परिवर्तनों को केवल अंतिम उपाय के रूप में करने की सलाह दी जाती है और केवल तभी जब पिछले सभी बिंदुओं से कोई परिणाम नहीं निकला हो।

ये परिवर्तन करने के लिए, इस संग्रह को डाउनलोड करें और इसमें स्थित फ़ाइल को चलाएँ। पिछले पैराग्राफ की तरह, सिस्टम चेतावनियाँ दिखाई देंगी।

इन बदलावों के बाद आपको सिस्टम को पुनः आरंभ करने की भी आवश्यकता होगी।

4. यदि उपरोक्त सभी से मदद नहीं मिलती है, तो आपको फ़ोल्डर में निम्नलिखित कोड पेज फ़ाइलों के नाम बदलने होंगे C:\Windows\System32:

फ़ाइल " c_1252.nls" को " c_1252.nls.bak»
फ़ाइल " c_1253.nls" को " c_1253.nls.bak»
फ़ाइल " c_1254.nls" को " c_1254.nls.bak»
फ़ाइल " c_1255.nls" को " c_1255.nls.bak»

चूँकि ये फ़ाइलें संशोधन से सुरक्षित हैं, इसलिए इस ऑपरेशन को करने के लिए एक अद्भुत प्रोग्राम का उपयोग करने की सलाह दी जाती है, जिससे आप प्रोग्राम डाउनलोड कर सकते हैं

90 के दशक की शुरुआत में, जब यूएसएसआर का पतन हुआ और रूस की सीमाएँ खुली थीं, तो हमें प्राप्त होना शुरू हुआ सॉफ्टवेयर उत्पादपश्चिमी उत्पादन. स्वाभाविक रूप से, वे सभी अंग्रेजी बोलने वाले थे। इसी समय, इंटरनेट का विकास शुरू हुआ। संसाधनों और कार्यक्रमों के रूसीकरण की समस्या विकट हो गई है। तब रूसी विंडोज़ एन्कोडिंग 1251 का आविष्कार किया गया था, यह आपको स्लाव वर्णमाला के अक्षरों को सही ढंग से प्रदर्शित करने की अनुमति देता है:

रूसी;
यूक्रेनी;
बेलारूसी;
सर्बियाई;
बल्गेरियाई;
मेसीडोनियन

विकास माइक्रोसॉफ्ट के रूसी प्रतिनिधि कार्यालय द्वारा डायलॉग और पैराग्राफ कंपनियों के साथ मिलकर किया गया था। इसका आधार स्व-लिखित विकासों से लिया गया था, जो 1990-91 में रूस में कुछ आईटी विचारकों के बीच प्रचलन में थे।

आज तक, से भी अधिक सार्वभौमिक विधिवर्ण एन्कोड करें - UTF-8 (यूनिकोड)। यह सभी सॉफ़्टवेयर और वेब संसाधनों का लगभग 90% प्रतिनिधित्व करता है। 1.6% मामलों में विंडोज़ 1251 का उपयोग किया जाता है। (वेब प्रौद्योगिकी सर्वेक्षण से जानकारी)

वेबसाइट एन्कोडिंग यूटीएफ 8 या विंडोज़ 1251?

इस प्रश्न का उत्तर देने के लिए, आपको थोड़ा समझने की आवश्यकता है कि एन्कोडिंग क्या है और वे कैसे भिन्न हैं। पाठ्य जानकारी, किसी भी अन्य जानकारी की तरह, एन्कोडेड रूप में कंप्यूटर पर संग्रहीत की जाती है। हमारे लिए इसे संख्याओं के रूप में सोचना आसान है। प्रत्येक वर्ण एक या अधिक बाइट्स ले सकता है। विंडोज़ 1251 एक सिंगल-बाइट एन्कोडिंग है, जबकि यूटीएफ-8 एक आठ-बाइट एन्कोडिंग है। इसका मतलब है कि विंडोज़ 1251 में केवल 256 अक्षरों को एन्कोड किया जा सकता है।
चूँकि सब कुछ बाइनरी सिस्टम में आता है, और एक बाइट 8 बिट्स (0 और 1) है, संयोजनों की अधिकतम संख्या 28 = 256 है। यूनिकोड आपको बहुत बड़ी संख्या में वर्णों का प्रतिनिधित्व करने की अनुमति देता है, और एक बड़ा आकार आवंटित किया जा सकता है प्रत्येक के लिए।

यहीं पर यूनिकोड के फायदे इस प्रकार हैं:

साइट हेडर में आपको उपयोग की जाने वाली एन्कोडिंग को इंगित करना चाहिए। अन्यथा, प्रतीकों के स्थान पर "पागल प्रतीक" प्रदर्शित किए जाएंगे। और यूनिकोड सभी ब्राउज़रों के लिए मानक है - वे इसे डिफ़ॉल्ट रूप से स्थापित के रूप में "मक्खी पर" पकड़ लेते हैं।
साइट प्रतीक वही रहेंगे चाहे संसाधन किसी भी देश में लोड किया गया हो। यह सर्वर की भौगोलिक स्थिति पर नहीं, बल्कि क्लाइंट वर्कस्टेशन की सॉफ़्टवेयर भाषा पर निर्भर करता है। पुर्तगाल का एक निवासी स्पष्ट रूप से कीबोर्ड और ऑपरेटिंग सिस्टम सहित सभी सॉफ़्टवेयर का उपयोग अपनी मूल भाषा में करता है। संभवतः उसके कंप्यूटर में विंडोज़ 1251 ही नहीं है और यदि ऐसा है, तो रूसी में साइटें ठीक से नहीं खुलेंगी। बदले में, यूनिकोड किसी भी भाषा में किसी भी ओएस में "हार्डवायर्ड" होता है।
UTF-8 आपको अधिक वर्णों को एनकोड करने की अनुमति देता है। पर इस समय 8 में से 6 बाइट्स का उपयोग किया जाता है, और रूसी वर्ण दो बाइट्स में एन्कोड किए जाते हैं।
इसीलिए अत्यधिक विशिष्ट एन्कोडिंग के बजाय सार्वभौमिक एन्कोडिंग का उपयोग करना बेहतर है, जिसका उपयोग केवल स्लाव देशों में किया जाता है।

विंडोज़ 1251 एन्कोडिंग तालिका

प्रोग्रामर और वेबसाइट डेवलपर्स के लिए, प्रतीक संख्याओं को जानना कभी-कभी आवश्यक होता है। इस प्रयोजन के लिए, विशेष एन्कोडिंग तालिकाओं का उपयोग किया जाता है। नीचे विंडोज़ 1251 के लिए तालिका दी गई है।

यदि कमांड लाइन एन्कोडिंग खो जाए तो क्या करें?

कभी-कभी आपको ऐसी स्थिति का सामना करना पड़ सकता है जहां कमांड लाइन रूसी के बजाय प्रदर्शित होती है अजीब प्रतीक. इसका मतलब है कि कमांड एन्कोडिंग समस्या है विंडोज़ तार 7. 7 क्यों? क्योंकि, संस्करण 8 से प्रारंभ करके, UTF-8 का उपयोग किया जाता है, और संस्करण 7 में, Windows 1251 का भी उपयोग किया जाता है।
Chcp 866 कमांड एक समय में समस्या को हल करने में मदद कर सकता है। वर्तमान सत्र सही ढंग से काम करेगा। लेकिन त्रुटि को मौलिक रूप से ठीक करने के लिए, आपको एक रजिस्ट्री की आवश्यकता होगी।

आपका दिन अच्छा रहे!

जैसा कि ज्ञात है, विंडोज 10भाषा पैक की स्थापना का समर्थन करता है, जिसका उपयोग ऑपरेटिंग सिस्टम इंटरफ़ेस के स्थानीयकरण को बदलने के लिए किया जा सकता है। सिस्टम भाषा की अवधारणा का इससे बहुत गहरा संबंध है। सिस्टम भाषा वह नहीं है जिसका उपयोग करके जोड़ा गया था भाषा पैक, लेकिन वह जिसे सिस्टम स्थापित करते समय ही चुना गया था। यदि आप किसी ऐसे कॉर्पोरेट कंप्यूटर पर काम कर रहे हैं जिसकी भाषा इंस्टॉल करके बदल दी गई है एमयूआई -पैकेज, आप शायद जानना चाहेंगे कि सिस्टम पर मूल रूप से किस भाषा का उपयोग किया गया था।

सिस्टम भाषा निर्धारित करने के कई तरीके हैं।

आइए उन्हें क्रम से देखें।

DISM कंसोल उपयोगिता का उपयोग करना

व्यवस्थापक के रूप में चलाएं कमांड लाइनऔर इसमें कमांड dism /online /get-intl चलाएँ। कुछ ही सेकंड में आपको रिजल्ट मिल जाएगा.

पैरामीटर पर ध्यान दें "भाषा प्रयोक्ता इंटरफ़ेसगलती करना" . इसका अर्थ सिस्टम भाषा होगा.

पॉवरशेल कंसोल का उपयोग करना

कंसोल को व्यवस्थापक के रूप में लॉन्च करें और कमांड चलाएँ ::इंस्टाल्डडुआईकल्चर .

पैरामीटर मान प्रदर्शित होने वाला नामसिस्टम भाषा की ओर संकेत करेगा. कृपया पैरामीटर पर भी ध्यान दें एलसीआईडी, इसमें भाषा कोड लिखा होता है विंडोज़ रजिस्ट्री(नीचे देखें)।

रजिस्ट्री संपादक और डिकोडिंग तालिका का उपयोग करना

टीम regeditरजिस्ट्री संपादक खोलें और शाखा का विस्तार करें

HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Nls\भाषा

संपादक विंडो के दाहिने कॉलम में, स्ट्रिंग पैरामीटर ढूंढें (वह सबसे नीचे है)और इसका अर्थ देखें.

इसे चार अंकों के कोड द्वारा दर्शाया जाता है, जिसे समझने के लिए आपको वेबसाइट पर डिकोडिंग तालिका का उपयोग करना चाहिए एमएसडीएन. हमारे उदाहरण में कोड 0419 रूसी भाषा से मेल खाता है.

में से एक संभावित समस्याएँजिसके बाद आपका सामना हो सकता है विंडोज़ संस्थापन 10 - प्रोग्राम इंटरफ़ेस के साथ-साथ दस्तावेज़ों में रूसी अक्षरों के बजाय क्राकोज़ीब्री। बहुधा ग़लत प्रदर्शनसिरिलिक वर्णमाला मूल रूप से अंग्रेजी भाषा में पाई जाती है और सिस्टम के पूरी तरह से लाइसेंस प्राप्त संस्करणों में नहीं है, लेकिन इसके अपवाद भी हैं।

यह निर्देश आपको बताता है कि विंडोज 10 में सिरिलिक वर्णमाला के प्रदर्शन को कई तरीकों से "क्राकोज़ीब्री" (या चित्रलिपि), या अधिक सटीक रूप से कैसे ठीक किया जाए। यह उपयोगी भी हो सकता है: (अंग्रेजी और अन्य भाषाओं में सिस्टम के लिए)।

कोड पेज वे तालिकाएँ हैं जिनमें कुछ बाइट्स को कुछ वर्णों में मैप किया जाता है, और विंडोज 10 में चित्रलिपि के रूप में सिरिलिक वर्णमाला का प्रदर्शन आमतौर पर इस तथ्य के कारण होता है कि गलत कोड पेज डिफ़ॉल्ट रूप से सेट होता है और इसे कई तरीकों से ठीक किया जा सकता है आवश्यकता पड़ने पर उपयोगी हो सकता है सेटिंग्स में सिस्टम भाषा न बदलें।

रजिस्ट्री संपादक का उपयोग करना

पहला तरीका रजिस्ट्री संपादक का उपयोग करना है। मेरी राय में, यह सिस्टम के लिए सबसे कोमल तरीका है, हालाँकि, मैं आपको शुरू करने से पहले इसकी अनुशंसा करता हूँ। पुनर्स्थापना बिंदुओं के बारे में सलाह इस गाइड में सभी बाद के तरीकों पर लागू होती है।

आमतौर पर, यह रूसी अक्षरों को प्रदर्शित करने की समस्या को ठीक करता है। रजिस्ट्री संपादक (लेकिन कम पसंदीदा) का उपयोग करने वाली विधि का एक बदलाव एसीपी पैरामीटर (आमतौर पर मूल अंग्रेजी-भाषा सिस्टम के लिए 1252) के वर्तमान मूल्य को देखना है, फिर उसी रजिस्ट्री अनुभाग में 1252 नाम का एक पैरामीटर ढूंढें और इसे बदलें से मूल्य c_1252.nlsपर c_1251.nls.

कोड पृष्ठ फ़ाइल को c_1251.nls से प्रतिस्थापित करके

दूसरी विधि, जो मेरे द्वारा अनुशंसित नहीं है, लेकिन कभी-कभी उन लोगों द्वारा चुनी जाती है जो मानते हैं कि रजिस्ट्री को संपादित करना बहुत कठिन या खतरनाक है: कोड पेज फ़ाइल को बदलना C:\Windows\System32(यह माना जाता है कि आपके पास पश्चिमी यूरोपीय कोड पृष्ठ 1252 पर सेट है, यह आमतौर पर मामला है। आप रजिस्ट्री में एसीपी पैरामीटर में वर्तमान कोड पृष्ठ देख सकते हैं, जैसा कि पिछली विधि में वर्णित है)।

बाद विंडोज़ को रीबूट करें 10, सिरिलिक वर्णमाला को चित्रलिपि के रूप में नहीं, बल्कि सामान्य रूसी अक्षरों के रूप में प्रदर्शित करना होगा।