शैनन एंट्रॉपी कैलकुलेटर

किसी भी प्रायिकता वितरण (probability distribution) से बिट्स, नैट्स या हार्टले में सूचना एंट्रॉपी H(X) की गणना करें। इसमें दक्षता, अतिरेक (redundancy), पेर्प्लेक्सिटी, और स्टेप-बाय-स्टेप विवरण शामिल हैं।

प्रायिकता वितरण (Probability Distribution)

त्वरित उदाहरण (Quick Examples):

0 और 1 के बीच मान दर्ज करें। उनका योग 1 होना चाहिए (यदि योग 1 नहीं है, तो वे स्वतः-सामान्यीकृत हो जाते हैं)।

शैनन एंट्रॉपी क्या है?

शैनन एंट्रॉपी (Shannon entropy), गणितज्ञ और विद्युत इंजीनियर क्लॉड ई. शैनन के नाम पर रखा गया, सूचना सिद्धांत का मूल माप है। शैनन के ऐतिहासिक 1948 के पेपर "ए मैथमैटिकल थ्योरी ऑफ कम्युनिकेशन" में पेश किया गया, यह एक यादृच्छिक चर के संभावित परिणामों में निहित अनिश्चितता या आश्चर्य की औसत मात्रा को मापता है।

सहज रूप से, एंट्रॉपी इस प्रश्न का उत्तर देती है: "यह सूचना स्रोत कितना अप्रत्याशित है?" एक स्रोत जो हमेशा एक ही परिणाम देता है (जैसे, एक पक्षपाती सिक्का जो हमेशा हेड आता है) की एंट्रॉपी शून्य होती है — इसे देखने से कोई नई जानकारी प्राप्त नहीं होती है। एक पूरी तरह से यादृच्छिक स्रोत (जैसे, एक निष्पक्ष सिक्का) की एंट्रॉपी अधिकतम होती है — प्रत्येक अवलोकन सबसे अधिक संभावित जानकारी प्रदान करता है।

सूत्र: H(X) = −Σ pᵢ log(pᵢ)

एक असतत यादृच्छिक चर X के लिए जिसमें n संभावित परिणाम हैं, प्रत्येक की प्रायिकता pᵢ (जहाँ Σpᵢ = 1) है, शैनन एंट्रॉपी को इस प्रकार परिभाषित किया गया है:

H(X) = −Σ pᵢ · log_b(pᵢ) (i = 1 से n के लिए)
कन्वेंशन: 0 · log(0) = 0

प्रत्येक पद −pᵢ·log(pᵢ) कुल एंट्रॉपी में परिणाम i के योगदान का प्रतिनिधित्व करता है। यह मात्रा हमेशा गैर-ऋणात्मक होती है। सभी परिणामों का योग प्रति अवलोकन औसत अनिश्चितता देता है।

बेस 2 (बिट्स) बनाम बेस e (नैट्स) बनाम बेस 10 (हार्टले)

लघुगणक आधार (logarithm base) का विकल्प एंट्रॉपी की इकाई को निर्धारित करता है:

आधार (Base)इकाई (Unit)सामान्य उपयोगरूपांतरण
2बिट्स (bits)सूचना सिद्धांत, कंप्यूटर विज्ञान, डेटा संपीड़न1 bit
e ≈ 2.718नैट्स (nats)भौतिकी, सांख्यिकीय यांत्रिकी, मशीन लर्निंग≈ 0.6931 bits
10हार्टले (hartleys)संचार इंजीनियरिंग, क्रिप्टोग्राफी≈ 0.3010 bits

अधिकतम और न्यूनतम एंट्रॉपी

अधिकतम एंट्रॉपी तब होती है जब सभी परिणाम समान रूप से संभावित होते हैं — एक समान वितरण (uniform distribution)। n समान रूप से संभावित परिणामों के लिए, H_max = log(n) होता है। उदाहरण के लिए:

  • निष्पक्ष सिक्का (n=2): H_max = log₂(2) = 1 bit
  • निष्पक्ष पासा (n=6): H_max = log₂(6) ≈ 2.585 bits

न्यूनतम एंट्रॉपी 0 बिट्स है, जो तब होती है जब एक परिणाम की प्रायिकता 1 होती है और अन्य सभी की 0 होती है। एक निश्चित घटना कोई जानकारी प्रदान नहीं करती है।

एंट्रॉपी दक्षता और अतिरेक (Efficiency & Redundancy)

दक्षता मापती है कि कोई वितरण अधिकतम एंट्रॉपी के कितना करीब है:

Efficiency = H(X) / H_max × 100%

100% दक्षता का अर्थ है कि वितरण पूरी तरह से समान है। अतिरेक (Redundancy) पूर्ण रूप से दक्षता का पूरक है: Redundancy = H_max − H(X)।

मशीन लर्निंग में अनुप्रयोग

ID3 और C4.5 जैसे डिसीजन ट्री एल्गोरिदम प्रत्येक नोड पर विभाजित करने के लिए सर्वोत्तम विशेषता का चयन करने के लिए एंट्रॉपी का उपयोग करते हैं। वे सूचना लाभ (Information Gain) की गणना करते हैं — जो एक विभाजन के बाद एंट्रॉपी में कमी है। पेड़ सबसे अधिक जानकारीपूर्ण विभाजनों को पहले सीखता है।

अक्सर पूछे जाने वाले प्रश्न (FAQs)

शैनन एंट्रॉपी क्या है?
शैनन एंट्रॉपी किसी भी प्रायिकता वितरण में औसत अनिश्चितता या सूचना सामग्री का एक माप है। इसे H(X) = −Σ pᵢ · log(pᵢ) द्वारा परिभाषित किया जाता है। यह क्लाउड शैनन द्वारा 1948 में पेश किया गया था और यह सूचना सिद्धांत का आधार है।
एंट्रॉपी की इकाई क्या है — बिट्स बनाम नैट्स बनाम हार्टले?
इकाई लघुगणक आधार पर निर्भर करती है। बेस 2 बिट्स (कंप्यूटिंग में सबसे आम) देता है, बेस e नैट्स देता है, और बेस 10 हार्टले देता है। रूपांतरण: 1 bit = ln(2) nats ≈ 0.6931 nats, और 1 bit = log₁₀(2) hartleys ≈ 0.3010 hartleys.
अधिकतम एंट्रॉपी क्या है?
अधिकतम एंट्रॉपी तब होती है जब सभी संभावित परिणाम समान रूप से संभावित होते हैं (एक समान वितरण)। n परिणामों के लिए, H_max = log(n) होता है। यह सबसे अप्रत्याशित स्थिति का प्रतिनिधित्व करता है।
डेटा संपीड़न (data compression) से एंट्रॉपी कैसे संबंधित है?
शैनन एंट्रॉपी दोषरहित डेटा संपीड़न (lossless compression) पर सैद्धांतिक निचली सीमा स्थापित करती है। कोई भी दोषरहित संपीड़न एल्गोरिथम औसतन H(X) बिट्स प्रति प्रतीक से कम में डेटा का प्रतिनिधित्व नहीं कर सकता है।