माहितीचा लाभ (Information Gain) हे मशीन लर्निंगमधील संकल्पना आहे, जी प्रामुख्याने डिसिजन ट्री अल्गोरिदममध्ये वापरली जाते. याचा अर्थ सोप्या शब्दांत खालीलप्रमाणे आहे:
एंट्रॉपी (Entropy):
एंट्रॉपी म्हणजे डेटासेटमधील अनिश्चिततेची किंवा अस्थिरतेची पातळी.जर एंट्रॉपी कमी असेल, तर डेटासेट जास्त एकसारखे (homogeneous) असते.जर एंट्रॉपी जास्त असेल, तर डेटासेट जास्त विविधरंगी (heterogeneous) असते.
माहितीचा लाभ (Information Gain):
एंट्रॉपी कमी करण्यासाठी डेटासेट कशा प्रकारे विभागले गेले आहे, हे मोजण्याची पद्धत आहे. एखाद्या डेटासेटमध्ये विभाजनाआधी आणि विभाजनानंतरच्या एंट्रॉपीमधील फरक म्हणजे माहितीचा लाभ.उदाहरणार्थ, ज्या वैशिष्ट्यावर (feature) विभाजन केल्यामुळे डेटाचे वर्ग अधिक एकसंध होतात, तो वैशिष्ट्य सर्वोत्तम मानले जाते.
डिसिजन ट्रीमध्ये उपयोग:
ID3 (Iterative Dichotomiser 3), C4.5, आणि CART (Classification and Regression Trees) हे अल्गोरिदम माहितीचा लाभ वापरून डेटासेटचे विभाजन करतात.
यामुळे प्रत्येक टप्प्यावर डेटाचे वर्ग जास्त सुव्यवस्थित (organized) होतात आणि डिसिजन ट्री अधिक प्रभावी बनतो.
थोडक्यात: माहितीचा लाभ म्हणजे ज्या वैशिष्ट्यामुळे डेटाचे वर्ग जास्त सुव्यवस्थित होतात, ते शोधून काढण्याची प्रक्रिया.
हे डिसिजन ट्री बांधताना योग्य निर्णय घेण्यासाठी महत्त्वाचे असते.
ही प्रत एक संपूर्ण समान वितरण (Uniform Distribution) व त्याचा Probability Density Function (PDF) आणि Cumulative Distribution Function (CDF) याबद्दल दिलेल्या दोन उदाहरणांचा भाग आहे.
उदाहरण 1:
- समान डाइस:
- एका सामान्य 6 बाजू असलेल्या डाईचा वापर केला जातो. यामध्ये प्रत्येक बाजूला समान शक्यता आहे (१ ते ६ पर्यंत).
- PDF:
- f(x) = 1/6, जर x चा मूल्य १ आणि ६ दरम्यान असेल. म्हणजे, प्रत्येक बाजूला १/६ची समान शक्यता आहे.
- CDF:
- ७(x) = (x – 1)/(6 – 1), जर x चा मूल्य १ आणि ६ दरम्यान असेल.
- ७(x) = 0, जर x < १ असेल.
- ७(x) = १, जर x > ६ असेल.
उदाहरण 2:
- यादृच्छिक संख्या जनरेटर:
- एक यादृच्छिक संख्या जनरेटर असतो, जो १०० ते २०० दरम्यान संख्यांसाठी निकाल तयार करतो.
- PDF:
- जर १०० आणि २०० दरम्यान समान शक्यता असेल, तर PDF योग्य प्रकारे सादर होईल.
- CDF:
- या वितरणासाठी CDF कसा काढता येईल, हे दिलेल्या फॉर्म्युलाप्रमाणे काढले जाईल.
समजावून सांगणे:
- PDF (Probability Density Function): या फंक्शनच्या माध्यमातून आपल्याला एखाद्या विशिष्ट रेंजमधील संभाव्यता समजून येते. उदाहरणार्थ, समान डाईससाठी प्रत्येक बाजूला १/६ शक्यता आहे.
- CDF (Cumulative Distribution Function): CDF वापरून आपल्याला कळते की, कशा प्रकारे एक विशिष्ट मूल्यापर्यंतची एकूण संभाव्यता वाढत जाते.
ही प्रत एक समान वितरण (Uniform Distribution) च्या दुसऱ्या उदाहरणासह संबंधित आहे.
उदाहरण 3:
- यादृच्छिक संख्या जनरेटर:
- या उदाहरणात, १०० आणि २०० दरम्यान पूर्णांक तयार करणारा एक यादृच्छिक संख्या जनरेटर आहे.
- या वितरणामध्ये प्रत्येक पूर्णांकाची शक्यता समान आहे, म्हणजे १०० ते २०० पर्यंत प्रत्येक पूर्णांकाची समान शक्यता आहे.
- PDF (Probability Density Function):
- PDF फॉर्म्युला:
f(x)=1200−100+1=1101f(x) = \frac{1}{200 – 100 + 1} = \frac{1}{101}f(x)=200−100+11=1011- या फॉर्म्युलाप्रमाणे, १०० ते २०० च्या दरम्यान प्रत्येक पूर्णांकाची शक्यता 1101\frac{1}{101}1011 आहे.
- PDF फॉर्म्युला:
- CDF (Cumulative Distribution Function):
- CDF फॉर्म्युला:
F(x)=x−100200−100+1=x−100101F(x) = \frac{x – 100}{200 – 100 + 1} = \frac{x – 100}{101}F(x)=200−100+1x−100=101x−100- या फॉर्म्युलामध्ये xxx च्या मूल्याने CDF काढता येते.
- CDF ० असेल जेव्हा x<100x < 100x<100, आणि CDF १ असेल जेव्हा x>200x > 200x>200.
- CDF फॉर्म्युला:
महत्वाचे मुद्दे:
- समान वितरण अशा परिस्थितींमध्ये वापरले जाते जिथे एका विशिष्ट रेंजमधील प्रत्येक परिणामाची शक्यता समान असते.
- हे यादृच्छिक संख्या जनरेशन आणि त्या प्रकारच्या मॉडेलिंग मध्ये वापरले जाते जिथे कोणत्याही विशिष्ट परिणामाला अधिक शक्यता असलेली स्थिती नाही.
- समान वितरण विविध प्रकार असू शकते – विसरलेले (Discrete) किंवा सतत (Continuous), त्या प्रमाणे की परिणाम पूर्णांक असू शकतात किंवा खरे अंक (Real numbers) असू शकतात.