Probability - 2<br />(Jefferson থেকে Bayes)

হামুরাবির মৃত্যুর 3500 বছর পরে উত্তর আমেরিকার 13-টা ব্রিটিশ কলোনি ইংরেজ রাজত্বের বিরুদ্ধে বিদ্রোহ ঘোষণা করে। ফলস্বরূপ, তাদের প্রতিনিধিরা 1776 সালে Philadelphia শহরে সমবেত হন, আর 4 July প্রকাশিত হয় The Declaration of Independence of the United States। প্রথম খসড়াটি লিখেছিলেন Thomas Jefferson, যাঁর ছবি-নির্ভর word-cloud পোস্টের একদম শুরুতে আছে। তা, এই ঘোষণাপত্রের বয়ান? দ্বিতীয় অনুচ্ছেদেই আছে -

… We hold these truths to be self-evident, that all men are created equal, that they are endowed by their Creator with certain unalienable Rights, that among these are Life, Liberty, and the pursuit of Happiness. …

হামুরাবির মতো এর লেখকেরা ঐশ্বরিক নির্দেশের দাবী করেননি যদিও, কিন্তু কিছু স্বতঃসিদ্ধ ঘোষণা করেছেন: “সবাই রাজা আমাদের ‘এই রাজার’ রাজত্বে…” ইত্যাদি। এত হাজার বছর পরে হামুরাবির দাবী-দাওয়া আমাদের অবান্তর মনে হতেই পারে, আর উপর্যুক্ত ভাষ্যটা অনেক বেশি গ্রহণযোগ্য মনে হতেই পারে, কিন্তু আবার, সে সব নিয়ে তর্ক-বিতর্ক আমাদের উদ্দেশ্য নয়, আমরা আজ “Declaration of Independence” ব্যবহার করে Probability-র চর্চা করবো।

Made with "XKCDConvert"

আগের পোস্টের মতোই, আমরা এই নথিটিরও শব্দ, বর্ণ –এসব নিয়ে নানারকম খেলাধুলো করতে পারি। সঙ্গের notebook-এ সে সব করা আছে। Joint probability-র matrix plot আর marginal probability-র টেবিল/চার্ট সঙ্গে দেওয়া হলো। আগের মতোই, \( P(x=a_i, y=b_i) \) হলো ওই matrix-এর \( a_i \) row-এর \( b_i \) column-এ যে সংখ্যাটা পাওয়া যাবে, সেটা।

Conditional Probability: এবার একটু চিন্তা করা যাক। ভেবে দেখো, এই যে 1-D marginal probability-র চার্ট, বা 2-D joint probability-র matrix plot, এগুলো সবই probability distribution হওয়ার সব নিয়ম পালন করে, তাই না (গত পোস্টের প্রথম তিনটে নিয়ম, Kolmogorov সৌজন্যে)? প্রত্যেকের value 0 থেকে 1 এর মধ্যে, সবার যোগফল 1, ইত্যাদি? আচ্ছা, এবার, matrix plot-এর যেকোন একটা row নেওয়া যাক, ধরো, ‘e’, অর্থাৎ, \( x = \text{e} \) (\( y = \text{e} \) নয় কিন্তু, সেটা হবে ‘e’-এর column)। শুধু এই row-টা কি বোঝায়? \( y \)-এর distribution, যদি \( x = \text{e} \) ঠিক করা থাকে। বেশ, কিন্তু এটা কি একটা probability distribution? না, তা নয়, কারণ, matrix-এর সব ঘর যোগ করলে যোগফল 1 হবে; শুধু ‘e’-এর row যোগ করলে, 1 এর কম (কিন্তু আমাদের sample space (\( \cal{A}_X \)) তো এখন ওই row-‘e’, আর \( P(\cal{A}_X) = 1 \))। কি করে একে একটা probability distribution বানানো যায়? সোজা – যদি প্রতিটা সংখ্যাকে ওই row-এর সবার যোগফল দিয়ে ভাগ করে দিই। ব্যস্, এবার ওই ভাগফলগুলো যোগ করলে 1 পাবো। এই যে একটা সমষ্টিকে তাদের কোন একরকম aggregate দিয়ে ভাগ করে নিশ্চিত করা হলো, যাতে তাদের যোগফল 1 হয়, একে বলে normalization, বা normalize করা।

এইসব করে আমরা যে distribution-টা পেলাম, তাকে বলে conditional probability। কেন conditional? এই উদাহরণে condition-টা হলো, \( x = \text{e} \)। ছড়িয়ে বললে, ‘Declaration of Independence’-এ, আমরা যদি পরপর আসা দু’টো letter-এর একটা joint ensemble বানাই, যার প্রথম letter –এর ensemble-কে random variable \( x \) আর দ্বিতীয়র ensemble-কে \( y \) দিয়ে নির্দেশ করা হয়, তবে উপরের অনুচ্ছেদের উদাহরণে যে probability distribution তৈরি হয়েছে, তা হলো – “\( y \)-এর probability distribution, যদি \( x = \text{e} \) হয়।” যাহ্, গাল ভরে গেলো তো? আচ্ছা, ব্যাপারটা বুঝে থাকলে, আরেকটু ছোট করে বলো, “probability of \( y \), given \( x \) equals ‘e’.” লেখার সময়, \( P( y | x = \text{e}) \)। সঙ্গের চারখানা ছবিতে \( P( y | x = \text{a (b)}) \) আর \( P( x | y = \text{a (b)}) \) -এর চার্ট দেওয়া হলো। খেয়াল করো যে এরা সকলে আলাদা আর দেখো ব্যাপারটা হজম হলো কি না।

একটা ছোট্ট ব্যাপার এখনো অবধি আমরা কায়দা করে এড়িয়ে গেছি। হতেই তো পারতো, যে কোন একটা row-এর সব element = 0। অর্থাৎ, সেই row-এর marginal probability-ও 0। তখন কি দিয়ে ভাগ করতে? বোঝাই যাচ্ছে, আমাদের definition-টা শুধু non-zero marginal probability-র জন্যেই প্রযোজ্য। অঙ্কের ভাষায় লিখলে তবে conditional probability (চার্টের কোন একটা bar) দাঁড়ায় এইরকম: \[ P( x = a_i | y = b_i ) \equiv \frac{P( x = a_i , y = b_i )}{P(y = b_i )} ~~~\text{if} ~~P(y = b_i ) \neq 0 \] গত পোস্টে set-theory-র notation-এ probability-র বেশ কিছু নিয়ম শিখেছিলাম না? সেই পদ্ধতিতেই conditional probability-কে আমরা লিখতে পারি: \[ P( A | B ) \equiv \frac{P( A \cap B )}{P( B )} ~~~\text{if } ~~P( B ) \neq 0 \] Product Rule: এখানে একটু খেয়াল করো, conditional probability-র definition-এ RHS-এর numerator-এ বসে থাকা জিনিসটা আসলে \( x \) আর \( y \)-এর joint probability (অথবা \( A \cap B \)-এর probability)। অনেক সময়েই joint probability-কে conditional probability-র সাহায্যে লেখা হয়: \[ P( x, y ) \equiv P( x | y )~P( y ) \equiv P( y | x )~P( x ) \] এই সমীকরণের দ্বিতীয়ভাগ নিয়ে যদি সন্দেহ থাকে, তবে আমাদের পুরো উদাহরণে joint probability matrix-এর row-এর জায়গায় column বসিয়ে দেখো, নিশ্চিত হতে পারো কি না। Set-theory-র notation-এ, \[ P( A \cap B ) \equiv P( A | B )~P( B ) \equiv P( B | A )~P( A ) \] এই চেহারায় ব্যাপারটা বেশি পরিষ্কার, কারণ, \( A \cap B = B \cap A \)। এই নিয়মটিকে product rule বা chain rule of probability-ও বলে।

Sum Rule: Marginal probability-র definition-টা মনে করো, আর সেখানে conditional probability বসিয়ে দেখো: \[ P( x ) = \displaystyle\sum_y P( x , y ) = \displaystyle\sum_y P( x | y )~P( y ) \] এটাই sum rule of probability। Set notation-এ ব্যাপারটা বুঝতে গেলে, একটু কল্পনা করতে হবে। ধরো, আমাদের চেনা sample space (\( S \); উপরের ছবি)–কে ছোট ছোট disjoint sebset \( B_i \)-তে ভেঙে ফেলেছি (নীচের ছবি)। তবে, \( S = \cup_i B_i \), যেখানে \( B_i \cap B_j = \emptyset \), যখন \( i \neq j \)। আরও, \( P(B_i) \neq 0 \), সব \( i \)-এর জন্যে। যেকোন একটা set \( A \)-কে লেখা যায়, \( A = A \cap S = A \cap (\cup_i B_i) = \cup_i (A \cap B_i) \)। যেহেতু সমস্ত \( A \cap B_i \) subset-গুলো disjoint, তাই তাদের probability-গুলো শুধু যোগ হবে: \[ P( A ) = P( \cup_i (A \cap B_i) ) = \displaystyle\sum_i P( A \cap B_i ) \] \[ \qquad = \displaystyle\sum_i P( A | B_i ) P( B_i ) \] এটাকে sum rule of probability বা law of total probability বলে।

Independence: দু’টো random variable \( X \) আর \( Y \), তখনই independent হবে (অনেকসময় লেখা হয় \( X \perp Y \)), যদি (এবং শুধুমাত্র যদি (if and only if; ছোট করে, ‘iff’)) এমন হয়: \[ P( x, y ) = P(x)~P(y)\,. \] Set-notation-এ, \( P( A \cap B ) = P(A)~P(B) \)। এর কারণ, যদি \( A \) আর \( B \) independent হয়, তবে condidiotnal probability থেকে বোঝা যায়, \( P(A|B) = P(A) \), আবার \( P(B|A) = P(B) \) হবে। Independent subset-এর সঙ্গে ভুল করেও disjoint subset-কে গুলিয়ে ফেলো না। মনে রেখো, disjoint subset-দের ক্ষেত্রে, \( A\cap B = \emptyset \)।

Bayes’ Theorem: Sum আর product rule-কে মিশিয়ে দিলেই পরিষ্কার, যে: \[ P( y | x ) = \frac{ P( x | y )~P( y )}{P( x )} \] \[ \qquad = \frac{ P( x | y )~P( y )}{\sum_{y’} P( x | y’ )~P( y’ )} \] অথবা, \[ P( A | B ) = \frac{ P( B | A )~P( A )}{\sum_i P( B | A_i )~P( A_i )}\,. \] এখানে \( A \), \( S \)-এর যেকোন subset হতে পারে, এমনকি কোন একটা \( A_i \)-ও হতে পারে।

কিছু দরকারি উদাহরণ: এখনো অবধি আমরা যা যা আলোচনা করেছি, তা যদি সহজ মনে হয়, ভালো। না হ’লে ফিরে গিয়ে আবার পড়ে পরিষ্কার করো ব্যাপারটা। কারণ, এর পরে আমরা যা-ই করি না কেন, এই Bayes’ Theorem ছাড়া গতি নেই। যদি conditional probability ডাল-ভাত মনে হয়, তবে একবার Ted-Ed-এর এই ধাঁধাটা উত্তর না শুনে কষে ফেলো দেখি:

সম্ভবত, তোমায় উত্তর শুনতে হয়েছে। কিছুটা পরিষ্কার হয়ে থাকলে, এবার আরেকটা তথ্য দেওয়া যাক। গত দু’টো পোস্ট মিলিয়ে যত উদাহরণ দেখেছো, সেখানে আমাদের কাছে প্রথম থেকেই বেশ কিছু তথ্য ছিলো। যেমন, কোন document থেকে আমরা sample space বানিয়েছি, সেই লিস্টে কোন punctuation, যেমন ( . , ; : / - () {} [] …. ) ব্যবহার করা হয়নি, ইংরেজি ভাষায় কোন একটা letter-এর দু’রকম চেহারা ধরা হয়নি (capital আর small letter-কে আমরা আলাদা করিনি) – ইত্যাদি। এর ফলে, এবং তার পরের নানা গোনাগুণতির পরে, আমরা joint ensemble-এর probability-গুলো বের করেছি। এই যে নানা জিনিস ধরে নেওয়া হয়েছে, নানা তথ্যের সাহায্য নেওয়া হয়েছে, এই assumption আর prior information-এর বদলে যাওয়ার সঙ্গে, আমাদের probability গুলোও বদলে যাবে। এই সমস্ত prior information-কে একসাথে যদি \( \cal{H} \) বলি, তবে যেখানেই \( P(x) \) হয়েছে, সেখানে আসলে বসাতে হবে \( P( x | \cal{H} ) \)। তাই, \( P( x | \cal{H} ) \)-কে শুধু ‘probability of \( x \)’ না বলে বলা উচিত, ‘prior probability of \( x \)’। উদাহরণস্বরূপ, \[ P( y | x, \cal{H} ) = \frac{ P( x | y, \cal{H} )~P( y | \cal{H} )}{\sum_{y’} P( x | y’ , \cal{H} )~P( y’ | \cal{H} )} \]

এইবার একটা অন্যরকম উদাহরণ, একটু magical। ধরো, সক্কাল সক্কাল একটা প্যাঁচার পায়ে বাঁধা একটা চিঠি এসেছে তোমার কাছে (উদাহরণ হিসেবে সঙ্গে আমার নিজের চিঠিটা দিয়ে রাখলাম)। খুলে দেখলে, Hogwarts স্কুল থেকে তোমায় ডেকে পাঠিয়েছে। আনন্দে-বিস্ময়ে, নিজের চোখকেই বিশ্বাস করতে না পেরে বাবাকে জিজ্ঞেস করলে, “এ কি সত্যি?” ছদ্ম-গাম্ভীর্য নিয়ে উত্তর এলো – “নিজেই কষে দেখো…”। পাশ থেকে মা ফুট কাটলেন – “সমাজে জাদুকর হয়ে জন্মায় কিন্তু খুব কম সংখ্যক মানুষ। মাত্র 0.1% …”।

“তার ওপরে প্যাঁচাদের মোটেই বিশ্বাস নেই – 99% সময় যদিও ওরা ঠিক বাড়িতে চিঠি নিয়ে যায়, 1% ক্ষেত্রে সাধারণ বাচ্চাদের মনে দুঃখই হয় শুধু …” – বাবা যোগ করলেন।
“তার মানে কি আমার Hogwarts যাওয়ার probability 99%?”

সত্যিই তো, ঠিক কত, তোমার জাদুকর(নি) হওয়ার probability? এর উত্তর আমি আজ দিয়ে দিচ্ছি, কিন্তু একই রকম বেশ কিছু সমস্যা দেওয়া থাকবে পরের দিনের notebook-এ। সেগুলোর উত্তর তোমাদের নিজেদেরই বের করতে হবে।

ধরে নাও, যদি চিঠি পাওয়া \( L \) হয়, আর সত্যি সত্যি জাদুকর হওয়া হয় \( M \), তবে, চিঠি-ফিঠি পাওয়ার আগে, তোমার জাদুকর হওয়ার probability, মা বলে দিয়েছেন, ছিলো \( P( M | I ) = 0.1\% \) (‘\( I \)’ বলতে এখানে সেই – prior information বোঝাচ্ছে)। জাদুকর না হওয়ার probability তবে \( P( \overline{M} | I ) = 1 – P( M | I ) = 99.9\% \)। তুমি জাদুকর হলে, প্যাঁচারা যে ঠিক বাড়িতে চিঠি আনবে, তার probability: \( P( L | M, I ) = 99\% \)। অতএব, তুমি জাদুকর না হলেও, প্যাঁচাদের ভুল করে তোমার বাড়িতে চিঠি নিয়ে আসার probability: \( P( L | \overline{M}, I ) = 1 - P( L | M, I ) = 1\% \)। সব জানা হয়ে গেছে। এবার Bayes’ Theorem কাজে লাগিয়ে তোমায় বের করতে হবে, ‘তুমি চিঠি পেয়ে থাকলে, তোমার জাদুকর হওয়ার probability’: \[ P( M | L, I ) = \frac{ P( L | M, I ) \times P( M | I )}{ P( L | M, I ) \times P( M | I ) + P( L | \overline{M}, I ) \times P( \overline{M} | I )}\] \[ \qquad = 9\% ~~~\text{(!!)}\]

বলে কি! বাড়িতে চিঠি এলো প্যাঁচার পায়ে, তার পরেও তোমার magician হওয়ার probability মাত্র 9%! ওই যে, খুব ছোট্ট একটা সংখ্যা, গোটা জনগোষ্ঠীতে জাদুকর হওয়ার, সেটাই এ জন্যে দায়ী। ব্যাপার যদি এমন হতো, যে তোমাদের শহরে প্রচ্চুর এমন চিঠি আসে, আর তার probability-টাও তোমার জানা থাকতো, তবে এই সংখ্যাটাই দুম করে বেড়ে যেত।

খুব গোলমেলে না? এইবার সময় হয়েছে জানার, যে probability আসলে কি? সে নিয়ে আলোচনা হবে পরের পোস্টে। আজ আপাতত এই দু’ধরণের দুই ঐতিহাসিক দলিল, যাদের নিয়ে আমরা কাজ করলাম, তাদের উভয়েরই গুরুগম্ভীর দাবীদাওয়া নিয়ে Y. N. Harari-র একটা বক্তব্য শুনে খাতা বন্ধ করা যাক:

… The two texts present us with an obvious dilemma. Both the Code of Hammurabi and the American Declaration of Independence claim to outline universal and eternal principles of justice, but according to the Americans all people are equal, whereas according to the Babylonians people are decidedly unequal. The Americans would, of course, say that they are right, and that Hammurabi is wrong. Hammurabi, naturally, would retort that he is right, and that the Americans are wrong. In fact, they are both wrong. Hammurabi and the American Founding Fathers alike imagined a reality governed by universal and immutable principles of justice, such as equality or hierarchy. Yet the only place where such universal principles exist is in the fertile imagination of Sapiens, and in the myths they invent and tell one another. These principles have no objective validity. …

অন্যান্য দিনের মতোই, এ দিনের notebook পাবে নীচে:

যা যা আছে

Probability - 2
(Jefferson থেকে Bayes)

No comments

AI for Everyone Book

যা যা পড়ার আছে

জনপ্রিয় পোস্ট

জাবদা খাতা

Keywords

যার ব্লগ...

অন্য বিভাগ