যা যা আছে

Probability - 1
(Hammurabi থেকে Kolmogorov)


জগতের সবথেকে পুরনো দীর্ঘ লেখাগুলোর মধ্যে একটা হলো Hammurabi-র ঘোষণাপত্র। আন্দাজ 1754 খ্রীষ্টপূর্বাব্দে প্রকাশিত এই লেখা, সবচেয়ে পুরনো সংবিধান। 282 খানা নিয়ম-সম্বলিত এই ঘোষণাপত্র নাকি অপৌরুষেয়ও বটে। Anu, Enlil আর Marduk – তিন হেভিওয়েট দেবতার নির্দেশানুসারে, ‘পরিত্রাণায় সাধুনাং, বিনাশায় চ দুষ্কৃতাম্’, হামুরাবি এইখান প্রবর্তন করেন। এই প্রবল পবিত্র পাঠের কয়েকখান নিয়ম দেখে নেওয়া যাক, à la ‘Sapiens’:

… … 196. If a superior man should blind the eye of another superior man, they shall blind his eye. … …
198. If he should blind the eye of a commoner or break the bone of a commoner, he shall weigh and deliver 60 shekels of silver.
199. If he should blind the eye of a slave of a superior man or break the bone of a slave of a superior man, he shall weigh and deliver one-half of the slave’s value (in silver). … …
209. If a superior man strikes a woman of superior class and thereby causes her to miscarry her fetus, he shall weigh and deliver ten shekels of silver for her fetus.
210. If that woman should die, they shall kill his daughter.
211. If he should cause a woman of commoner class to miscarry her fetus by the beating, he shall weigh and deliver five shekels of silver.
212. If that woman should die, he shall weigh and deliver thirty shekels of silver.
213. If he strikes a slave-woman of a superior man and thereby causes her to miscarry her fetus, he shall weigh and deliver two shekels of silver.
214. If that slave-woman should die, he shall weigh and deliver twenty shekels of silver. … …

হালকা করে চোখ বোলাও, এই আপাত-দৈব নির্দেশাবলী পড়ার পর চোখ আর কপাল থেকে নামবে না: মানুষ পরিষ্কার উচ্চ-নিম্ন দু’রকমের শ্রেণীর; দাসপ্রথা খুব স্বাভাবিক; মেয়েরা মার খেতেই পারে, শুধু গর্ভপাত না হলেই হলো; তার প্রাণ গেলেও, হন্তার প্রাণের কিছু হবে না, শুধু তার কন্যাসন্তানটির প্রাণ যাবে। মানে, … কি আর বলি …



এ লেখা দৈববাণী হোক, বা বাল্যাবস্থায় সভ্যতার প্রথম আইন-কানুন তৈরির খেলা-খেলা চেষ্টা, তা নিয়ে আপাতত আমাদের মাথাব্যাথা নেই। David J. C. Mackay-এর প্রথিতযশা বইয়ের কায়দায়, কিন্তু ‘Linux-FAQ’ এর বদলে Code of Hammurabi –র ইংরেজি অনুবাদ ব্যবহার করে আমরা Probability-র প্রথম পাঠ নেওয়ার চেষ্টা করবো। (শুরুর 3 খানা ছবি ক্রমান্বয়ে ক) Louvre মিউজিয়াম এ Hammurabi (সম্ভবত), খ) ছবি থেকে তৈরি binary curvature flow filter, গ) Code of Hammurabi-তে সব শব্দের Word-cloud। মজার ব্যাপার, ‘man’ আর ‘shall’ শব্দদু’টো সবথেকে বেশিবার ব্যবহার হয়েছে লেখায়)।


সংখ্যা, দাঁড়ি-কমা – এসব বাদ দিয়ে (আর capital letter – small letter-এ বিভেদ না করে), ইংরেজি ভাষায় যত letter আছে, তা হলো English Alphabet, আর “ ” (space), অর্থাৎ 27 খানা জিনিস। এদের মধ্যে যেকোন একটা, Code of Hammurabi (CH)-তে ঠিক কতবার আছে? উত্তর পেতে উপরের bar-chart-টা দেখো (তার ঠিক নীচেই, প্রতি letter-এর ব্যবহারের সংখ্যার সমানুপাতিক ক্ষেত্রফলের square দিয়ে একটা list বানানো হয়েছে Mackay-এর কায়দায়)। এর নীচের টেবিলের প্রথম সারি (row)-তে আছে letter গুলো (\( a_i \)), দ্বিতীয় সারিতে CH – এ তাদের সংখ্যা (\( n_i \))। লেখায় মোট letter-এর সংখ্যা প্রায় 51000। তাহ’লে যেকোন একটা letter – শতকরা কতবার আছে? জানতে তুমি স্বভাবতই টেবিলের দ্বিতীয় সারি থেকে সেই letter-এর count টা তুলে তাকে total count (দ্বিতীয় সারির সব সংখ্যার যোগফল) দিয়ে ভাগ করে তারপর 100 দিয়ে গুণ করবে। ছোটবেলার পাটীগণিত। ঐকিক নিয়মে, যদি গোটাটাকে 100% না বলে শুধু 1 বলতাম, তাহ’লে আর 100 দিয়ে গুণ করতে না তো? যে সংখ্যাগুলো পেতে, সেগুলোই টেবিলের তৃতীয় সারিতে আছে (\( p_i \), decimal-এর পরে 4th place-এ round-up করা আছে)।



CH-এর থেকে যে কোন একটা letter, random ভাবে তুলে আনলে আমরা নানা সময়ে নানা উত্তর পাবো। এটাকে একটা random variable \( x \) হিসেবে কল্পনা করো, যার উত্তর (outcome) নানা সময়ে ওই 27 টা জিনিসের মধ্যে একটা হতে পারে। এই 27 টা সম্ভাব্য উত্তরের সমষ্টিকে আমরা একটা set হিসেবে ভাবতে পারি, যাকে বলে sample space। আমাদের alphabetical sample space-কে \( \cal{A}_X \) বলা যাক। উপরের টেবিলের তৃতীয় সারিতে দেখতে পাচ্ছি, প্রতি outcome-এর জন্যে 0 থেকে 1 এর মধ্যে একটা real number বসানো গেছে, যারা কতগুলো নিয়ম মেনে চলে:
  1. প্রতিটি outcome \( a_i \) (যারা প্রত্যেকে \( \cal{A}_X \)-এর subset) –এর জন্যে, আমরা একখান \( P(x = a_i) \) পেতে পারি, যখন \( P(x = a_i) \geq 0 \)। (এই subset গুলোকে এখন থেকে \( A,~B, \cdots \) এসব বলবো)
  2. \( \cal{A}_X \) –এর যেকোন দু’টো subset \( A \) আর \( B \) যদি এমন হয়, যাতে \( A \cap B = \emptyset \) (mutually exclusive, বা disjoint set; \( \emptyset \) হলো ‘null’ বা ‘empty’ set), তবে, \( P(A\cup B) = P(A) + P(B) \) হবে।
  3. \( P(\cal{A}_X) = 1 \)। এটা সহজেই মিলিয়ে দেখা যায় – আমরা জানি লেটারগুলো mutually exclusive (একটা letter তো আর একইসাথে m আর n হতে পারে না), অতএব, (2) নম্বর নিয়মটা খাটিয়ে, টেবিলের তৃতীয় সারির সব নম্বরের যোগফল হবে \( P(\cal{A}_X) \)। যোগটা নিজেরাই করে দেখো।
এই তিন রকমের জিনিস বা triple, আমাদের ক্ষেত্রে (\( x,~ \cal{A}_X,~ \cal{P}_X \)), এদের একসঙ্গে বলা হয় একটা ensemble, আর যে কথাটা এতক্ষণে তোমাদের সবার মাথাতেই আশা করি চলে এসেছে, \( p_i \)-দের বলা হয় Probability। উপরের নিয়মগুলো আসলে আরেকটু কঠিন, এখানে একটু সহজ করে বলা আছে, কিন্তু তাতেই আমাদের কাজ চলে যাবে (যেমন ধরো, একটা নিয়ম হলো, \( \cal{A}_X \)-কে হতে হবে একটা \( \sigma \)-field – মাথায় না ঢুকলে দরকার নেই, উপরের নিয়মগুলোই অনেকদিন কাজে লাগবে)।

অন্য কথা:
17 বছর বয়সের এক ইতিহাসের ছাত্র মধ্যযুগের রাশিয়ান গ্রামের জীবনের ওপর একটা পরীক্ষামূলক statistical analysis করছিলো। ও দেখতে পেলো, যে সাধারণত একটা গোটা গ্রামের ওপর যে রাজস্ব চাপানো হত, তা একটা পূর্ণসংখ্যা (integer), আর আলাদা আলাদা গৃহস্থালীর ওপর রাজস্বের পরিমাণ সাধারণত একটা ভগ্নাংশ (fraction)। ছেলেটি আনন্দে উপলব্ধি করলো, নিশ্চয়ই রাজার তরফ থেকে আদতে একটা গোটা গ্রামের ওপরই রাজস্ব চাপানো হত, পরে সেটা ভাগ করে নেওয়া হত গ্রামের নানা বাড়িতে। ব্যাপারটা নিয়ে পেপার-টেপার লিখে নাচতে নাচতে গিয়ে প্রফেসর আর সহকর্মীদের গিয়ে জানালো ব্যাপারটা। প্রফেসর বিরসবদনে বললেন- “ইতিহাসে কাজ করছো, একখানা প্রমাণ যথেষ্ট নয়। তোমায় অন্তত 5 টা প্রমাণ দাখিল করতে হবে।” রাতারাতি কমবয়সী ছেলেটা ইতিহাস ছেড়ে অঙ্ক করতে শুরু করলো – যেখানে একখানা প্রমাণই যথেষ্ট।


অনেক বছর পর, 1933 সাল। Probability Theory তখনো আঁতুড়ঘরে (এতটাই, যে ছেলেটা আর তার অঙ্কবিদ-বন্ধুমহল মজা করে থিয়োরিটাকে “Theory of Misfortune” বলতো)। ছেলেটি (এখন লোক) প্রকাশ করলো তার বই “Foundations of the Theory of Probability”, যেখানে Probability-র রূপ বাঁধা পড়লো 5 টা axiom-এ। হ্যাঁ, সেই 5 টা। আধুনিক ভাষ্যে যদিও তার চেহারা কোথাও কোথাও 6-টা axiom-এ ভাঙা। ভদ্রলোকের নাম Andrey Nikolaevich Kolmogorov। Probability-র যে তিনটে axiom দিয়ে আমরা শুরু করেছি, এঁরই সৃষ্টি।


এই তিনটে axiom দিয়ে আমরা বুঝলাম, probability কেমন। শুধু তা-ই নয়, এই 3-টে থেকেই আরও অনেকগুলো property প্রমাণ করা সম্ভব। Set theory কাজে লাগিয়ে নিজেরা ভেবে দেখো তো – অন্তত মাথায় পরিষ্কার হচ্ছে কি না:

\( P(\overline{A}) = 1 – P(A) \), যেখানে \( \overline{A} \) হলো \( A \)-এর complement।
\( P(A\cup\overline{A}) = 1 \)
\( 0 \leq P(A) \leq 1 \)
\( P(\emptyset) = 0 \) 
যদি \( A \subset B \) হয়, তবে \( P(A) \leq P(B) \)
\( P(A\cup B) = P(A) + P(B) – P(A\cap B) \)

Probability কি, সে প্রশ্নের উত্তর অতটা সহজ নয়। পরে আলোচনা হবে। আপাতত, probability-র আরও কিছু গতি-প্রকৃতি দেখে নেওয়া যাক:

Subset-এর Probability: Axiom এর মধ্যে আমরা subset হিসেবে একেকটা letter-কে ধরেছি। কিন্তু subset তো আরও নানা রকম হতেই পারে। যেমন ধরো, \( x \) যদি যেকোন vowel হয়? সব vowel-এর set যদি \( V = \{ a, e, i, o, u \} \) হয়, তবে \[ P(V) = P(x \in V) = \displaystyle\sum_{a_i \in V} P(x = a_i) \] হবে। অর্থাৎ, \( P(V) = 0.079 + 0.098 + 0.046 + 0.058 + 0.016 = 0.297 \) (এর কারণ আবার সেই 2 নম্বর নিয়ম…)।

Joint Ensemble: \( X = (x, \cal{A}_X, \cal{P}_X) \) যেমন একটা ensemble, তেমনি আরও একটা ensemble \( XY \) বানানো যাক, যেখানে সব outcome এর চেহারা একটা random variable \( x \) না হয়ে দু’টো random variable-এর ordered pair – এইরকম - \( (x, y) \)। এখানে \( x \in \cal{A}_X \equiv \{a_1, \dots , a_I\} \), আর \( y \in \cal{A}_Y \equiv \{b_1, \dots , b_J\} \)। এক্ষেত্রে \( P(x, y) \)-কে আমরা \( x \) আর \( y \) এর Joint Probability বলবো (কমা ( , ) দিতেও পারো, না-ও পারো: \( xy \iff x, y \))। মাথায় রেখো, দু’টো variable-এর joint ensemble \( XY \) যে independent হবে তার কোন মানে নেই।

ব্যাপার যদি বিশেষ পরিষ্কার না হয়, চিন্তা নেই, Code of Hammurabi আছে তো! আমাদের ordered pair হিসেবে নেওয়া যাক, ওই লেখায় পরপর আসে এমন যেকোন দু’টো letter-এর ensemble, যেমন: aa, ab, ac, … zz; বোঝাই যাচ্ছে, পরপর aa খুঁজে পাওয়ার probability নিশ্চয়ই zz এর থেকে বেশি হবে – কি করে পাবো এই probability গুলো? প্রথমে খুজে বের করো কোথায় কোথায় ‘a’ এসেছে, তারপর দেখো, সেই instance-গুলোর মধ্যে কখন কখন তারপরে বসেছে a, b, …, z – তারপর এই পুরো ব্যাপারটা আবার ‘b’ থেকে ‘z’ এর জন্যে করো (অবশ্যই হাতে করবে না, code এ করতে হবে, তার সব উদাহরণ পোস্টের নীচের Mathematica notebook-এ আছে)। এর ফলে আমরা প্রতি letter combination-এর জন্যে যে সংখ্যাগুলো পাবো, তাকে আবার আগের উদাহরণের মতো total টা দিয়ে ভাগ করলেই কেল্লা ফতে। সঙ্গের Matrix Plot-এ এই probabilityগুলো plot করা আছে। যে combination-এর probability যত বেশি, তা তত ঘন (সঙ্গের notebook-এ অন্য একরকমের plot-ও করা আছে, Mackay-র বইয়ের সঙ্গে সাযুজ্য রাখতে)।


Marginal Probability: তোমায় এই উদাহরণে যদি প্রশ্ন করি, \( XY \)-এর মধ্যে, \( P(x,y) \) তো জানো, বল দেখি, \( x = \text{r} \) হওয়ার probability কত? তুমি উত্তরে r- মার্কা row-তে গিয়ে সেই row-এর সবক’টা element-এর probability যোগ করে দেবে। কেন? কারণ, সেই row-এর সবার জন্যেই (মানে \( y \) যা-ই হোক), \( x = \text{r} \)। অর্থাৎ, \[ P(x = a_i) \equiv \displaystyle\sum_{y \in \cal{A}_Y} P(x = a_i, y)\,. \] একইরকমভাবে, ছোট করে লিখলে, \[ P(y) \equiv \displaystyle\sum_{x \in \cal{A}_X} P(x, y) \] এইরকম joint ensemble –এর ক্ষেত্রে \( P(x) \) বা \( P(y) \)-কে আমরা বলি \( x \) বা \( y \)-এর marginal probability।

এই উদাহরণের joint ensemble-টার একটা বৈশিষ্ট্য হলো, যে \( P(x) \) আর \( P(y) \) identical, আর তাদের (marginal) distribution? সে তো আমরা আগের উদাহরণেই বের করেছি!

তৎকালীন সময়ের পৃথিবীর সর্ববৃহৎ শহর Babylon এর সর্বশক্তিমান শাসক Hammurabi, তাঁর সদুদ্দেশ্য, আর আধুনিক দৃষ্টিতে ‘যথেষ্ট গোলমেলে’ সামাজিক শ্রেণীবিভাগ নিয়ে আমাদের probability শিখতে আশা করা যায় ভালই সাহায্য করলেন। পরের দিন, আমরা একধাক্কায় 3500 বছর লাফিয়ে অন্য একটা লেখা নিয়ে আরেকটু probability শিখবো।

No comments