جانينا هوسياسون وقيمة الأدلة Janina Hosiasson and the value of evidence

المجلة: Studies in History and Philosophy of Science Part A، المجلد: 106
DOI: https://doi.org/10.1016/j.shpsa.2024.05.013
PMID: https://pubmed.ncbi.nlm.nih.gov/38852369
تاريخ النشر: 2024-06-08

جانينا هوسياسون وقيمة الأدلة

كريستيان تورسيل

16 مايو 2024

الملخص

تعتبر ورقة “عن مبدأ الأدلة الكاملة” (1967) لإي. جي. غود بارزة في نظرية القرار والإبستيمولوجيا البايزية. يثبت غود أنه في نظرية القرار لسافاج (1954)، يفضل الوكيل المتماسك دائمًا جمع الأدلة المجانية بدلاً من تجاهلها. من المعروف الآن أن نتيجة غود كانت مسبوقة في ملاحظة غير منشورة من فرانك رامزي (سكايرمز 2006). تسلط الورقة الحالية الضوء على سلف آخر مبكر لحجة غود، التي ظهرت في “لماذا نفضل الاحتمالات بالنسبة للبيانات العديدة؟” (1931) لجانينا هوسياسون، والتي تم تجاهلها في الأدبيات. يستعرض القسم 1 حجة غود والمشكلة التي كانت تهدف إلى حلها؛ دعنا نسمي هذه مشكلة قيمة الأدلة. يقدم القسم 2 تاريخًا موجزًا لمشكلة قيمة الأدلة ويوفر خلفية سيرة ذاتية لوضع مساهمة هوسياسون في السياق. يوضح القسم 3 الحجة المركزية لورقة هوسياسون وينظر في علاقتها بغود (1967).

الكلمات المفتاحية: جانينا هوسياسون-ليندنبوم، الإبستيمولوجيا الرسمية، الاحتمالية، الاستقراء

1

في عام 1957، نُشرت “المفهوم المنطقي للاحتمالية” لأ. ج. آير في وقائع مؤتمر حول فلسفة الفيزياء الذي عقدته جمعية كولستون البحثية. وفقًا للرأي المشار إليه في عنوانه، هناك معنى مهم لـ “الاحتمالية” حيث “ما يتم التأكيد عليه عندما يقال إن بيانًا ما محتمل، في هذا المعنى، هو أنه يحمل علاقة معينة مع بيان آخر، أو مجموعة من البيانات، والتي يمكن أيضًا وصفها بأنها تؤكد، أو تدعم، أو تقدم دليلًا لها” (آير، 12). في هذا الرأي، تأخذ ادعاءات الاحتمالية النموذجية الشكل التالي: “ محتمل إلى درجة بالنظر إلى كأدلة” (سنتبع آير، الذي يتبع كينز (1921)، في اختصار هذا بـ “ “)، حيث h و e
هي مقولات و هو عدد حقيقي في الفترة الوحدوية. في التفسير المنطقي، تحدد معاني و بشكل فريد قيمة . نظرًا لأن معاني المقولات ذات الصلة كافية لتحديد احتمالية واحدة بالنظر إلى الأخرى، فإن الاحتمالات لا تعتمد على مواقف أي وكيل معين تجاه المقولات المعنية. في هذا المعنى، تكون الاحتمالات موضوعية في المفهوم المنطقي.
يطرح آير تحديًا لهذا الرأي. لنفترض أننا نفكر في المراهنة على حصان يُدعى “إكليبس” في سباق قادم (آير، 13). دع يكون البيان “إكليبس سيفوز بالسباق”. دع يكون البيان “سيتم ركوب إكليبس من قبل الفارس البطل”، ودع يكون الاقتران بين مع العديد من البيانات الأخرى المتعلقة بتوقع أداء إكليبس. لنفترض أن و . يبدو واضحًا أنه، بالنظر إلى أن و من بين أدلتنا المتاحة (مهما كان معنى ذلك)، يجب أن نأخذ ، وليس ، كاحتمالية لـ . على الأقل، سنفضل بالتأكيد وضع رهاننا على استنادًا إلى بدلاً من .
ما الذي يجعل الاحتمالات المستندة إلى مزيد من الأدلة أفضل من، أو مفضلة كأدلة للعمل، الاحتمالات المستندة إلى أدلة أقل؟ وفقًا للمفهوم المنطقي، هناك معنى مهم حيث كل احتمال جيد مثل الآخر: احتمال هو حقًا بالنسبة إلى ، تمامًا كما هو حقًا بالنسبة إلى . إنه صحيح، فقط بفضل معاني و أن وهو صحيح، فقط بفضل معاني و أن ، ومن غير الواضح ما هي الأسس التي قد نملكها لتفضيل أحد هذه الاحتمالات على الآخر. اعتراض آير هو أن المفهوم المنطقي للاحتمالية يفتقر إلى الموارد لشرح لماذا يجب أن نفضل الاحتمالات المستندة إلى مزيد من الأدلة على الاحتمالات المستندة إلى أدلة أقل. دعنا نسمي تحدي تبرير هذا التفضيل مشكلة قيمة الأدلة.
تولى إي. جي. غود مشكلة قيمة الأدلة في ملاحظة من ثلاث صفحات بعنوان “عن مبدأ الأدلة الكاملة”، نُشرت في المجلة البريطانية لفلسفة العلوم في عام 1967. النقطة المركزية في تلك الورقة هي إثبات قصير لنظرية في نظرية القرار لسافاج (1954).
في نظرية القرار لسافاج، تُعتبر الحالات والنتائج بدائية، حيث تمثل مجموعة الحالات طرق قد يكون عليها العالم والتي هي خارج سيطرة الوكيل والتي هي غير مؤكدة بالنسبة لها (مثل، ما إذا كانت ستمطر بعد الظهر) وتمثل مجموعة النتائج O حالات الأمور التي يهتم بها الوكيل في النهاية (مثل، ما إذا كانت ستبتل في نزهتها بعد الظهر). تُعرف مجموعة من الأفعال بأنها مجموعة جميع الدوال من إلى O. أثبت سافاج أنه، إذا كانت A غنية بما فيه الكفاية وكان لدى الوكيل تفضيلات
على الأفعال، ممثلة بعلاقة ثنائية على تلتزم ببعض قيود التماسك التي تُعتبر متطلبات للعقلانية، فإن تفضيلاتها يمكن تمثيلها مع زوج يتكون من دالة احتمالية فريدة : ودالة منفعة فريدة حتى التحويل الإيجابي الأفيني بحيث، بالنسبة لجميع ،
حيث تشير إلى التوقع بالنسبة إلى . تمثل
درجات اعتقاد الوكيل حول كيف يكون العالم بالنسبة إلى و تمثل شيئًا مثل الجاذبية العامة للنتائج. تؤكد هذه النتيجة أنه (بافتراض أن قيود سافاج على التفضيلات هي متطلبات حقيقية للعقلانية) تفضيلات الوكيل العقلاني تعتمد على المنفعة المتوقعة بالنسبة لدرجات اعتقاده الاحتمالية. لذا، يمكن تمثيل الوكيل العقلاني كأقصى منفعة متوقعة.
لاحظ أنه في هذا السياق يتم تفسير الاحتمالية كمقياس لدرجات اعتقاد وكيل معين، وليس كعلاقة منطقية. تعكس الاحتمالات بعض مواقف الوكيل تجاه المقولات التي يتم النظر في احتمالاتها؛ فهي ليست ثابتة بمعاني المقولات وحدها.
يجعلنا غود نفكر في وكيل عقلاني يواجه مشكلة قرار حيث تفكر في مجموعة من الأفعال ومجموعة من الفرضيات المتعارضة والشاملة . يتكون حل غود لمشكلة قيمة الأدلة من إثبات أنه إذا كان لدى الوكيل فرصة لتعلم أدلة جديدة من خلال إجراء ملاحظة بلا تكلفة، فإن المنفعة المتوقعة من إجراء الملاحظة أولاً ثم الاختيار (من A) بناءً على أدلتها الموسعة تكون دائمًا على الأقل بنفس القدر، وربما أكبر من، المنفعة المتوقعة من التخلي عن الأدلة الجديدة والاختيار بناءً على معلوماتها السابقة. يثبت هذا أنه، إذا كانت تفضيلات الوكيل متماسكة، يجب أن تفضل (على الأقل بشكل ضعيف) العمل بناءً على احتمالات مستندة إلى مزيد من الأدلة بدلاً من أقل، على افتراض أن تكلفة الحصول على مزيد من الأدلة ضئيلة.
إليك مخطط للإثبات، متبعًا عرض غود. دع تشير إلى منفعة اختيار بالنظر إلى أن الحالة الحقيقية هي عنصر من . لنفترض أن الوكيل لديه بعض الأدلة (أي، تعرف أن الحالة الحقيقية تقع في ) بحيث تُعطى احتمالاتها السابقة بـ لـ . للمضي قدمًا، سنسقط الإشارة إلى الأدلة الخلفية ، ونكتب الاحتمال السابق للوكيل لـ ببساطة كـ . نظرًا لأنها
hتملك تفضيلات متماسكة، سيختار وكيلنا فعلًا يعظم المنفعة المتوقعة بالنسبة لهذه الاحتمالات. لنفترض أن هو فعل يعظم التوقع. مع وجود E فقط كأدلتها، فإن المنفعة المتوقعة لفعل وكيلنا تساوي
الآن، لنفترض أن الوكيل لديه الفرصة لإجراء تجربة بلا تكلفة مع نتائج محتملة متعارضة وشاملة . تحدد هذه النتائج احتمالات لاحقة على ،
التي تصف، لكل فرضية ، كيف ستتغير احتمالية الوكيل لـ عند إضافة النتيجة إلى أدلتها. قد نفكر في هذه على أنها تحدد خطة تحدد كيف سيغير الوكيل اعتقاده في كل بشرط كل نتيجة ممكنة من التجربة.
يعلم وكيلنا أنه، إذا أجرت التجربة، ستختار بعد ذلك الفعل الذي يعظم المنفعة المتوقعة بالنسبة للاحتمالات المحدثة لديها: أي، بالنظر إلى أن النتيجة الملاحظة هي ، ستختار فعلًا الذي يعظم قيمة . نظرًا لأن التجربة بلا تكلفة والاحتمال السابق لكل يساوي ، فإن المنفعة المتوقعة من القيام بذلك والتصرف بناءً على أدلتها الموسعة تُعطى بواسطة
الذي يساوي
ومنذ تشكل تقسيمًا على يمكننا إعادة كتابة المنفعة المتوقعة للعمل دون معرفة نتيجة التجربة (أي، اختيار الفعل الذي يعظم المنفعة المتوقعة بالنسبة لاحتمالاتنا السابقة) على النحو التالي
لاحظ أنه، لأي t وأي دالة ذات قيم حقيقية، f، من j و k،
إيجار ، يتبع أن
مع عدم المساواة الصارمة ما لم تكن مجموعة الأفعال التي تعظم المنفعة المتوقعة متطابقة لكل نتيجة تجريبية ممكنة (وبالتالي فإن الأدلة الإضافية الناتجة عن إجراء التجربة لا تحدث فرقًا في اختيار الوكيل، مقارنة بما كانت ستختاره بناءً على المنفعة المتوقعة وحدها). لذا، فإن المنفعة المتوقعة للعمل بناءً على الاحتمالات الأكثر اطلاعًا تكون دائمًا على الأقل بنفس القدر، وأحيانًا أكبر من، المنفعة المتوقعة للعمل بناءً على الاحتمالات الأقل اطلاعًا.
يلاحظ غود أن نتيجته قد تؤخذ فقط كإثبات أنه، عند توفر الفرصة، يجب دائمًا اختيار الحصول على أدلة إضافية من خلال الملاحظة الخالية من التكلفة، في حين أن آير أثار مشكلة قيمة الأدلة من حيث “مبدأ الأدلة الكاملة” لكارنب، وهو الأمر الذي ينص على ضرورة أخذ جميع الأدلة المتاحة حاليًا في الاعتبار عند حساب الاحتمالات. الاعتراض هو أن غود لم يحل مشكلة قيمة الأدلة كما طرحها آير ما لم يكن قد برر مبدأ كارنب.
الإجابات الجيدة التي يمكننا اعتبار أدلتنا المتاحة حاليًا كنوع من السجل، حيث إن استشارة السجل هي في حد ذاتها ملاحظة – يمكن نمذجتها بنفس الطريقة التي تم بها تجربة الإثبات الموضح أعلاه. وبفهم ذلك، من الواضح أن نتيجة غود قد ‘بررت القرار بعمل هذه الملاحظة واستخدامها، بشرط أن تكون التكلفة ضئيلة’ (غود، 320). طالما أن استشارة السجل تكاد تكون بلا تكلفة، فإنه من المجدي استشارته حتى يتم استنفاد مخزوننا الحالي من الأدلة.
الاهتمام بورقة جود الرائدة ليس مجرد اهتمام تاريخي. لقد أثار “في مبدأ الأدلة الكاملة” أدبيات تتعلق بقيمة نتائج الأدلة للتعميمات المتعلقة بالشروط. تشمل المساهمات البارزة غرايفز (1989) وسكيرمز (1990) وهوتيجر (2014). هذه ثمار مشروع جود معروفة جيدًا. أما بذوره فهي أقل شهرة.
لم تكن مشكلة آير ولا حل غود بدون سابقة. خمس صفحات من كتاب سي. دي. برود ‘الإدراك، الفيزياء، والواقع’ (1914) – المقتبس من أطروحته للدكتوراه عام 1911 – مخصصة للصعوبات التي تنشأ فيما يتعلق بالمبدأ القائل بأنه ‘يجب علينا تفضيل احتمال محسوب على أساس أوسع على آخر محسوب على أساس أضيق، حتى لو كان الرجل الذي كان لديه فقط أساس المعرفة الأضيق قد أجرى حساباته بشكل صحيح’ (برود (1914)، 151). بعد سبع سنوات من نشر كتاب برود، نُشر كتاب جون مينارد كينز الرائد ‘مقالة في الاحتمالات’ (1921)، والذي يتضمن فصلًا عن ‘تطبيق الاحتمالات على السلوك’ حيث يتنبأ كينز بتحدي آير:
إذا كانت احتمالتان متساويتين في الدرجة، هل ينبغي لنا، عند اختيار مسار عملنا، أن نفضل تلك التي تستند إلى مجموعة أكبر من المعرفة؟ يبدو أن السؤال محير للغاية، ومن الصعب قول الكثير المفيد عنه. لكن درجة اكتمال المعلومات التي تستند إليها الاحتمالية تبدو ذات صلة، فضلاً عن الحجم الفعلي للاحتمالية، عند اتخاذ قرارات عملية. إن مبدأ برنولي بأنه عند حساب احتمالية يجب أن نأخذ في الاعتبار جميع المعلومات التي لدينا، حتى عندما يعززها مبدأ لوك بأنه يجب علينا الحصول على كل المعلومات التي يمكننا الحصول عليها، لا يبدو أنه يلبي الحالة تمامًا.
كان أير، إذن، قد سبقه على الأقل برود وكينز في تسليط الضوء على مشكلة قيمة الأدلة. في زيارة له في عام 1986 لأرشيف فرانك رامزي في كامبريدج، اكتشف بريان سكيرمز أن استراتيجية غود لحل المشكلة لها تاريخ طويل مماثل. هناك، وجد سكيرمز ملاحظة من صفحتين بعنوان “الوزن، أو قيمة المعرفة” حيث يثبت رامزي نتيجة مشابهة لنتيجة غود (سكيرمز 2006)، والتي يبدو أنها كانت تهدف إلى حل مشكلة قيمة الأدلة كما ظهرت في كينز (1921).
بين ملاحظة رامزي وورقة جود، يوجد الإثبات المستقل لسافاج لقيمة نظرية المعلومات في الفصل السابع من “أسس-
أسس الإحصاء (1954، 125-7). يعترف غود نفسه بتأثير معالجة رايفا وشلايفر لـ “قيمة معلومات العينة” في نظريتهم التطبيقية لقرار الإحصاء. وبيان جزء من برهانه (1967) في مقدمة ليندلي للاحتمالات والإحصاءات (1965). وتفيد حاشية في وقائع كولستون عام 1957 أن عالم الفلك إرنست أوبك قد “قدم حجة رياضية شكلية بحتة يدعي من خلالها أنه إذا زدنا كمية المعلومات التي نحسب بناءً عليها الاحتمالات لتوجيه أفعالنا، فإن توقع الربح الناتج عن هذه الأفعال سيزداد” (أير، 23). (لا يظهر أي برهان في الوقائع أو، بقدر ما وجدت، في أي مادة منشورة أخرى).
يظهر سلف أقل شهرة لحجة جود في كتاب يانينا هوسياسون “لماذا نفضل الاحتمالات بالنسبة للعديد من البيانات؟” (1931) (من الآن فصاعدًا “الاحتمالات بالنسبة للعديد من البيانات”). وُلدت هوسياسون في وارسو عام 1899، وكانت منطقية وفيلسوفة مرتبطة ارتباطًا وثيقًا بمدرسة لفوف-وارسو. حصلت على درجة الدكتوراه من جامعة وارسو في عام 1926، حيث كتبت أطروحة حول “تبرير الاستدلال الاستقرائي” تحت إشراف المنطقي تاديوس كوتاربينسكي. قضت هوسياسون السنوات الخمس عشرة التالية تكتب بشكل مكثف (بأربع لغات) حول قضايا تتعلق بالاحتمالات والاستقراء. لا يُعرف الكثير عن تفاصيل حياة هوسياسون المهنية بعد حصولها على درجة الدكتوراه، على الرغم من أن آنا ييديناك (2001) تشير إلى أن هوسياسون “دمجت بحثها العلمي مع العمل في مدرسة ثانوية كمعلمة للفلسفة” (ييديناك، 97). في عام 1940، نشرت هوسياسون عملها الأكثر شهرة، “عن التأكيد”، الذي يُعتبر بارزًا لأنه يتضمن أول مناقشة منشورة لبارادوكس الغراب لكارل هيمبل. بعد عامين، ستُقتل هوسياسون على يد الجستابو في فيلنيوس، حيث هربت بعد غزو النازيين لوارسو في عام 1939.
تم نشر “احتمالات بالنسبة للعديد من البيانات” في يناير 1931، بعد فترة وجيزة من زيارة لكامبريدج امتدت خلال العام الأكاديمي 1929/30. كانت اهتمامات هوسياسون الرئيسية ممثلة بشكل جيد في الجامعة المضيفة لها: بالإضافة إلى كينز وبورد، كان ريتشارد برايثوايت وهارولد جيفريز وفرانك رامزي (حتى وفاته في يناير 1930) يعملون في كامبريدج في ذلك الوقت. من المحتمل أنه خلال هذه الزيارة، شارك برايثوايت، المحاضر في العلوم الأخلاقية وصديق رامزي المقرب، أعمال رامزي التي لم تُنشر بعد.
«الحقيقة والاحتمال» (كتب في عام 1926) مع هوسياسون. «الحقيقة والاحتمال» مهم لدفاعه عن مفهوم ذاتي للاحتمال، حيث يتم تفسير الاحتمالات على أنها درجات من الإيمان لوكلاء معينين، على عكس التفسير المنطقي الكينزي – ولتضمينه مثالًا مبكرًا جدًا على نظرية التمثيل التي تستمد تمثيل المنفعة المتوقعة من سلوك اختيار الوكيل بناءً على تفضيلاته فقط. تأثرت هوسياسون بمقال رامزي، حيث رأت أنه يطور آراء حول الاحتمال قريبة من تلك التي توصلت إليها بشكل مستقل، وتعترف بتأثيره على نهجها في مشكلة قيمة الأدلة في هامش في ورقة عام 1931.
يفتتح هوسياسون “الاحتمالات النسبية للعديد من البيانات” بالقول إن احتمال حدث معين يعتمد على الأدلة التي نعتبر ذلك الحدث بالنسبة لها. يناقش هوسياسون نسبية الأدلة في الاحتمالات من حيث الأوصاف التي نعتبر بموجبها الأحداث ذات الصلة. قد تتضمن أوصاف مختلفة لحدث ما أجزاء مختلفة من الأدلة ذات الصلة بتقييم مدى احتمال حدوثه. لذا، قد يكون لحدث معين احتمالات مختلفة بالنسبة لأوصاف مختلفة. يقدم هوسياسون مثالاً:
إذا أخذنا في الاعتبار احتمال أن تكون هذه البطاقة موضوعة مقلوبة على الطاولة هي بطاقة محكمة [أي، ولد، أو بنت، أو ملك]، يمكننا أن نأخذ في الاعتبار حقيقة أن شخصًا ما قد سحبها قبل دقيقة من مجموعة من اثنين وخمسين بطاقة لعب ونحسب الاحتمال كـ ؛ ولكن قد نجد أيضًا، من خلال فحص أقرب لظهر البطاقة، أن هناك علامة عليها، وقد نعلم أنه من بين البطاقات المميزة فقط هي بطاقات المحكمة. بعد أخذ العلامة في الاعتبار، ستكون احتمالتنا مختلفة عما كانت عليه من قبل. (هوسياسون 1931، 23)
كما في إعداد أير، تنشأ اللغز من حقيقة أنه في كلتا الحالتين، فإن الاحتمال الذي نخصصه للحدث الذي تكون فيه البطاقة على الطاولة بطاقة محكمة هو ذلك الذي “يجب أن نأخذه في الاعتبار” (التأكيد مني). أي أن كلا الاحتمالين هما، بمعنى ما، “صحيحان”، بالنظر إلى معلوماتنا. ولكن، كما يشير هوسياسون، يبدو أن هناك شيئًا أفضل بشأن الاحتمال المستند إلى الوصف الأكثر إبلاغًا. يكرس هوسياسون بقية الورقة للسؤال: “لماذا نشعر بمزيد من الرضا عن احتمالنا كلما أخذ في الاعتبار المزيد من التفاصيل حول الحالة المعطاة؟” (24).
يعتبر هوسياسون ويرفض عدة حلول مرشحة للقيمة
مشكلة الأدلة قبل تقديم الإجابة التي “تبدو [لها] الأكثر إرضاءً” (30) في القسم الرابع من الورقة. في الواقع، يتضمن القسم 4 حجتين مرتبطتين ارتباطًا وثيقًا. تتعلق كلتا الحجتين بمشكلة قرار تتضمن رهانات متكررة وتدعو القارئ لمقارنة حالة يكون فيها المختار لديه معلومات أكثر عن الأحداث التي سيقوم بالرهان عليها مع حالة يكون فيها لديه معلومات أقل.
الحجة الأولى تظهر أنه، مع بقاء الأمور الأخرى على حالها، فإن صانع القرار العقلاني الذي يواجه هذه المشكلة سيحقق دائمًا (بشكل ضعيف) مكاسب أكبر في هذا السياق إذا دخل فيه بمزيد من الأدلة بدلاً من القليل، على افتراض أن الاحتمالات التي توجه خياراته تساوي الترددات النسبية التجريبية للأحداث ذات الصلة. الحجة الثانية تهدف إلى شرح قيمة الأدلة الإضافية دون تقديم افتراضات قوية تربط بين احتمالات اتخاذ القرار لدى المراهن والترددات التجريبية للأحداث التي يراهن عليها. تُظهر أن مجموع المكاسب المتوقعة (بالنسبة للاحتمالات الذاتية للمراهن) من الرهانات الفردية يكون أكبر بشكل ضعيف في الحالة التي يكون فيها الوكيل المختار لديه مزيد من المعلومات مقارنة بالحالة التي يكون فيها لديه أقل. بقية هذه الورقة مخصصة لإعادة بناء حجج هوسياسون وشرح علاقتها بحجة “حول مبدأ الأدلة الكاملة”.
على الرغم من أن “الاحتمالات النسبية للعديد من البيانات” قد تلقت اهتمامًا أقل بكثير من “حول التأكيد”، إلا أنها لم تُهمل تمامًا. في ورقة حول “الجلسات حول الاستقراء والاحتمال في مؤتمر باريس عام 1935” (الذي حضره هوسياسون)، يبرز غالافوتي (2018) تعليقات هوسياسون المثيرة حول تفسير الاحتمالات فيما يتعلق بـ “الحقيقة والاحتمال” لرامسي. وتُذكر الورقة بشكل عابر في أعمال هيلبين (1970)، وبييدن (2018)، وسزنايدر (2021، 2022)، وهورويتش (1982). لكن في أي من هذه الأعمال لم يتم مناقشة العلاقة مع حجة غود بشكل صريح.

٣

تفتتح هوسياسون القسم 4 بتوضيح كيفية تفسير الاحتمالات في الحجج التي تلي. تشرح: “في عدد كبير من الحالات في الحياة العادية، نأخذ في الاعتبار [الاحتمالات] من خلال النظر في مقدار شيء يمكن أن يُقال إنه توقع رياضي” (30). كإيضاح، تقدم المثال التالي:
يجب على المصور أن يقرر ما إذا كان سيذهب أم لا، غدًا.
الأحد، إلى بلدة ريفية لأخذ بعض الصور الفوتوغرافية. يمكن أخذ الصور فقط إذا كان الطقس جيدًا. سواء قرر الذهاب أم لا لن يعتمد فقط على احتمال الطقس الجيد، ولكن أيضًا على الفائدة التي قد يحصل عليها من الذهاب إذا كان الطقس جيدًا والخسارة إذا هطل المطر… سيفكر في الفائدة التي سيحصل عليها من الذهاب إذا كان الطقس جيدًا وإذا لم يكن جيدًا، من جهة، وفي الفائدة التي سيحصل عليها من عدم الذهاب من جهة أخرى، والاحتمالات المقابلة – كل ذلك يؤخذ معًا في شكل فرق من التوقعات الرياضية.
في حالات مثل هذه، حيث إن الاحتمالات التي “نأخذها في الاعتبار” هي احتمالات أحداث فردية، “تتكون إجراءاتنا… من تعديل تصرفاتنا بحيث نحصل على أكبر توقع رياضي” (35). يستخدم هوسياسون أحيانًا “المكسب” وأحيانًا أخرى “الجيد” للإشارة إلى الكمية، التي تمثل شيئًا مثل الجاذبية العامة، والتي يتم تعظيم توقعها في الاختيار العقلاني.
يُعتبر أن التصرف بطريقة تعظم المكاسب المتوقعة هو سمة من سمات الاختيار العقلاني، على الرغم من أن هوسياسون يعتبر إمكانية تبرير التوصية لتعظيم المكاسب المتوقعة من خلال الإشارة إلى أنه إذا كانت الاحتمالات تساوي الترددات النسبية للأحداث ذات الصلة، فإن “اختيار أكبر توقع رياضي يمنحنا – من خلال تحقيق التردد – أكبر قدر من الخير. (قارن مع رامزي (1931)، الذي يعامل مبدأ تعظيم المنفعة المتوقعة كقانون من قوانين علم النفس البشري.)
يمكن تفسير الاحتمالات كما تظهر في حجج هوسياسون من حيث دورها في توجيه الاختيار العقلاني في ظل عدم اليقين. إنها الأوزان المستخدمة لحساب المكاسب المتوقعة للخيارات البديلة. قد يتم استعارة لغة “التوقع الرياضي” من رامزي، الذي في “الحقيقة والاحتمال” (1931) يتبنى استخدام العبارة بطريقة مشابهة لهوسياسون. في هامش بعد أول وصف لها للاحتمالات من حيث التوقعات الرياضية، تشكر هوسياسون برايثوايت على توفير فرصة لقراءة تلك الورقة، وتعترف بفضلها لرامزي من أجل “الوضوح في هذا السؤال”، على الرغم من أنها كانت قد “فكرت سابقًا في خطوط مشابهة” بنفسها.
كلا حجتي القسم 4 تتعلقان بمشكلة قرار معينة. اعتبر حدثًا “، ودع يمثل مقامرة نتلقى فيها إذا يحدث و إذا لا يحدث، و تشير إلى كميات من “الجيد” (33). افترض أنه في كل من العديد من الأحداث المنفصلة التي قد تحدث أو قد لا تحدث، نحن مطالبون باختيار رهان واحد من بين
. قد يكون، على سبيل المثال، الحدث الذي يظهر فيه وجه معين من العملة. في هذا المثال، سيتم قلب العملة عدة مرات، وقبل كل ق flip، كنا نطلب اختيار واحدة من مجموعة من المراهنات التي تحدد مقدار “الخير” الذي نحصل عليه في حال جاءت العملة على الوجه الصحيح، ومقدار “الخير” الذي نحصل عليه في حال جاءت العملة على الوجه الآخر (أو فشلت بطريقة أخرى في الهبوط على الوجه الصحيح). بعد كل ق flip، نتلقى العائد الذي يتوافق مع نتيجة الق flip وفقًا للمراهنة التي اخترناها.
يدعونا هوسياسون لمقارنة نسختين من هذا السيناريو، و . في ، “نحن نعلم في كل من حالات فقط وصف عام واحد للحدث، قل التي نشير إليها باحتمالها [أي، احتمال يحدث”، والذي يعني، (33). في هذه الحالة، سنحسب القيمة المتوقعة لكل مقامرة عن طريق أخذ المجموع ، ومنذ أننا عقلانيون، سنختار الرهان الذي يعظم تلك القيمة بالنسبة لاحتمالنا لـ استنادًا إلى الوصف : اعتبر ذلك مقامرة (مع و كما المدفوعات التي نتلقاها إذا يحدث أم لا، على التوالي).
في نحن نحصل على مزيد من المعلومات: “[ن]عتبر في الـ حالات عامل آخر، لنقل شخصية في كل حالة من ، ولدي في من حالات وصف أقرب للحدث، قل ، مما يعطي الاحتمالية من حالات وصف أقرب للحدث، قل ، مما يعطي الاحتمالية ;” وهكذا من خلال “، “أين هي محددات القابل للتحديد C” (33).
للتوضيح، يمكننا أن نفكر في كما هو الحدث الذي يظهر فيه وجه العملة عند سحبها من كيس يحتوي على عملات بألوان مختلفة. لنفترض أننا نعلم أن جميع العملات من لون معين لها نفس الانحياز (المعروف) ، لكن الألوان المختلفة تتوافق مع انحيازات مختلفة. دع كن الوصف الذي تم بموجبه سحب العملة من كيس يكون فيه الانحياز المتوسط للعملات في ذلك الكيس 0.5 (أي أن “العملة المتوسطة” من الكيس عادلة)، ودع كن وصفًا يحدد لون العملة المعينة التي يتم قلبها. في هذه الحالة، يمكننا التفكير في كالمقامرة التي تعظم العائد المتوقع بالنسبة لاحتمالية (لأنه إذا كان كل ما نعرفه عن عملة معينة هو أنها سُحبت من الكيس المعني، فسنتوقع أن تظهر على الوجه العلوي بفرصة 0.5.) هذه هي المقامرة التي سنختارها في كل من تقلبات العملة في .
في نحن نعلم، قبل كل تجربة، بلون العملة التي سيتم قلبها – وبالنظر إلى معرفتنا السابقة، فإن هذا يُعلمنا بتحيز العملة التي سيتم قلبها. لنفترض، على سبيل المثال، أن يقول إن العملة التي سيتم قلبها حمراء، حيث من المعروف أن العملات الحمراء تهبط على الوجه الصحيح بفرصة
0.8 ، بينما يقول إن العملة التي سيتم قلبها زرقاء، حيث تسقط العملات الزرقاء على الوجه الصحيح بفرصة 0.3. لنفترض أيضًا أننا نحدد احتمالاتنا لـ مساوية لهذه الفرص عندما تكون معروفة. ثم، في كل من الحالات التي يتم فيها قلب عملة حمراء، سنختار المقامرة (بقيمة متوقعة من ) الذي يعظم المكسب المتوقع بالنسبة لمعتقداتنا المستندة إلى اللون، وفقًا للاحتمال الذي يحدد أن عملة النقود ستسقط على الوجه العلوي يساوي . بالمثل، في الـ الحالات التي يتم فيها قلب عملة زرقاء، سنختار (بقيمة متوقعة من في هذه الحالة، قد تختلف احتمالية أن تسقط عملة معينة على الوجه الصحيح من تجربة إلى أخرى، وبالتالي قد يختلف الرهان الذي يزيد من المكسب المتوقع بين التجارب أيضًا. لذا، قد يختلف نمط اختيارات الوكيل العقلاني بين و .
بعد أن تم تحديد كيف سيختار مُعظم التوقعات في و تقدم هوسياسون حجتها الأولى: إذا كانت في كلا الحالتين ترددات النتائج ذات الصلة تساوي احتمالاتها، فسندرك في الواقع المزيد من الخير الكلي في من . الحجة تتقدم من خلال إظهار أن مجموع المكاسب المتوقعة لكل من التجارب، مع الأخذ في الاعتبار التوقعات بالنسبة للترددات التجريبية الحقيقية لكل نتيجة، لا يمكن أن تكون أصغر بالضرورة (وقد تكون أكبر) في من .
يفترض هوسياسون في هذا الجدال أن الاحتمالات التي نأخذها في الاعتبار عند حساب المكسب المتوقع لكل مقامرة تساوي الترددات النسبية التجريبية للأحداث ذات الصلة. في مثال رمي العملة المذكور أعلاه، على سبيل المثال، ستتطلب هذه الفرضية أن يساوي بالضبط نسبة تقلبات العملات الحمراء التي تؤدي إلى هبوط العملة على الوجه العلوي في الحالات التي يتم فيها قلب عملة حمراء. بالمثل، يفترض أن يكون مطابقًا للتردد النسبي التجريبي لنتائج الوجه العلوي بين جميع تقلبات.
نظرًا لأن في كلا و نختار من بين نفس مجموعة المراهنات في كل من حالات، هو خيار متاح في كل اختيار من بين المراهنات التي نقوم بها. لذا، بما أننا نعلم أننا سنختار الرهان الذي يزيد من القيمة المتوقعة في كل حالة، نعلم أنه في أي من حالات في سنختار مقامرة غير سمها فقط إذا . أي، في أي اختيار فردي معين في سنختار مقامرة غير فقط إذا كانت القيمة المتوقعة للاختيار على الأقل بنفس عظمة اختيار . يتبع ذلك، بالنسبة لجميع j،
لذا
نظرًا لأننا افترضنا أن الاحتمالات التي توجه اختياراتنا تساوي التكرارات النسبية التجريبية للأحداث ذات الصلة، يمكننا أن نفكر في الجانب الأيسر من المعادلة أعلاه على أنه يمثل إجمالي مقدار “الخير” الذي سنحققه فعليًا من خلال المراهنة بشكل عقلاني في بينما يمثل الجانب الأيمن مقدار “الخير” الذي سنحققه من خلال المراهنة بشكل عقلاني في . تشير اتجاهات عدم المساواة إلى أننا سنحقق المزيد في من . إذا كان هناك بعض بحيث ، فإن عدم المساواة صارمة. بشكل غير رسمي: إذا كان في أي حالة المعلومات الإضافية التي لدينا في يؤثر على اختيارنا (بالنسبة لما كنا سنختاره في )، ثم، بافتراض أن الاحتمالات تساوي التكرارات النسبية، نحصل على المزيد بشكل صارم في من .
هذا هو الحجة الأولى: بافتراض أن احتمال الوكيل لكل حدث تعتبره يساوي التردد النسبي التجريبي لذلك الحدث، فإنه بالنظر إلى أن الوكيل يتصرف لتعظيم “الخير” المتوقع، فإنه سيحقق دائمًا على الأقل نفس القدر من “الخير”، وأحيانًا أكثر، في الإعداد الذي تستند فيه احتمالاته إلى مزيد من الأدلة. ) أكثر من الإعداد المتطابق بخلاف ذلك حيث تستند احتمالاتها إلى أدلة أقل ( ).
هوسياسون غير راضية عن أن هذا الجدل يقدم استجابة كافية لسؤالها المركزي. كما يشير عنوان ورقتها، فإن هدف هوسياسون هو تبرير تفضيلنا للاحتمالات المستندة إلى مزيد من الأدلة على الاحتمالات الأقل إبلاغًا، وبالنسبة لهوسياسون، لا توجد علاقة ضرورية بين الاحتمالات والترددات النسبية. في حجتها الأولى، تأخذ هوسياسون الفرضية القائلة بأن الاحتمالات تساوي الترددات النسبية كافتراض جوهري، وهي تعالج بوضوح “أخذ المكاسب والتوقعات في الاعتبار” كشيء متميز مفهوميًا عن “توقع الترددات” (34). لذا، فإن الحجة الأولى، بقدر ما تعتمد نتيجتها المركزية على الافتراض بأن احتمالات الأحداث تساوي تردداتها النسبية، لا تحسم الأمر، من وجهة نظر هوسياسون.
في تطوير حجتها الثانية، تتعامل هوسياسون قدر الإمكان مع “التوقعات والمكاسب” فقط، متجنبة الافتراضات التي تربط الاحتمالات بتكرار الأحداث. هذه الحجة تهدف إلى إثبات أن
إذا افترضنا أن أفضل طريقة للتصرف في حالات مختلفة هي التصرف بطريقة تجعل مجموع التوقعات الرياضية…
إذا اعتبرنا النسب بأكبر قدر ممكن (دون محاولة شرح هذه القاعدة من خلال افتراض أن الترددات تساوي الاحتمالات)، فيمكننا أن نظهر أننا نتصرف بشكل أفضل إذا أخذنا في الاعتبار، في حالات معينة، الاحتمالات المتعلقة بمزيد من البيانات، دون افتراض أن جميع الترددات تساوي الاحتمالات في مجموعة الحالات المعنية.
يعترف هوسيسون بأن هذه الحجة لن تقضي تمامًا على الافتراضات حول الترددات: “يكفي أن نفترض فقط أن ترددات الحالات ذات الأوصاف المختلفة تساوي احتمالاتها؛ أي… يكفي أن يحدث في من حالات من (احتمالها هو ) لـ الافتراض الذي تم التخلي عنه هو أن احتمالات النتائج الممكنة لكل تجربة تساوي تردداتها النسبية. سيتم الحديث أكثر عن هذا الافتراض – وبشكل أكثر عمومية، عن دور الترددات في حجج هوسياسون – أدناه.
الحجة الثانية لهوسياسون تدعونا لمقارنة المجموع الذي يتراوح حول القيم المتوقعة (من حيث الخير/الربح) لكل عضو في تسلسل المراهنات التي نقوم بها في (على الافتراض الضمني أننا نتوقع بثقة أنه في كل رهان سنختار بحيث نحقق أقصى قيمة متوقعة) إلى نفس الكمية لـ . في حالة لدينا
بينما من أجل لدينا
من خلال نفس المنطق الرياضي المستخدم في الحجة الأولى، نجد أن
مع عدم المساواة الصارمة إذا كانت المعلومات الإضافية في يحدث أي فرق في المراهنات التي نتوقع اختيارها.
الدور الذي تلعبه التكرارات النسبية في كلا الحجتين مثير للدهشة. كما رأينا، في إعداد حجج القسم 4، تصف هوسياسون الاحتمالية من حيث عدم اليقين الذاتي وتظهر تعاطفها مع كتاب رامسي “الحقيقة والاحتمالية”. ولكن بالنسبة لمؤمن بأسلوب رامسي، فإن الافتراض بأن درجات اعتقاد المراهن تساوي التكرارات النسبية التجريبية للأحداث التي يراهن عليها من الصعب تحفيزه. إذا كانت تفسير هوسياسون للاحتمالات حقًا هو ، هل تشمل هذا الحجة؟
يتميز هوسياسون بالاختصار في “الاحتمالات النسبية للعديد من البيانات”؛ النص نفسه لا يحل، أو حتى يثير، هذا اللغز. إحدى الاحتمالات هي أن تضمين الحجة الأولى يعكس تأثير يان لوتسيفيتش، وهو طالب مؤثر لكازيميرز توردوفسكي (كما كان مشرف هوسياسون في الدكتوراه، كوتاربينسكي) وأستاذ الفلسفة في جامعة وارسو من عام 1915 حتى 1939 (باستثناء فترة استراحة لمدة عام في 1919-1920 للخدمة في الحكومة البولندية). دافع لوتسيفيتش عن مفهوم منطقي للاحتمالية بنكهة تكرارية. في كتابه “الأسس المنطقية لحساب الاحتمالات” (1913)، حدد لوتسيفيتش الاحتمالية بقيمة حقيقة غير قياسية. في نظامه، بالنظر إلى صيغة يحتوي على متغير حر يتراوح على مجموعة محدودة قيمة الحقيقة لـ يتم إعطاؤه بواسطة النسبة ، حيث هو مجموعة جميع العناصر من مثل هذا يتم تحويله إلى جملة صحيحة عندما يتم استبداله بـ (انظر نينيلوتو، 328). كما يشير إلكا نينيلوتو (1998)، عندما “يتم ترجمته إلى مصطلحات أكثر ألفة في نظرية الاحتمالات”، من الواضح أن “تعريفه يعادل القول بأن الاحتمال هو التكرار النسبي لصفة في فئة مرجعية”: “اقتراح غير محدد مثل ‘ “هو أسود” يتوافق مع سمة (كونه أسود) للأشياء أو الأحداث، ونطاق المتغير ” هو فئة المرجع” (نينيلوتو، 328). نظرًا لتأثير لوكاسيفيتش الكبير في الأجواء الفكرية التي شاركها مع هوسياسون، يمكننا أن نفسر بشكل تخميني الحجة الأولى كجهد لتوضيح قيمة الاحتمالات الأكثر إبلاغًا بطريقة ستكون مقنعة لأولئك الذين لديهم آراء أقرب إلى آراء لوكاسيفيتش من آراء رامسي (متركين ما اعتبرته هوسياسون نفسها الحجة الأقوى لوقت لاحق).
حتى لو كانت هذه الاقتراحات المضاربة صحيحة، فإنها تترك الافتراض المتعلق بالاحتمالات والتكرارات التجريبية غير مفسر. في الحجة الثانية. يبدو واضحًا أن هوسيسون لا يحتاج إلى ذلك.
افتراض للحصول على عدم المساواة المرغوبة. في الواقع، الاحتمالات لـ لا تظهر في أي مكان في معادلات هوسياسون. مجموع المكاسب المتوقعة لـ ببساطة تأخذ إجمالي المكاسب المتوقعة للاختيار، في جميع التجارب التي فيها يحصل على، رهان تعظيم التوقعات أن تكون مساوية لقيمة ثابتة مضروبًا في العائد المتوقع للاختيار في تجربة واحدة حيث يحصل. لا تعبير من الشكل ” يظهر في أي مكان. وهذا يشير إلى تفسير يعرف فيه مراهن هوسياسون بالفعل عدد التجارب التي ستلبي كل عندما تحسب المكاسب المتوقعة في انتظار مشكلة القمار. لا توضح هوسياسون ما إذا كانت هذه هي التفسير الذي كانت تفكر فيه. لكن غياب الإشارة إلى احتمالات الـ خارج الاقتباس الذي يعبر عن الافتراض بأن تلك الاحتمالات تساوي تكراراتها النسبية التجريبية يجعل من الصعب تحديد الدور الذي كانت تنوي أن يلعبه ذلك الافتراض في حجتها الثانية.
الاعتماد على الافتراضات حول التكرارات التجريبية يميز بين حلول هوسياسون وحلول جود لمشاكل قيمة الأدلة – جميع الاحتمالات التي تظهر في حجة جود تُفسر على أنها درجات اعتقاد ذاتية. ولكن بالطبع، الرياضيات التي تكمن في صميم حججهم لا تتأثر بخيارات التفسير المختلفة.
بالإضافة إلى الأساليب المختلفة في تفسير الاحتمالات التي تظهر في نتائجهما، هناك بعض الاختلافات الأخرى بين حجج غود وحجج هوسياسون. النتيجة المركزية في ورقة هوسياسون تتعلق بمشكلة قرار خاصة، منظمة بشكل كبير (على الرغم من أنها تقترح أنه “يمكننا محاولة تبرير رغبتنا في أوصاف أقرب [أي، أكثر معلوماتية] في حالات أكثر تعقيدًا بطريقة مشابهة” [34]). نتيجة غود أكثر عمومية. اختلاف آخر، بالطبع، هو أن نتيجة غود تم إثباتها كنظرية في نظرية قرار سافاج، التي لم تتطور حتى بعد نشر “الاحتمالات بالنسبة للعديد من البيانات”.
ما أريد أن أبرزه هو أنه، على الرغم من هذه الاختلافات، فإن حجة هوسياسون مشابهة بشكل كبير لحجة جود. مثل جود، تقدم هوسياسون حلاً لمشكلة قيمة الأدلة من خلال الاستناد إلى مبدأ العقلانية العملية. وعلى الرغم من أن هوسياسون لم يكن لديها ميزة (كما كان لجود) في الكتابة بعد تطور كبير في نظرية القرار كعلم ناضج في حد ذاته، فإن حجتها تتطور ضمن إطار نظري أولي للقرار. بالنسبة لهوسياسون، كما هو الحال مع جود، فإن السبب الذي يجعلنا نفضل التصرف بناءً على أساس الاحتمالات المستندة إلى مزيد من الأدلة بدلاً من أقل هو أنه، مع تساوي الأمور الأخرى، فإن المنفعة المتوقعة.
إن اتخاذ قرار أكثر استنارة يكون دائمًا أكبر من أو يساوي المنفعة المتوقعة من اتخاذ نفس القرار بمعلومات أقل. نظرًا لأن كل من هوسياسون وغود يتطلبان أن تتبع تفضيلات المرء المنفعة المتوقعة (“التوقع الرياضي” لهوسياسون)، فإنه يتبع، مع بقاء الأمور الأخرى متساوية، أننا نخرق قاعدة من قواعد العقلانية إذا لم نفضل العمل على أساس أدلة أكبر على العمل على أساس أدلة أصغر. هذه نوع من الحلول البراغماتية: كما يشير هوسياسون، “الإجابة… التي يقدمها هذا البحث، أي أخذ المكاسب أو التوقعات الرياضية في الاعتبار، يمكن اعتبارها إجابة إبستيمولوجية فقط من وجهة نظر براغماتية” (36).
من الجدير بالذكر أن غود يقترح أن المساهمة الرئيسية لـ “على مبدأ الأدلة الكاملة” تكمن في تسليط الضوء على العلاقة بين مشكلة آير والعقلانية العملية: “ربما تكون القيمة الرئيسية للملاحظة الحالية هي أنها توضح العلاقة بين مبدأ كارنامب للأدلة الكاملة ومبدأ العقلانية [أي، المبدأ الذي ينص على أن الاختيار العقلاني يعظم المنفعة المتوقعة]، وهي علاقة تم تجاهلها من قبل سبعة عشر فيلسوفًا بارزًا في العلوم [أي، آير والمناقشين لورقته في مؤتمر كولستون]” (321). من اللافت أن هوسياسون، مثل رامزي، رأى النقطة المركزية لغود قبل أكثر من ثلاثين عامًا من نشر “على مبدأ الأدلة الكاملة.”

References

[1] Ayer, A. J. (1957). The conception of probability as a logical relation. In Observation and Interpretation, ed. by S. Körner. London: Butterworths. Pages 12-30, including discussion.
[2] Broad, C. D. (1914). Perception, physics, and reality: an enquiry into the information that physical science can supply about the real. Cambridge: Cambridge University Press.
[3] Galavotti, M. C. (2018). The sessions on induction and probability at the 1935 Paris Congress: An overview. Philosophia Scientiæ. Travaux d’histoire et de philosophie des sciences, 22(3), 213-232.
[4] Good, I. J. (1967). On the principle of total evidence. British Journal for the Philosophy of Science, 17(4), 319-321.
[5] Graves, P. R. (1989). The total evidence theorem for probability kinematics. Philosophy of Science, 56(2), 317-324.
[6] Hilpinen, R. (1970). On the information provided by observations. In Information and inference, pp. 97-122. D. Reidel Publishing Company.
[7] Horwich, P. (1982). Probability and evidence. Cambridge: Cambridge University Press.
[8] Hosiasson, J. (1931). Why do we prefer probabilities relative to many data?. Mind, 40(157), 23-36.
[9] Hosiasson-Lindenbaum, J. (1940). On confirmation. The Journal of Symbolic Logic, 5(4), 133-148.
[10] Huttegger, S. (2014). ‘Learning experiences and the value of knowledge’. Philosophical Studies, 171(2):279-288.
[11] Janssen-Lauret, F. (2021). Women in logical empiricism. In The Routledge handbook of logical empiricism, pp. 127-135. London: Routledge.
[12] Jedynak, A. Janina Hosiasson-Lindenbaum-The logic of induction. In Poznan Studies In the Philosophy of the Sciences and the Humanities, vo. 74 (W. Krajewski, ed.), pp. 97-101. Amsterdam: Editions Rodopi.
[13] Keynes, J.M. (1921). A treatise on probability. London: MacMillan.
[14] Lindley, D. V. (1965). Introduction to probability and statistics, part 2. Cambridge: Cambridge University Press.
[15] Niiniluoto, I. (1998). Induction and probability in the Lvov-Warsaw school. In The Lvov-Warsaw School and Contemporary Philosophy (pp. 323335). Dordrecht: Springer Netherlands.
[16] Peden, W. (2018). Imprecise probability and the measurement of Keynes’s “weight of arguments”. Journal of Applied Logics—IFCoLog Journal of Logics and their Applications, 5(3), 677-707.
[17] Raiffa, H. and Schlaifer (1961). Applied statistical decision theory. Boston: Graduate School of Business Administration, Harvard University.
[18] Ramsey, F. P. (1926). “Truth and probability”. In D. H. Mellor, ed., Philosophical Papers, Cambridge: Cambridge University Press (1990).
[19] Ramsey, F. P. (1990). Weight or the value of knowledge. The British Journal for the Philosophy of Science, 41(1), 1-4.
[20] Skyrms, B. (2006). Discovering “Weight, or the value of knowledge”. In Galavotti, M.C. (eds) Cambridge and Vienna. Vienna Circle Institute Yearbook [2004], vol 12. Springer, Dordrecht.
[21] Skyrms, B. (1990). ‘The value of knowledge’. Minnesota Studies in the Philosophy of Science, 14:245-266
[22] Sznajder, M. (2021). Probability in logical empiricism. In The Routledge Handbook of Logical Empiricism, pp. 220-228. London: Routledge.
[23] Sznajder, M. (2022). Janina Hosiasson-Lindenbaum on analogical reasoning: new sources. Erkenntnis. https://doi.org/10.1007/s10670-022-00586-y.

  1. Good treats this statement as a lemma, offering a very short proof on p. 320 of his (1967).
  2. Hosiasson published under multiple names, including “Lindenbaum” and “HosiassonLindenbaum” following her marriage to Adolf Lindenbaum in 1935. For simplicity, I follow Marta Sznajder in using “Hosiasson” throughout this paper.
    Although Hempel would not publish on the problem until 1945, he had shared a version of it with Hosiasson in conversation when the two met in 1937 (Niiniluoto, 332).
  3. See Section 3 of this paper.
  4. While the text of “Probabilities Relative to Many Data” does not clearly settle this question, Hosiasson has been read as an early exponent of subjectivism in the philosophy of probability, as highlighted above.

Journal: Studies in History and Philosophy of Science Part A, Volume: 106
DOI: https://doi.org/10.1016/j.shpsa.2024.05.013
PMID: https://pubmed.ncbi.nlm.nih.gov/38852369
Publication Date: 2024-06-08

Janina Hosiasson and the Value of Evidence

Christian Torsell

May 16, 2024

Abstract

I.J. Good’s “On the Principle of Total Evidence” (1967) looms large in decision theory and Bayesian epistemology. Good proves that in Savage’s (1954) decision theory, a coherent agent always prefers to collect, rather than ignore, free evidence. It is now well known that Good’s result was prefigured in an unpublished note by Frank Ramsey (Skyrms 2006). The present paper highlights another early forerunner to Good’s argument, appearing in Janina Hosiasson’s “Why do We Prefer Probabilities Relative to Many Data?” (1931), that has been neglected in the literature. Section 1 reviews Good’s argument and the problem it was meant to resolve; call this the value of evidence problem. Section 2 offers a brief history of the value of evidence problem and provides biographical background to contextualize Hosiasson’s contribution. Section 3 explicates the central argument of Hosiasson’s paper and considers its relationship to Good’s (1967).

Keywords: Janina Hosiasson-Lindenbaum, formal epistemology, probability, induction

1

In 1957, A.J. Ayer’s “The Logical Conception of Probability” was published in the proceedings of a conference on the philosophy of physics held by the Colston Research Society. According to the view referenced in its title, there is an important sense of “probability” in which “what is being asserted when it is said that a statement is probable, in this sense, is that it bears a certain relation to another statement, or set of statements, which may also be described as confirming, or supporting, or providing evidence for it” (Ayer, 12 ). On this view, paradigmatic probability claims take the following form: ” is probable to degree given as evidence” (we’ll follow Ayer, who follows Keynes (1921), in abbreviating this with ” “), where h and e
are propositions and is a real number in the unit interval. On the logical interpretation, the meanings of and uniquely determine the value of . Since the meanings of the relevant propositions are sufficient to determine the probability of the one given the other, probabilities do not depend on the attitudes of any particular agent toward the propositions in question. In this sense, probabilities are objective on the logical conception.
Ayer raises a challenge for this view. Suppose we are considering betting on a horse named “Eclipse” in an upcoming race (Ayer, 13). Let be the statement “Eclipse will win the race”. Let be the statement “Eclipse will be ridden by the champion jockey,” and let be the conjunction of with many other statements pertinent to predicting Eclipse’s performance. Suppose that and . It seems clear that, given that and are among our available evidence (whatever this might mean), we ought to take , and not , as the probability of . At least, we’d certainly prefer to place our bet on on the basis of rather than .
What makes probabilities based on more evidence better than, or preferable as guides to action to, probabilities based on less evidence? According to the logical conception, there is an important sense in which each probability is as good as the other: the probability of really is relative to , just as it really is relative to . It is true, just in virtue of the meanings of and , that and it is true, just in virtue of the meanings of and , that , and it is unclear what grounds we might have for privileging one of these probabilities over the other. Ayer’s objection is that the logical conception of probability lacks the resources to explain why we should prefer probabilities based on more evidence to probabilities based on less evidence. Call the challenge of rationalizing this preference the value of evidence problem.
I.J. Good took on the value of evidence problem in a three-page note titled “On the Principle of Total Evidence,” published in The British Journal for the Philosophy of Science in 1967. The centerpiece of that paper is a short proof of a theorem in Savage’s (1954) decision theory.
In Savage’s decision theory, states and outcomes are taken as primitive, where the set of states represents ways the world might be that are outside an agent’s control and about which she is uncertain (e.g., whether it will rain this afternoon) and the set of outcomes O represents states of affairs the agent ultimately cares about (e.g., whether she gets wet on her afternoon walk). A set of acts is defined as the collection of all functions from to O . Savage proved that, if A is sufficiently rich and an agent has preferences
over acts, represented by a binary relation on , that obey a few coherence constraints taken as requirements of rationality, then her preferences can be represented with a pair consisting of a unique probability function : and a utility function unique up to positive affine transformation such that, for all ,
where denotes expectation relative to .
represents the agent’s degrees of belief about how the world is with respect to , and represents something like the overall desirability of outcomes. This result establishes that (assuming Savage’s constraints on preferences are genuine requirements of rationality) a rational agent’s preferences go by expected utility relative to her probabilistic degrees of belief. So, a rational agent can be represented as an expected utility maximizer.
Notice that in this setting probability is interpreted as a measure of a particular agent’s subjective degrees of belief, not as a logical relation. Probabilities reflect certain of the agent’s attitudes toward the propositions whose probabilities are being considered; they aren’t fixed by the meanings of the propositions alone.
Good has us consider a rational agent facing a decision problem in which she considers a set of acts and a set of mutually exclusive and exhaustive hypotheses . Good’s resolution of the value of evidence problem consists in a proof that if the agent has an opportunity to learn new evidence by making a costless observation, the expected utility of first making the observation and then choosing (from A) on the basis of her expanded evidence is always at least as great as, and possibly greater than, the expected utility of passing up on the new evidence a choosing on the basis of her prior information. This establishes that, if an agent’s preferences are coherent, she must prefer (at least weakly) acting on the basis of probabilities based on more rather than less evidence, assuming the cost of acquiring more evidence is negligible.
Here is a sketch of the proof, following Good’s presentation. Let denote the utility of choosing given that the true state is an element of . Suppose the agent has some evidence (i.e., she knows the true state lies in ) so that her prior probabilities are given by for . Going forward, we will drop reference to the background evidence , writing the agent’s prior probability for simply as . Since
she has coherent preferences, our agent will choose an act which maximizes expected utility relative to these probabilities. Suppose is an expectationmaximizing act. With just E as her evidence, then, the expected utility of our agent’s act is equal to
Now, suppose the agent has the opportunity to perform a costless experiment with possible mutually exclusive and exhaustive outcomes . These outcomes define posterior probabilities over the ,
which describe, for each hypothesis , how her probability for will change upon adding the outcome to her evidence. We might think of these as defining a plan that specifies how the agent will change her belief in each contingent on each possible outcome of the experiment.
Our agent knows that, if she performs the experiment, she will subsequently choose the expected-utility-maximizing act relative to her updated probabilities: that is, given that the observed outcome is , she will choose an act that maximizes the value of . Since the experiment is costless and the prior probability for each is equal to , the expected utility of performing it and acting on her expanded evidence is given by
which is equal to
And since form a partition over , we can rewrite the expected utility of acting without learning the outcome of the experiment (i.e., choosing the act which maximizes expected utility relative to our prior probabilities) as
Note that, for any t and any real-valued function, f , of j and k ,
Letting , it follows that
with strict inequality unless the set of expected-utility-maximizing acts is identical for each possible experimental outcome (and so the additional evidence from performing the experiment makes no difference to the agent’s choice, relative to what she would have chosen on the basis of E alone). So, the expected utility of acting on the basis of the more-informed probabilities is always at least as great, and sometimes greater than, the expected utility of acting on the basis of the less-informed probabilities.
Good notes that his result may be taken as establishing only that, given the opportunity, one should always choose to acquire additional evidence by means of cost-free observation, whereas Ayer raised the value of evidence problem in terms of Carnap’s “Principle of Total Evidence,” which is the injunction to take into account all of one’s currently available evidence in calculating probabilities. The objection is that Good has not resolved the value of evidence problem as Ayer posed it unless he has motivated Carnap’s principle.
Good answers that we can consider our currently available evidence as constituting a kind of record, where consulting the record is itself an observation-one that can be modeled in the same way as the experiment in the sketched proof above. So understood, it is clear that Good’s result has “justified the decision to make this observation and to use it, provided that the cost is negligible” (Good, 320). As long as consulting the record is practically costless, it pays to consult it until our present stock of evidence is exhausted.
Interest in Good’s landmark paper is by no means merely historical. “On the Principle of Total Evidence” has spawned a literature concerning value of evidence results for generalizations of conditionalization. Notable contributions include Graves (1989), Skyrms (1990), and Huttegger (2014). These fruits of Good’s project are well known. Less well known are its seeds.
Neither Ayer’s problem nor Good’s solution were without precedent. Five pages of C.D. Broad’s Perception, Physics, and Reality (1914)-adapted from his 1911 doctoral dissertation-are devoted to difficulties arising in connection with the principle that “we ought to prefer a probability calculated on a wider to one calculated on a narrower basis, even though the man who only had the narrower basis of knowledge had made his calculations properly” (Broad (1914), 151). Seven years after the publication of Broad’s book, John Maynard Keynes’ landmark Treatise on Probability (1921) was published, including a chapter on “The Application of Probability to Conduct” in which Keynes prefigures Ayer’s challenge:
[I]f two probabilities are equal in degree, ought we, in choosing our course of action, to prefer that one that is based on the greater body of knowledge? The question appears to me to be highly perplexing, and it is difficult to say much that is useful about it. But the degree of completeness of the information upon which a probability is based does seem to be relevant, as well as the actual magnitude of the probability, in making practical decisions. Bernoulli’s maxim that in reckoning a probability we must take into account all the information which we have, even when reinforced by Locke’s maxim that we must get all the information that we can, does not seem completely to meet the case. (345-6)
Ayer, then, was preceded by at least Broad and Keynes in highlighting the value of evidence problem. In a 1986 visit to the Frank Ramsey archives at Cambridge, Brian Skyrms discovered that Good’s strategy for resolving the problem has a similarly long history. There, Skyrms found a two-page note titled “Weight, or the Value of Knowledge” in which Ramsey proves a result analogous to Good’s (Skyrms 2006), apparently intended as a resolution to the value of evidence problem as it appeared in Keynes (1921).
Between Ramsey’s note and Good’s paper, there is Savage’s independent proof of the value of information theorem in chapter 7 of The Foun-
dations of Statistics (1954, 125-7). Good himself acknowledges the influence of Raiffa and Schlaifer’s treatment of “The Value of Sampling Information” in their Applied Statistical Decision Theory and a statement of part of his (1967) proof in Lindley’s Introduction to Probability and Statistics (1965). And a footnote in the 1957 Colston proceedings reports that astronomer Ernst Öpik had “produced a purely formal mathematical argument by which he claims to show that if we increase the amount of information on which we calculate probabilities to guide our actions, then the expectation of gain resulting from these actions will increase” (Ayer, 23). (No proof appears in the Proceedings or, as far as I have found, in any other published material).
A less well known forerunner to Good’s argument appears in Janina Hosiasson’s “Why do We Prefer Probabilities Relative to Many Data?” (1931) (henceforth “Probabilities Relative to Many Data”). Born in Warsaw in 1899, Hosiasson was a logician and philosopher closely associated with the LwówWarsaw School. She received her doctorate from the University of Warsaw in 1926, where she wrote a dissertation on the “Justification of Inductive Reasoning” under logician Tadeusz Kotarbínski. Hosiasson would spend the next fifteen years writing extensively (in four languages) on issues related to probability and induction. Little is known about the details of Hosiasson’s professional life after earning her doctorate, though Anna Jedynak (2001) reports that Hosiasson “combined her scientific research with work in a secondary school as a teacher of philosophy” (Jedynak, 97). In 1940, Hosiasson published her best-known work, “On Confirmation,” notable for including the first published discussion of Carl Hempel’s “raven paradox.” Two years later, Hosiasson would be murdered by the Gestapo in Vilnius, where she had fled in the wake of the Nazi invasion of Warsaw in 1939.
“Probabilities Relative to Many Data” was published in January 1931, shortly after a visit to Cambridge spanning the 1929/30 academic year. Hosiasson’s primary interests were well represented at her host university: in addition to Keynes and Broad, Richard Braithwaite, Harold Jeffreys, and Frank Ramsey (until his death in January 1930) were employed by Cambridge at the time. It was likely during this visit that Braithwaite, a lecturer in moral sciences and close friend of Ramsey, shared Ramsey’s then-unpublished
“Truth and Probability” (written in 1926) with Hosiasson. “Truth and Probability” is significant for its defense of a subjectivistic conception of probabilityaccording to which probabilities are interpreted as the degrees of belief of particular agents, in contrast to the Keynesian logical interpretation-and for including a very early example of a representation theorem deriving an expected utility representation of an agent’s choice behavior from her preferences alone. Hosiasson was impressed by Ramsey’s paper, seeing it as developing views about probability close to those she had independently arrived at, and acknowledges its influence on her approach to the value of evidence problem in a footnote in the 1931 paper.
Hosiasson opens “Probabilities Relative to Many Data” by claiming that the probability of a given event depends on the evidence relative to which we consider that event. Hosiasson discusses the evidence-relativity of probabilities in terms of the descriptions under which we consider the relevant events. Different descriptions of some event may include different bits of evidence relevant to assessing how likely it is to occur. So a given event may have different probabilities relative to different descriptions. Hosiasson offers an example:
If we take into account the probability that this card lying face downwards on the table is a court-card [i.e., a jack, queen, or king], we may have regard to the fact that a minute ago somebody has drawn it from a pack of fifty-two playing cards and reckon the probability as ; but we may also, by a nearer examination of the back of the card, find that there is a mark on it, and we may know that amongst the marked cards only are court-cards. After taking the mark into account our probability will be other than before. (Hosiasson 1931, 23)
As in Ayer’s setup, the puzzle arises from the fact that in both cases the probability we assign to the event that the card on the table is a court card is that which we “should take into account” (emphasis mine). That is, both probabilities are, in some sense, “correct,” given our information. But, Hosiasson notes, there seems to be something better about the probability based on the more informative description. Hosiasson devotes the rest of the paper to the question: “Why are we the more satisfied with our probability the more particulars about the given case it takes into consideration?” (24).
Hosiasson considers and rejects several candidate solutions to the value
of evidence problem before presenting the answer which “seems to [her] the most satisfactory” (30) in the paper’s fourth section. In fact, Section 4 includes two closely related arguments. Both arguments concern a decision problem involving repeated bets and invite the reader to compare a case in which the chooser has more information about the events on which she will bet to a case in which she has less.
The first argument shows that, other things being equal, a rational decision maker facing this problem would always in fact realize (weakly) greater gains in this setting if she entered it with more rather than less evidence, on the assumption that the probabilities guiding her choices are equal to the empirical relative frequencies of the relevant events. The second argument aims to explain the value of additional evidence without making strong assumptions relating the bettor’s decision-making probabilities to the empirical frequencies of the events on which she bets. It shows that the sum of expected gains (relative to the bettor’s subjective probabilities) of the individual bets is weakly larger in the case in which the choosing agent has more information relative to the case in which she has less. The remainder of the present paper is dedicated to reconstructing Hosiasson’s arguments and explicating their relationship to the argument of “On the Principle of Total Evidence.”
Though “Probabilities Relative to Many Data” has received much less attention than “On Confirmation,” it has not been entirely ignored. In a paper on the “The Sessions on Induction and Probability at the 1935 Paris Congress” (at which Hosiasson was present), Galavotti (2018) highlights Hosiasson’s suggestive comments about the interpretation of probabilities in connection with Ramsey’s “Truth and Probability.” And the paper receives passing mention in Hilpinen (1970), Peden (2018), Sznajder (2021, 2022), and Horwich (1982). But in none of these works is the connection with Good’s argument discussed explicitly.

3

Hosiasson opens Section 4 by clarifying how probabilities are to be interpreted in the arguments that follow. She explains: “In a considerable number of cases in ordinary life we take account of [probabilities] by considering the amount of something which could be said to be a mathematical expectation” (30). As an illustration, she offers the following example:
A photographer has to decide whether to go or not, tomorrow,
Sunday, to a country town to take some photographs. The photos can be taken only if the weather is fine. Whether he will decide to go or not will not only depend on the probability of fine weather, but also on the gain he may get by going if it is fine and the loss if it rains…he will consider the good he will get by going if it is fine and if it is not fine, on the one side, and the good he will get by not going on the other, and the corresponding probabilities-the whole taken together in the form of a difference of mathematical expectations. (32)
In cases like this one, in which the probabilities we “take into account” are probabilities of individual events, “our procedure consists…in adjusting our action so as to have the biggest mathematical expectation” (35). Hosiasson sometimes uses “gain” and other times “good” to refer to the quantity, representing something like overall desirableness, whose expectation is maximized in rational choice.
That acting so as to maximize expected gain is characteristic of rational choice is taken as axiomatic, though Hosiasson considers the possibility of justifying the recommendation to maximize expected gain by pointing out that, if probabilities are equal to the relative frequencies of the relevant events, then “by choosing the greatest mathematical expectation we get-by the realisation of the frequency-the greatest amount of good. (Compare with Ramsey (1931), who treats the principle of expected utility maximization as a law of human psychology.)
Probabilities as they figure in Hosiasson’s arguments, then, are to be interpreted in terms of their role in guiding rational choice subject to uncertainty. They are the weights used to calculate expected gain for alternative courses of action. The language of “mathematical expectation” may be borrowed from Ramsey, who in “Truth and Probability” (1931) adopts a use of the phrase similar to Hosiasson’s. It is in a footnote following her first characterization of probabilities in terms of mathematical expectations that Hosiasson thanks Braithwaite for furnishing an opportunity to read that paper, and acknowledges a debt to Ramsey for “for clearness on this question,” despite having “previously thought along similar lines” herself (30).
Both of Section 4’s arguments involve a particular decision problem. Consider an event , and let stand for a gamble in which we receive if occurs and if does not occur, and denoting quantities of “good” (33). Suppose that in each of many separate events in which e may or may not occur, we are to choose one gamble from among
. e might, for example, be the event that a certain coin comes up heads. In this example, the coin would be flipped many times, and before each flip, we would asked to choose one from a set of gambles which specify how much “good” we get in the event that the coin comes up heads, and how much “good” we get in the event that the coin comes up tails (or fails in some other way to land heads-up). After each flip, we receive the payoff corresponding to the outcome of the flip according to the gamble we chose.
Hosiasson invites us to compare two versions of this scenario, and . In , “we know in each of the cases only one general description of the event, say , to which we refer its probability [ i.e., the probability of occurring], which is say, ” (33). In that case, we’ll calculate the expected value of each gamble by taking the sum , and, since we’re rational, we’ll choose the gamble that maximizes that value relative to our probability for based on the description : call that gamble (with and as the payoffs we receive if occurs or not, respectively).
In , we get more information:”[W]e consider in the cases another factor, say a character in each case of , and have in of the cases a closer description of the event, say , giving the probability of the cases a closer description of the event, say , giving the probability ;” and so on through , “where are determinates of the determinable C” (33).
For concreteness, we might think of as the event that a coin pulled from a bag containing coins of various colors comes up heads when flipped. Suppose we know that all the coins of a given color have the same (known) bias, but different colors correspond to different biases. Let be the description according to which the coin was drawn from a bag in which the average bias of the coins in that bag is 0.5 (i.e., the “average coin” from the bag is fair), and let be a description that gives the color of the particular coin being flipped. In this case, we may think of as the gamble that maximizes expected gain relative to the probability (since, if all we know about a given coin is that it was drawn from the bag in question, we will expect it to land heads-up with probability 0.5 .) This is the gamble we will choose in each of the coin flips in .
In , we are informed, prior to each trial, of the color of the coin to be flipped-given our background knowledge, this informs us of the bias of the coin to be flipped. Suppose, for example, that says that the coin to be flipped is red, where red coins are known to land heads-up with chance
0.8 , while says that the coin to be flipped is blue, where blue coins land heads-up with chance 0.3 . Suppose further that we set our probabilities for equal to these chances when they are known. Then, in each of the cases in which a red coin is flipped, we will choose the gamble (with an expected value of ) which maximizes expected gain relative to our color-informed beliefs, according to which the probability of the coin landing heads is equal to . Similarly, in the cases in which a blue coin is flipped, we’ll choose (with an expected value of ). In this case, our probability that a given coin lands heads-up may vary from trial to trial, and so which gamble maximizes expected gain may vary between trials, too. So, a rational agent’s pattern of choices may differ between and .
Having established how an expectation-maximizer would choose in and , Hosiasson gives her first argument: if in both cases the frequencies of the relevant outcomes are equal to their probabilities, we will in fact realize more total good in than in . The argument proceeds by showing that the sum of expected gains for each of the trials, with expectation taken with respect to the true empirical frequencies of each outcome, is necessarily no smaller (and is possibly larger) in than in .
Hosiasson assumes in this argument that the probabilities with respect to which we take the expected gain of each gamble are equal to the empirical relative frequencies of the relevant events. In the coin-flipping example above, for example, this assumption would entail that is precisely equal to the proportion of flips of red coins that result in the coin landing heads-up in the cases in which a red coin is flipped. Similarly, is assumed to be identical to the empirical relative frequency of heads-up outcomes among all flips.
Since in both and we choose from among the same set of gambles in each of the cases, is an available option in every choice among gambles we make. So, since we know we will choose the expected value-maximizing gamble in each case, we know that in any of the cases in , we will choose a gamble other than , call it , only if . That is, in any given individual choice in , we will choose a gamble other than only if the expected value of choosing is at least as great as that of choosing . It follows that, for all j ,
and so
Since we assumed that the probabilities guiding our choices are equal to the empirical relative frequencies of the relevant events, we can think of the lefthand side of the above inequality as representing the total amount of “good” we will in fact realize by betting rationally in , while the right-hand side represents how much “good” we will realize by betting rationally in . The direction of the inequality indicates that we will gain more in than in . If there is some such that , then the inequality is strict. Informally: if in any case the extra information we have in makes a difference to our choice (relative to what we would’ve chosen in ), then, assuming probabilities to be equal to relative frequencies, we gain strictly more in than in .
This is the first argument: assuming that an agent’s probability for each event she considers is equal to the empirical relative frequency of that event, then given that an agent acts to maximize expected “good,” she will always realize at least as much “good,” and sometimes more, in the setting in which her probabilities are based on more evidence ( ) than in an otherwise identical setting in which her probabilities are based on less evidence ( ).
Hosiasson is not satisfied that this argument gives an adequate response to her central question. As the title of her paper indicates, Hosiasson’s goal is to rationalize our preference for probabilities based on more evidence over less-informed probabilities, and for Hosiasson there is no necessary connection between probabilities and relative frequencies. In her first argument, Hosiasson takes the proposition that probabilities are equal to relative frequencies as a substantive assumption, and she clearly treats “taking account of gains and expectations” as conceptually distinct from “foreseeing frequencies” (34). So the first argument, insofar as its central result depends on the assumption that probabilities of events are equal to their relative frequencies, does not settle the matter, from Hosiasson’s perspective.
In developing her second argument, Hosiasson deals as far as possible in “expectations and gains” alone, avoiding assumptions tying probabilities to frequencies of events. This argument is meant to establish that
If we took for granted that the best way of acting in different cases is to act so as to make the sum of mathematical expecta-
tions as big as possible (without trying to explain this rule by assuming frequencies to be equal to probabilities), then we could show that we act in a better way, if we take account, in particular cases, of probabilities relative to more data, without assuming all frequencies to be equal to probabilities in the considered group of cases. (35)
Hosiasson admits that even this argument will not entirely eliminate assumptions about frequencies: “It is…sufficient to assume only that frequencies of cases with different descriptions are equal to their probabilities; i.e. …it is sufficient that occurs in of cases of (its probability being ) for . The assumption that has been dropped is that the probabilities of the possible outcomes of each trial are equal to their relative frequencies. More is said about this assumption-and, more generally, about the role of frequencies in Hosiasson’s arguments-below.
Hosiasson’s second argument invites us to compare the sum ranging over the expected values (in terms of good/gain) of each member of the sequence of bets we make in (on the implicit assumption that we expect with certainty that in each bet we will choose so as to maximize expected value) to the same quantity for . In the case of , we have
Whereas for , we have
By the same mathematical reasoning deployed in the first argument, we have it that
with strict inequality if the additional information in makes any difference to the gambles we expect to pick.
The role played by relative frequencies in both these arguments is puzzling. As we’ve seen, in setting up the arguments of Section 4, Hosiasson characterizes probability in terms of subjective uncertainty and indicates her sympathy with Ramsey’s “Truth and Probability.” But for a Ramseystyle subjectivist, the assumption that the bettor’s degrees of belief are equal to the empirical relative frequencies of the events she bets on is hard to motivate. If Hosiasson’s interpretation of probabilities really is Ramsey’s , include this argument?
Hosiasson is characteristically terse in “Probabilities Relative to Many Data”; the text itself does not resolve, or even raise, this puzzle. One possibility is that the inclusion of the first argument reflects the influence of Jan Łucasiewicz, an influential student of Kazimierz Twardowski (as was Hosiasson’s doctoral advisor, Kotarbinski) and professor of philosophy at the University of Warsaw from 1915 until 1939 (excepting a one-year break in 1919-20 to serve in the Polish government). Lucasiewicz defended a logical conception of probability with a frequentist flavor. In Die Logische Grundlagen der Wahrscheinlichkeitsrechnung (1913), Łucasiewicz identified probability with a non-standard notion of truth value. In his system, given a formula containing a free variable ranging over a finite set , the truth value of is given by the ratio , where is the set of all elements of such is made into a true sentence when is substituted for (see Niiniluoto, 328). As Ilkka Niiniluoto (1998) notes, when “translated into terms more familiar in probability theory,” it is clear that “his definition is equivalent to saying that probability is the relative frequency of an attribute in a reference class”: “An indefinite proposition like ‘ is black’ corresponds to an attribute (being black) of objects or events, and the range of variable is the reference class” (Niiniluoto, 328). Given Łucasiewicz’s considerable influence in the intellectual milieu he shared with Hosiasson, we might speculatively interpret the first argument as an effort to explicate the value of more-informed probabilities in a way that would be compelling to those with views closer to Łucasiewicz’s than Ramsey’s (leaving what Hosiasson herself regarded as the stronger argument for later).
Even if this speculative suggestion is right, it leaves unexplained the assumption relating the probabilities and empirical frequencies of the in the second argument. It seems clear that Hosiasson does not need that
assumption to get the desired inequality. In fact, probabilities for the do not show up anywhere in Hosiasson’s equations. The sum of expected gains for simply takes the total expected gain for choosing, in all of the trials in which obtains, the expectation-maximizing gamble to be equal to a fixed value multiplied by the expected gain of choosing in a single trial in which obtains. No expression of the form ” ” appears anywhere. This suggests an interpretation on which Hosiasson’s bettor already knows how many trials will satisfy each when she calculates expected gains in anticipation of the gambling problem. Hosiasson does not make clear whether this is the interpretation she had in mind. But the absence of reference to the probabilities of the outside the quotation expressing the assumption that those probabilities be equal to their empirical relative frequencies makes it difficult to identify the role she intended that assumption to play in her second argument.
The reliance on assumptions about empirical frequencies marks a difference between Hosiasson’s and Good’s resolutions to the value of evidence problems-all the probabilities that appear in Good’s argument are interpreted as subjective degrees of belief. But of course, the mathematics at the heart of their arguments is not affected by different interpretational choices.
Besides the different approaches to the interpretation of the probabilities that appear in their results, there are some other differences between Good’s and Hosiasson’s arguments. The central result in Hosiasson’s paper concerns a special, highly structured decision problem (though she suggests that “we could try to justify our desire for closer [i.e., more informative] descriptions in other more complicated cases in a similar way” [34]). Good’s result is more general. Another difference, of course, is that Good’s result is proved as a theorem of Savage’s decision theory, which would not be developed until after well after the publication of “Probabilities Relative to Many Data.”
What I want to highlight is that, despite these differences, Hosiasson’s argument is substantially similar to Good’s. Like Good, Hosiasson offers a resolution to the value of evidence problem appealing to a principle of practical rationality. And although Hosiasson did not have the benefit (as Good did) of writing after significant development of decision theory as a mature discipline in its own right, her argument is developed within a proto-decision-theoretic framework. For Hosiasson, as for Good, the reason we should prefer to act on the basis of probabilities based on more rather than less evidence is that, other things equal, the expected utility
of making a more informed choice is always greater than or equal to the expected utility of making the same choice with less information. Since for both Hosiasson and Good rationality requires one’s preferences to go by expected utility (Hosiasson’s “mathematical expectation”), it follows that, other things equal, we violate a norm of rationality if we do not prefer acting on the larger evidentiary basis to acting on the smaller. This is a kind of pragmatic solution: as Hosiasson notes, “The answer…this paper gives, i.e. taking gains or mathematical expectations into account, could be considered an epistemological answer only from a pragmatistic point of view” (36).
It is notable that Good suggests that the primary contribution of “On The Principle of Total Evidence” lies in highlighting the relationship between Ayer’s problem and practical rationality: “Perhaps the main value of the present note is that it makes explicit the connection between Carnap’s principle of total evidence and the principle of rationality [ i.e., the principle that rational choice maximizes expected utility], a connection that was overlooked by seventeen distinguished philosophers of science [ i.e., Ayer and the discussants of his paper at the Colston conference]” (321). It is striking that Hosiasson, like Ramsey, saw Good’s central point more than thirty years before the publication of “On the Principle of Total Evidence.”

References

[1] Ayer, A. J. (1957). The conception of probability as a logical relation. In Observation and Interpretation, ed. by S. Körner. London: Butterworths. Pages 12-30, including discussion.
[2] Broad, C. D. (1914). Perception, physics, and reality: an enquiry into the information that physical science can supply about the real. Cambridge: Cambridge University Press.
[3] Galavotti, M. C. (2018). The sessions on induction and probability at the 1935 Paris Congress: An overview. Philosophia Scientiæ. Travaux d’histoire et de philosophie des sciences, 22(3), 213-232.
[4] Good, I. J. (1967). On the principle of total evidence. British Journal for the Philosophy of Science, 17(4), 319-321.
[5] Graves, P. R. (1989). The total evidence theorem for probability kinematics. Philosophy of Science, 56(2), 317-324.
[6] Hilpinen, R. (1970). On the information provided by observations. In Information and inference, pp. 97-122. D. Reidel Publishing Company.
[7] Horwich, P. (1982). Probability and evidence. Cambridge: Cambridge University Press.
[8] Hosiasson, J. (1931). Why do we prefer probabilities relative to many data?. Mind, 40(157), 23-36.
[9] Hosiasson-Lindenbaum, J. (1940). On confirmation. The Journal of Symbolic Logic, 5(4), 133-148.
[10] Huttegger, S. (2014). ‘Learning experiences and the value of knowledge’. Philosophical Studies, 171(2):279-288.
[11] Janssen-Lauret, F. (2021). Women in logical empiricism. In The Routledge handbook of logical empiricism, pp. 127-135. London: Routledge.
[12] Jedynak, A. Janina Hosiasson-Lindenbaum-The logic of induction. In Poznan Studies In the Philosophy of the Sciences and the Humanities, vo. 74 (W. Krajewski, ed.), pp. 97-101. Amsterdam: Editions Rodopi.
[13] Keynes, J.M. (1921). A treatise on probability. London: MacMillan.
[14] Lindley, D. V. (1965). Introduction to probability and statistics, part 2. Cambridge: Cambridge University Press.
[15] Niiniluoto, I. (1998). Induction and probability in the Lvov-Warsaw school. In The Lvov-Warsaw School and Contemporary Philosophy (pp. 323335). Dordrecht: Springer Netherlands.
[16] Peden, W. (2018). Imprecise probability and the measurement of Keynes’s “weight of arguments”. Journal of Applied Logics—IFCoLog Journal of Logics and their Applications, 5(3), 677-707.
[17] Raiffa, H. and Schlaifer (1961). Applied statistical decision theory. Boston: Graduate School of Business Administration, Harvard University.
[18] Ramsey, F. P. (1926). “Truth and probability”. In D. H. Mellor, ed., Philosophical Papers, Cambridge: Cambridge University Press (1990).
[19] Ramsey, F. P. (1990). Weight or the value of knowledge. The British Journal for the Philosophy of Science, 41(1), 1-4.
[20] Skyrms, B. (2006). Discovering “Weight, or the value of knowledge”. In Galavotti, M.C. (eds) Cambridge and Vienna. Vienna Circle Institute Yearbook [2004], vol 12. Springer, Dordrecht.
[21] Skyrms, B. (1990). ‘The value of knowledge’. Minnesota Studies in the Philosophy of Science, 14:245-266
[22] Sznajder, M. (2021). Probability in logical empiricism. In The Routledge Handbook of Logical Empiricism, pp. 220-228. London: Routledge.
[23] Sznajder, M. (2022). Janina Hosiasson-Lindenbaum on analogical reasoning: new sources. Erkenntnis. https://doi.org/10.1007/s10670-022-00586-y.

  1. Good treats this statement as a lemma, offering a very short proof on p. 320 of his (1967).
  2. Hosiasson published under multiple names, including “Lindenbaum” and “HosiassonLindenbaum” following her marriage to Adolf Lindenbaum in 1935. For simplicity, I follow Marta Sznajder in using “Hosiasson” throughout this paper.
    Although Hempel would not publish on the problem until 1945, he had shared a version of it with Hosiasson in conversation when the two met in 1937 (Niiniluoto, 332).
  3. See Section 3 of this paper.
  4. While the text of “Probabilities Relative to Many Data” does not clearly settle this question, Hosiasson has been read as an early exponent of subjectivism in the philosophy of probability, as highlighted above.