Çayın mı Yoksa Sütün mü Önce Konulduğunu İçerek Anlama Deneyi: Lady Testing Tea

Bir İngiliz çayı içeceksiniz, peki bu çaydaki sütün mü yoksa çayın mı önce konulduğunu anlayabilir misiniz? Böyle bir deney yapılmış 20. Yüzyıl'ın ilk yarısında.
Çayın mı Yoksa Sütün mü Önce Konulduğunu İçerek Anlama Deneyi: Lady Testing Tea

lady tasting tea, genetikçi, biyolog ve istatistikçi ronald fisher'ın eseri the design of experiments'ta ele aldığı bir deney tasarımıdır. detaylı açıklaması kitabın ikinci bölümü olan the principles of experimentation: illustrated by a psycho-physical experiment'ın başlangıcında okunabilir. (link)

deneyde bir kadın bir fincan sütlü çayı tadarak sütün mü yoksa çayın mı ilk önce bardağa koyulduğunu anlayabileceğini beyan eder. amaç, 4 tane sütün ilk önce koyulduğu, 4 tane çayın önce koyulduğu fincanı kullanarak kadının sadece şans ile doğru tahmin edebileceği fincan sayısını hesaplamak ve iddianın doğruluğu üzerinde bir çıkarım yapmaktır. kadının görevi fincanları 4'erli olarak, çay ve sütün koyulma sırasına göre iki gruba ayırmaktır, bunun için de aynı gruptan 4 fincanı doğru sınıflandırarak seçmesi gerekir.

Ronald Fisher

burada null hypothesis, kadının böyle bir yeteneğinin olmadığıdır ve deneyde istatistikteki p değeri üzerinden akıl yürütülerek bir çıkarım yapılabilir.

Null hypothesis: Esas teorinin söylediği şeyin tam tersi.

bunun için, kadının bu tür bir yeteneğinin olmadığını varsayıp tamamen rastgele bir biçimde ortaya çıkabilecek olan olası başarıların tüm olasılıklara oranını hesaplamak gerekir.

toplamda 8 olmak üzere doğru seçilmesi gereken 4 bardağın olduğu düşünülürse, kombinasyon hesabı:

8!/ (4! x 4!) = 70 sonucunu verir.

matematiksel olarak kadının 4 fincanın hepsini de yanlış gruba koyma olasılığı 1/70, 3 fincanı yanlış gruba koyma olasılığı 16/70, yarısını yanlış gruba koyma olasılığı 36/70, yalnızca 1 hata yapma olasılığı 16/70 ve hepsini doğru sınıflandırma olasılığı 1/70'tir.


elde edilen hipergeometrik dağılımda önem arz eden olasılıklar

kadının hiç hata yapmaması -> 1/70 = 0.01428
4 bardaktan en az 3'ünü tutturması -> (16+1)/70 = 0.2428

şeklinde görülür.

p değerine göre:


0.01428 < 0.05 iken, 0.2428 > 0.05 olduğundan kadının 4 bardaktan 3'ünü tutturması istatistiksel olarak önemsiz kabul edilir. bu da kadının yapacağı tek bir hatanın performansını anlamlılık seviyesinin altına düşüreceği mânâsına gelir.

peki kadın bu durumda "yine de çoğunu doğru bildim." diyemez mi? diyebilir.

böyle bir durumda da deney ya tekrar edilir ya da elemanlar genişletilir.

1927'den Beri Düşen Damlaları Kimse Görmediği İçin Efsaneleşen Zift Damlası Deneyi