Apesar de haver pelo menos cinco tipos de probabilidade, conseguimos safar-nos só com um.
O matemático, o estatístico e o filósofo fazem coisas diferentes com uma teoria da probabilidade. O matemático desenvolve as suas consequências formais, o estatístico aplica o trabalho do matemático e o filósofo descreve em termos gerais em que consiste esta aplicação. O matemático desenvolve instrumentos simbólicos sem se preocupar muito com o seu uso; o estatístico usa-os; o filósofo fala acerca deles. Cada qual faz melhor o seu trabalho se souber algumas coisas sobre o trabalho dos outros dois.
Que tem a probabilidade que interesse aos filósofos? É sobretudo a questão de a probabilidade poder ser definida em termos de algo que não ela própria e, caso contrário, como se usa a ideia de probabilidade, o que significa, quais são as matizes do seu significado. Conseguiremos verificar que a probabilidade existe, ou teremos de nos contentar em dizer como se usa tal coisa? É a teoria do “uso”, quanto ao significado, mais apropriada do que a da “verificação”? Parece-me que a tarefa do filósofo é sobretudo descrever o que se faz ou se pensa no momento preciso em que se usa a ideia de probabilidade.
A nossa pergunta principal é esta: há tipos diferentes de probabilidade? A pergunta é análoga a “Há tipos diferentes de vida?” Num certo sentido, há dois tipos de vida: animal e vegetal; noutro, há tantos tipos de vida quantos os géneros e as espécies; e noutro ainda só há um tipo de vida, pois é indivisível e até a distinção entre animais e vegetais é enganadora em alguns contextos. (De facto, até a distinção entre a vida e a matéria inanimada pode enganar as pessoas a ponto de fazê-las pensar que a evolução é impossível.) Grande parte da controvérsia acerca da teoria da probabilidade é semelhante. De alguns pontos de vista, há pelo menos cinco tipos de probabilidade; de outro, podem todos ser definidos em termos de um só tipo. Irei elaborar este comentário e começarei por descrever alguns tipos de probabilidade. A classificação de diferentes tipos de probabilidade é metade do problema da filosofia da probabilidade.
Há alguns milhares de milhões de anos, uma partícula anónima de protoplasma projectou-se no primeiro pseudopódio primitivo do lodo primevo, e ocorreu talvez o primeiro estado de incerteza. Há milhares de anos, palavras como talvez, chance, sorte e destino foram introduzidas nas linguagens. Se uma teoria é um método de uso da linguagem, poderíamos dizer que as teorias da probabilidade têm milhares de anos. Mas muitas vezes um uso da linguagem não é dignificado com a denominação teoria, a menos que se tenha feito um verdadeiro esforço para descrever esse uso com precisão: uma teoria, pois, não é apenas conversa, é também conversa acerca da conversa. (Os filósofos da ciência conversam acerca da conversa acerca da conversa.) Assim, quando Aristóteles (cerca de 300 a.C.) disse que “o provável é o que acontece habitualmente”, e quando Cícero (cerca de 60 a.C.) descreveu a probabilidade como o “guia da vida”, formularam teorias primitivas da probabilidade e do comportamento racional. Dificilmente podemos dizer se tais teorias tiveram resultados práticos; em qualquer caso, os romanos da antiguidade faziam seguros, e Domício Ulpiano (cerca de 200 d.C.) compilou uma tabela da esperança de vida.
As ideias matemáticas, contudo, datam apenas de há algumas centenas de anos. Um comentário de 1477 no Purgatório de Dante apresenta as probabilidades de vários resultados quando três dados são lançados. Talvez a aplicação visada fosse a cleromancia (a arte de adivinhar pelos dados). No século XVI, Cardan, um jogador inveterado, fez vários cálculos simples de probabilidade úteis para os jogadores. Definiu a probabilidade como uma “proporção de casos igualmente prováveis”; por exemplo, dos 36 resultados possíveis de lançar dois dados, três dão um total de 11 ou mais pontos, de modo que a probabilidade deste acontecimento é definido como 1/12 se os 36 resultados possíveis forem igualmente prováveis. A definição em termos de casos igualmente prováveis é habitualmente denominada “clássica”.
A origem da teoria matemática da probabilidade não é habitualmente atribuída a Cardan, mas antes a Pascal (1654) que, em correspondência com Fermat, resolveu os primeiros problemas matematicamente não-triviais. O primeiro livro sobre o tema, com alguma profundidade, foi publicado pouco depois por Huygens.
Todos estes autores se ocupavam de jogos de azar, e apesar de definirem a probabilidade como uma proporção de casos igualmente prováveis, o que pretendiam teve de ter sido a explicação da razão pela qual ocorriam repetidamente certas frequências proporcionais de sucesso. Sem que tenham sido explícitos quanto a isso, estavam a tentar explicar um tipo de probabilidade em termos de outro. James Bernoulli foi muito mais explícito quanto a isso, na sua famosa obra Ars Conjectandi, publicada em 1713, oito anos depois da sua morte. A sua “lei dos grandes números” estabelece que em n “ensaios”, cada um com a probabilidade p de sucesso, o número de sucessos será muito provavelmente próximo de pn, se n for elevado. Por exemplo, se a probabilidade de uma moeda sair caras for exactamente 1/2, e se for lançada mil vezes, então o número de caras é improvável que difira muito de 500; mais precisamente, a proporção de caras é improvável que difira muito de 1/2. De facto, o número de caras irá muito provavelmente situar-se entre 470 e 530. Num milhão de lançamentos o número de caras situar-se-á muito provavelmente entre 499 000 e 501 000. Estes resultados baseiam-se no pressuposto de que a probabilidade de sair caras é 1/2 em cada lançamento, independentemente dos resultados dos lançamentos anteriores. Por outras palavras, os ensaios têm de ser “causalmente independentes”. Bernoulli não esclareceu que os ensaios têm de ser causalmente independentes e que pn tem de ser elevado. Se a sua probabilidade, p, de ganhar uma lotaria for de 1/1 000 000, então o teorema de Bernoulli não seria aplicável até o leitor ter jogado vários milhões de vezes (e seria então demasiado velho para se importar com o caso).
Bernoulli provou o seu teorema pressupondo que a probabilidade, p, se definia como uma proporção de casos igualmente prováveis. Mas tentou aplicar o teorema a questões sociais, nas quais esta definição dificilmente é apropriada. Pior: é de esperar que a probabilidade seja variável.
Mesmo nos jogos de azar a definição clássica não é inteiramente satisfatória, pois os jogos podem estar viciados. Um jogo de azar não está viciado quando as probabilidades aparentemente iguais “são realmente” iguais. Para dar a esta definição de jogo não-viciado alguma substância temos de distinguir de novo entre dois tipos de probabilidade. Considere-se, por exemplo, a probabilidade de ao cortar um baralho comum de cartas a última carta inferior ser vermelha, uma ocorrência que irei denominar “sucesso”. Dado que metade das cartas são vermelhas e metade pretas, pareceria que a probabilidade seria 1/2 se o baralho não estiver viciado, e se foram baralhadas sem vício. Mas se a parte da frente das cartas vermelhas estiver suja e pegajosa, então é mais provável que no fundo fique uma carta preta. Se soubéssemos que as cartas vermelhas tinham superfícies frontais pegajosas, preferiríamos apostar numa carta preta, numa “aposta nivelada”. Mas caso não o soubéssemos, então a probabilidade seria mesmo assim 1/2 para nós. Mesmo que admitíssemos a possibilidade de estarem pegajosas, as cartas pretas têm a mesma probabilidade de estar mais ou menos pegajosas, a não ser que tenhamos informação complementar. Para nós, o primeiro corte tem 1/2 de probabilidade de ser de sucesso.
Podemos ter um oponente que sabe que as cartas vermelhas estão mais pegajosas. Para ele, a probabilidade não é a mesma que para nós. Este exemplo mostra que a probabilidade pessoal, ou subjectiva ou lógica depende da informação disponível e não apenas do acontecimento cuja probabilidade se pretende calcular. É por esta razão que se usa notação da forma
P(E|F)
Lida da esquerda para a direita (como todas as boas notações), quer dizer “a probabilidade de E dado F”. Por questões de generalidade, E e F podem ser interpretadas como proposições. Esta notação (ou outras equivalentes) tornou-se canónica no presente século. Nesta notação, as probabilidades que acabámos de discutir são
P(a carta inferior é vermelha | as cartas foram bem baralhadas)
e
P(a carta inferior é vermelha | as cartas foram bem baralhadas, segundo padrões comuns, mas as vermelhas têm superfícies frontais pegajosas).
É de prever que o uso do traço vertical, ou de outra notação equivalente, nos salve dos erros que podem surgir quando se fala simplesmente da “probabilidade de a carta inferior ser vermelha”, sem referir a informação “dada” (= pressuposta).
Suponha-se que o nosso oponente fez variadíssmas experiências e decidiu que a proporção de sucessos no longo prazo é de 0,47 (e não 1/2). Podemos ter a tentação de dar a isto a designação de “verdadeira probabilidade”, ou “probabilidade física”, ou “probabilidade material”, ou “chance” ou “propensão”, e de encará-la como se tivesse um significado impessoal, público ou objectivo. Considere-se ou não que a probabilidade física é diferente da pessoal, privada, intuitiva, subjectiva ou lógica, é muitas vezes conveniente falar como se o fosse. Irei de seguida argumentar, contudo, que o seu valor numérico pode ser definido em termos de probabilidade subjectiva.
Uma probabilidade física é a probabilidade de um “sucesso” dada a “configuração experimental”. De modo que também no caso das probabilidades físicas é conveniente ter uma notação da forma
P(E|F)
Podemos distinguir entre verdadeiras probabilidades, e probabilidades hipotéticas, dependendo de a configuração experimental ser verdadeira ou hipotética. Por exemplo, podemos pegar num baralho real de cartas e discutir a probabilidade de a carta inferior ser vermelha “dado” (= pressupondo) que todos os paus foram retirados. Esta probabilidade faz sentido mesmo que os paus não tenham de facto sido retirados, e a probabilidade será então “hipotética” e não “verdadeira”. Acontece que é decididamente útil falar tanto de probabilidades hipotéticas como de verdadeiras.
Podemos imaginar um cientista que poderia analisar os químicos presentes nas cartas e depois computar a probabilidade de sucesso usando a teoria quântica. Mas isto seria muitíssimo diferente da simetria simples que conduziu Cardan e Pascal aos juízos de probabilidade igual, ou da simetria lógica que nos levou a considerar que tanto as pretas como as vermelhas têm a mesma probabilidade de estar mais pegajosas. Já é talvez claro que a definição clássica, por mais sugestiva, não é de modo algum suficientemente geral para abranger todos os usos da palavra probabilidade.
A maior parte das aplicações da teoria da probabilidade às ciências sociais são mais como jogos de azar viciados do que não-viciados. Se n fumadores receberem questionários e r deles se recusarem a preenchê-los, qual é a probabilidade, p, de o próximo fumador seleccionado se recusar a preencher o questionário? E qual é a proporção de todos os fumadores que irão recusar-se a fazê-lo? Ao passo que o teorema de Bernoulli parte de um conhecimento de p para chegar à informação do número de “sucessos” na amostra, a resposta aqui parece exigir o processo inverso. Uma estimativa simples de p é r/n, mas se r for pequeno isto pode ser uma má estimativa, especialmente se r = 0. (Dizer que a probabilidade de um acontecimento é 0 é dizer que o acontecimento é infinitamente improvável. Esta asserção não se justifica só porque houve 100 por cento de fracassos anteriores.) Por vezes, r/n é encarado como uma definição de probabilidade; pode-se-lhe chamar definição “ingénua”.
Uma tentativa melhor de “inverter o teorema de Bernoulli” foi levada a cabo por Thomas Bayes, num artigo publicado postumamente em 1763. O método é conhecido como “probabilidade inversa”, e foi-lhe dado um lugar de destaque na obra de Laplace, Théorie analytique des probabilités (1812). Pode-se dizer também que é o método Bayes-Laplace de inferência estatística. Na terminologia moderna, o princípio da probabilidade inversa pode ser expresso em termos de probabilidades “iniciais”, “finais” e “estimativas”. A probabilidade inicial de uma hipótese (também denominada probabilidade “anterior”) é a sua probabilidade antes de se fazer uma experiência qualquer. (Pode ter havido ou não experiências ou dados anteriores, de modo que a denominação “a priori” é inapropriada.) A probabilidade final é a probabilidade depois de se ter feito a experiência. Estas probabilidades são diferentes, em geral, porque a informação dada é diferente. A estimativa de uma hipótese é a probabilidade, dada essa hipótese, do próprio resultado da experiência.
Por exemplo, suponha-se que se tem duas hipóteses acerca de uma moeda, que não está viciada ou que tem duas caras, e suponha-se que as probabilidades iniciais destas duas hipóteses são iguais, ou seja, cada uma é de 1/2. Suponha-se agora que a moeda é lançada dez vezes e que sai sempre caras. As estimativas das duas hipóteses são então 2–10 = 1/1024 e 1.
O teorema de Bayes é, com efeito, que a probabilidade final de uma hipótese é proporcional à sua probabilidade inicial vezes a sua estimativa. No nosso exemplo, as probabilidades finais são consequentemente proporcionais a 1/1024 e 1. Logo, a probabilidade final de a moeda ter duas caras é de 1024/1025: é quase certa.
Apesar de a exposição de Laplace ser mais clara do que a de Bayes, ele pressupôs descaradamente que as probabilidades iniciais eram sempre iguais, ao passo que Bayes foi mais modesto. Laplace pressupôs, por exemplo, que uma probabilidade física desconhecida, p, era inicialmente (ou seja, antes de quaisquer observações) indiferentemente capaz de “tomar qualquer valor” entre 0 e 1; pressupôs, por exemplo, que cada intervalo (0; 0,01), (0,01; 0,02), …, (0,99; 1,00) tinha a probabilidade inicial de 0,01. Nas aplicações, p é aquilo a que estamos a chamar uma probabilidade física “lá fora”, ao passo que a probabilidade 0,01 é um tipo mais subjectivo de probabilidade. Porque pressupôs uma “distribuição uniforme” de probabilidades entre 0 e 1, Laplace demonstrou a sua denominada “lei da sucessão”. Esta determina que depois de r “sucessos” em n “testes”, pode-se ter uma estimativa de p como
(r + 1)/(n + 2)
Por exemplo, depois de um sucesso em dois testes, a estimativa de p é 1/2; depois de um sucesso num teste, a estimativa de p é 2/3; depois de nenhum sucesso num teste, a estimativa de p é 1/3; depois de nenhum sucesso em nenhum teste, a estimativa de p é 1/2. A fórmula está aberta a disputa, e foi muitas vezes disputada. Conduz, por exemplo, à conclusão de que seja o que for que tenha ocorrido num dado período de tempo, tem uma probabilidade de 1/2 de continuar a ocorrer no mesmo período de tempo. Isto não me parece uma regra geral demasiado má se for aplicada com bom senso.
A probabilidade inversa não é de modo algum o único método de inferência estatística. Há, por exemplo, um método importante conhecido como “estimativa máxima”, usado por vezes por Daniel Bernoulli (1777), Gauss (1823) e especialmente Fisher (1912). Neste método, selecciona-se a hipótese cuja estimativa seja um máximo, definindo-se “estimativa” como anteriormente. No caso da experiência simples de amostragem já mencionada, o método da estimativa máxima conduz à estimativa ingénua r/n, que na minha opinião não é um resultado tão bom quanto o obtido com a lei da sucessão de Laplace.
Uma objecção conhecida ao uso da probabilidade inversa é que as probabilidades iniciais não podem habitualmente ser determinadas por meio de regras inequívocas. O método da estimativa máxima é inequívoco, e não permite tão facilmente a batota, consciente ou não. Mas no caso de amostragens pequenas pode levar a conclusões absurdas. O método da probabilidade inversa, ainda que seja mais arbitrário, nunca leva ao absurdo a menos que seja dogmaticamente combinado com o pressuposto de que as probabilidades iniciais ou hipóteses alternativas são invariavelmente iguais.
Um dos truques de Laplace foi usar a expressão “casos igualmente possíveis” em vez de “casos igualmente prováveis”, fingindo desse modo que tinha definido a probabilidade completamente. Não são muitas as pessoas que hoje se deixam levar por este truque verbal.
Leslie Ellis (1843), A. Cournot (1843), G. Boole (1854) e J. Venn (num tratado completo, 1866), não se deixaram levar. Perguntaram, por exemplo, como se podia provar que um dado não estava viciado a não ser lançando-o um grande número de vezes. Propuseram-se resolver o problema da inversão do teorema de Bernoulli definindo simplesmente a probabilidade física em termos da frequência longa (“frequentismo”).
Se a roda de uma roleta for accionada 300 vezes e o 7 nunca sair, devemos considerar que a probabilidade de sair 7 na próxima vez é de 1/37 (o seu valor “oficial”), ou 0, ou algum valor intermédio? Esta pergunta simples expõe a fraqueza tanto da posição de Laplace quanto do frequentismo puro. O frequentista recusar-se-ia talvez a fazer qualquer estimativa e diria “gira a roda mais umas centenas de vezes”. Por falta de espaço abandono esta questão e irei considerar outra ainda mais simples.
Suponha-se que uma máquina de lançar moedas é posta a trabalhar e produz a sequência
HTHTHTHTHTHTHTHTHTHT1
A proporção de caras é precisamente 1/2 e parece razoável prever que o “limite de Venn”, ou seja, a proporção-limite de caras se a sequência continuar infinitamente, será também de 1/2. Contudo, ninguém diria que o lançamento das moedas não está viciado. Este tipo de dificuldade foi reconhecido por Venn mas não foi adequadamente enfrentado. R. von Mises (1919) propôs uma nova teoria frequentista das probabilidades baseada na noção de sequências aleatórias infinitamente longas — a que chamava “colectivos irregulares”. A propriedade principal de um colectivo irregular é que a proporção de “sucessos” (caras, digamos) é a mesma em todas as sub-sequências previamente seleccionadas. Esta propriedade relaciona-se de perto com a impossibilidade de um sistema bem-sucedido de jogos. Um colectivo irregular é uma abstracção como um ponto na geometria euclidiana. Von Mises fazia uma distinção clara entre a teoria matemática ou abstracta e o problema da sua aplicação. Foi talvez a primeira pessoa a tornar esta distinção explícita no caso da teoria da probabilidade ou, por outras palavras, a advogar o “método axiomático” de Euclides. Mas depois de fazer a distinção, ignorou praticamente o problema filosófico da aplicação. Afirmou, como os frequentistas do século XIX, que nas aplicações as sequências têm de ser longas, mas não disse quão longas; tal como o geómetra poderia dizer que os pontos têm de ser pequenos antes de serem denominados “pontos”, sem contudo dizer quão pequenos. Mas o estatístico moderno usa muitas vezes amostras; é como alguém que desenha esboços com um lápis por afiar. Gostaria de saber quão longo é o longo. Como disse J. M. Keynes, “No longo prazo estaremos todos mortos”.
Se um frequentista for interrogado sobre quão longo é o longo prazo, é possível deduzir algo acerca das probabilidades iniciais implícitas que está usando. Isto pode ser feito algebricamente, pressupondo que as probabilidades iniciais existem como “desconhecidos”, aplicando a teoria da probabilidade, incluindo o teorema de Bayes, deitando mão dos juízos do frequentista e finalmente resolvendo as probabilidades iniciais desconhecidas (ou obtendo os seus limites superiores e inferiores). Deste modo, pode-se ver que o frequentista , apesar de o negar, se comporta como se tivesse juízos acerca das probabilidades iniciais das hipóteses. Ou poderá ser apanhado em contradição.
Como Venn, von Mises restringiu deliberadamente a generalidade da teoria a situações em que a definição de frequência longa parecia razoável. Tinha o direito de o fazer mas não tinha justificação para não tolerar teorias que tentam ir mais longe, e especialmente as que se ocupam mais do problema filosófico da aplicabilidade.
Entre outros matemáticos brilhantes desde von Mises que desenvolveram a teoria matemática, talvez Kolmogorov mereça especial menção. A maior parte destes matemáticos dedicaram-se à teoria matemática e às suas aplicações, mas muito menos ao problema filosófico da aplicabilidade. Entre os que disso se ocuparam contam-se o filósofo W. E. Johnson, os seus dois alunos J. M. Keynes2 e H. Jeffreys,3 F. P. Ramsey,4 B. de Finetti,5 B. O. Koopman,6 R. Carnap,7 B. Russell,8 I. J. Good9 e L. J. Savage.10
Alguns destes autores são dualistas e sustentam que devemos falar acerca de dois tipos de probabilidade. Outros põem a maior parte da ênfase na interpretação subjectivista ou lógica. Irei aqui limitar-me a fazer um sumário de algumas das minhas próprias perspectivas, que de uma maneira ou de outra se relacionam de perto com as dos outros autores mencionados. A teoria pode razoavelmente ser denominada “neoclássica” ou “neo-bayesiana”, pois os seus oponentes são sobretudo frequentistas, e dado que devolve ao teorema de Bayes uma posição de destaque da qual havia sido despromovido pelos estatísticos ortodoxos do segundo quartel do século XX, especialmente R. A. Fisher.
Dado que este artigo diz sobretudo respeito à probabilidade subjectiva e física, seria inapropriado discutir outros tipos em muito detalhe. Talvez uma mera lista dos vários tipos seja interessante:
Grande parte da estatística procura testar se uma hipótese estatística simples é “verdadeira” (ou aproximadamente verdadeira) por meio de experiências de amostragem. Se encararmos isto como mais que uma maneira de falar, então, por uma questão de consistência, temos de acreditar na existência de probabilidades físicas. Por exemplo, a proposição de que uma moeda não está viciada é uma hipótese estatística simples, H, cuja definição inclui que P(caras|H) = 1/2, uma probabilidade tautológica. Mas se dissermos ou acreditarmos que esta proposição é verdadeira, então estamos também obrigados a dizer ou a acreditar que esta probabilidade tautológica é física. É pelo menos uma questão de conveniência linguística ou de consistência, e talvez seja mais que isso.
Uma discussão exaustiva das relações entre os vários tipos de probabilidade levar-nos-ia demasiado longe. Limitar-me-ei a repetir dogmaticamente a minha opinião de que apesar de haver pelo menos cinco tipos diferentes de probabilidade conseguimos safar-nos só com um, nomeadamente a probabilidade subjectiva. Esta opinião é análoga à de que só podemos conhecer o mundo por meio das nossas próprias sensações, uma opinião que não faz de nós necessariamente solipsistas, nem nos impede de falar do mundo exterior. Do mesmo modo, o subjectivista pode não ter qualquer problema em falar acerca da probabilidade física, ainda que só possa medi-la com a ajuda da subjectiva.
À primeira vista, o pressuposto de que as probabilidades físicas existem parece implicar a teoria metafísica do indeterminismo. Concluirei tentando analisar esta opinião.
Quando digo que uma teoria é “metafísica” quero dizer que não há qualquer experiência concebível que possa mudar significativamente o logaritmo das suas chances. (As chances correspondendo à probabilidade p são definidas como p/(1 - p). Situa-se entre 0 e o infinito positivo, e o seu logaritmo situa-se entre -∞ e +∞.) Nenhuma teoria é metafísica se pode ser virtualmente provada ou falsificada, porque as suas chances logarítmicas seriam então muitíssimo elevadas, sejam positivas ou negativas. Segundo esta definição, se uma teoria é metafísica, ou não, é uma questão de grau.
Por exemplo, a teoria do determinismo é menos credível do que há cem anos, mas não foi de modo algum refutada e nunca o será. Um estatístico nunca consegue provar que os “números aleatórios” não são “pseudo-aleatórios”, e do mesmo modo o “pseudo-indeterminismo” não pode ser refutado.11
Podemos consistentemente falar da probabilidade física sem nos comprometermos com a teoria metafísica de que o universo é indeterminístico, mas só se aceitarmos a existência da probabilidade subjectiva ou credibilidade. Pois se pressupomos o determinismo só conseguimos obter probabilidades físicas se tivermos uma instalação física incompletamente especificada. Nesta especificação incompleta tem de haver probabilidades. Se formos deterministas temos de atribuir estas últimas probabilidades à nossa própria ignorância e não apenas a algo básico na natureza “lá fora”. Quer pressuponhamos o determinismo quer não, toda a probabilidade física pode ser interpretada como probabilidade subjectiva ou credibilidade. Se pressupusermos o determinismo, então tal interpretação é-nos imposta.
Aqueles filósofos que acreditam que o único tipo de probabilidade é a física têm de ser indeterministas. Foi por esta razão que von Mises afirmou o indeterminismo antes de este ficar na moda. Teve sorte.