Cenário 1: Barry é um geólogo renomado. Charles é um jovem delinquente de quatorze anos com um longo histórico de prisões e ocasionais episódios psicóticos. Barry faz uma declaração categoricamente contraintuitiva sobre rochas a Arthur, que acredita ser 90% provável. Em seguida, Charles faz uma declaração igualmente contraintuitiva sobre rochas, e Arthur acredita que é apenas 10% provável. É claro que Arthur está considerando a autoridade do falante para decidir se deve ou não acreditar em suas afirmações.
Cenário 2: David faz uma declaração pouco intuitiva sobre física e oferece a Arthur uma explicação detalhada de seus argumentos, incluindo referências. Por outro lado, Ernie também faz uma afirmação pouco intuitiva, porém apresenta um argumento pouco convincente com diversos saltos de fé. Tanto David quanto Ernie afirmam que estão dando a melhor explicação possível (não apenas para Arthur, mas para qualquer pessoa). Após ouvir a explicação de David, Arthur atribui uma probabilidade de 90% à sua afirmação, enquanto atribui apenas 10% à declaração de Ernie.
À primeira vista, esses dois cenários podem parecer simétricos: ambos envolvem considerar evidências úteis, seja em relação a uma autoridade forte ou fraca, ou um argumento forte, ou fraco.
Agora, suponha que Arthur peça a Barry e Charles para apresentarem casos técnicos completos com referências, e que ambos apresentem casos igualmente bons. Em seguida, Arthur verifica as referências e confirma que estão corretas. Depois, Arthur pede a David e Ernie para informarem suas credenciais e descobre que ambos têm credenciais semelhantes — talvez ambos sejam palhaços ou ambos sejam físicos.
Assumindo que Arthur tenha conhecimento suficiente para compreender todos os argumentos técnicos — caso contrário, eles não passam de ruídos impressionantes —, ele deve reconhecer que David tem uma grande vantagem em plausibilidade em relação à Ernie, enquanto Barry, na melhor das hipóteses, tem uma pequena vantagem sobre Charles.
Na verdade, se os argumentos técnicos forem suficientemente bons, a vantagem de Barry sobre Charles pode não valer a pena ser considerada. Um argumento técnico de qualidade é aquele que reduz a confiança na autoridade pessoal do orador.
Da mesma forma, se acreditarmos que Ernie deu o melhor argumento possível, considerando todas as etapas inferenciais que ele executou e todo o suporte que ele considerou — citando quaisquer autoridades que ele possa ter consultado — podemos praticamente ignorar qualquer informação sobre suas credenciais. Independentemente de Ernie ser um físico ou um palhaço, isso não importa. É claro que essa suposição só é válida se tivermos conhecimento técnico suficiente para avaliar o argumento. Caso contrário, Ernie estaria simplesmente pronunciando sílabas místicas, e se acreditamos nessas sílabas dependeria muito de sua autoridade.
Parece haver uma assimetria entre argumento e autoridade. Se conhecermos a autoridade, ainda teremos interesse em ouvir seus argumentos. Por outro lado, se conhecermos completamente os argumentos, teremos pouco a aprender com a autoridade.
É evidente (diz o novato) que autoridade e argumento são tipos de evidência fundamentalmente diferentes, uma discrepância inexplicável para os métodos rigorosamente limpos da teoria de probabilidade bayesiana. Embora a força da evidência — 90% contra 10% — seja igual em ambos os casos, elas não se comportam de maneira semelhante quando combinadas. Como vamos contabilizar isso?
Aqui está uma prova técnica de como expressar essa diferença na teoria da probabilidade. (O resto pode ser baseado em minha autoridade pessoal ou em referências de consulta.)
Se P(H|E1) = 90% [A probabilidade de H dado E1 é igual a noventa por cento] e P(H|E2) = 9% [a probabilidade de H dado E2 é igual a nove por cento], qual é a probabilidade P(H|E1,E2) [de H dado E1 e E2]?
Se saber que E1 é verdadeiro nos leva a atribuir 90% de probabilidade a H, e sabermos que E2 é verdadeiro nos leva a atribuir 9% de probabilidade a H, então qual probabilidade devemos atribuir a H se descobrirmos tanto E1 quanto E2 juntos?
Isso não pode ser calculado na teoria da probabilidade apenas com as informações fornecidas. A informação que está faltando não é a probabilidade anterior de H. Os eventos E1 e E2 podem ser dependentes um do outro.
Suponhamos que H seja “A minha calçada está escorregadia”, E1 seja “O meu aspersor está funcionando” e E2 seja “É noite”. A minha calçada fica escorregadia a partir de um minuto após o início do aspersor, até logo após o término do aspersor, e o aspersor funciona por dez minutos. Então, se sabemos que o aspersor está ligado, a probabilidade de a calçada estar escorregadia é de 90%. O aspersor está ligado durante 10% da noite, então se soubermos que é noite, a probabilidade de a calçada estar escorregadia é de 9%. Se soubermos que é noite e o aspersor está ligado, ou seja, se soubermos os dois fatos, a probabilidade de a calçada estar escorregadia é de 90%.
Podemos representar isso em um modelo gráfico da seguinte forma:
Se é noite ou não, determina se o aspersor está ligado ou desligado. E, se o aspersor estiver ligado, isso influencia se a calçada fica escorregadia ou não.
A direção das setas é significativa. Digamos que tivemos:
Isso significa que, se eu não tivesse conhecimento prévio sobre o aspersor, a probabilidade de que seja noite e de que a calçada esteja escorregadia seriam independentes entre si. Por exemplo, imagine que eu role dois dados e some os números obtidos para obter uma soma:
Se eu não informar a soma dos dois números e apenas disser que o primeiro dado marcou 6, isso não me diz nada sobre o resultado do segundo dado. No entanto, se eu disser que a soma dos dois dados é 7, então é possível concluir que o segundo dado deve ter exibido o número 1.
Determinar a dependência ou independência entre diferentes informações, dada uma série de conhecimentos prévios, é um tópico bastante técnico. Para aprofundar o conhecimento sobre o assunto, recomenda-se a leitura de dois livros específicos: Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference [1] (Raciocínio Probabilístico em Sistemas Inteligentes: Redes de Inferência Plausível) e Causality: Models, Reasoning, and Inference (Causalidade: Modelos, Raciocínio e Inferência), de Judea Pearl. [2] (Caso você não tenha tempo, é recomendável priorizar a leitura do primeiro livro.)
Se você tem conhecimento em leitura de diagramas causais, ao observar o diagrama das jogadas de dados, é possível identificar imediatamente que:
Ao observar o diagrama correto da calçada, é possível identificar fatos como:
Em outras palavras, a probabilidade da calçada estar escorregadia, dada a informação sobre o aspersor e a noite, é a mesma probabilidade que atribuiríamos se tivéssemos conhecimento apenas sobre o aspersor. Isso significa que, ao incluir a informação do aspersor, a informação sobre a noite se tornou irrelevante para as inferências sobre a escorregabilidade da calçada.
Esse fenômeno é conhecido como screening off, ou bloqueio em português, e o critério que nos permite identificar essas independências condicionais a partir de diagramas causais é chamado de D-separation ou D-separação.
No caso de argumento e autoridade, o diagrama causal se parece com isso:
Se algo é verdadeiro, é provável existirem argumentos a favor, e os especialistas tendem a avaliar essas evidências e mudar suas opiniões (pelo menos em teoria!).
Se observarmos que um especialista acredita em algo, podemos inferir que existem evidências subjacentes (mesmo que não saibamos exatamente quais são essas evidências), e a partir da existência dessas evidências, podemos inferir a verdade da proposição.
No entanto, se soubermos o valor do nodo “Qualidade do argumento”, isso “D-separa” o nodo “Verdade” do nodo “Crença do Especialista”, bloqueando todas as rotas entre eles. Esse bloqueio segue certos critérios técnicos que, neste caso, parecem bastante evidentes.
Assim, mesmo, mesmo sem verificar a distribuição de probabilidade exata, podemos inferir diretamente do diagrama que:
P (verdade|argumento, especialista) = P (verdade|argumento)
Essa não é uma contradição da teoria da probabilidade comum, mas sim uma forma mais simplificada de expressar fatos probabilísticos. As mesmas igualdades e desigualdades podem ser lidas em uma distribuição de probabilidade mais complexa, mas seria mais difícil de identificar visualmente. Assim como os aspersores e a luz do sol não são feitos de materiais ontologicamente diferentes, a autoridade e o argumento não exigem dois tipos diferentes de probabilidade.
Na prática, nunca é possível eliminar completamente a confiança na autoridade. As autoridades confiáveis têm maior probabilidade de conhecer evidências contrárias que devem ser consideradas; enquanto autoridades menos confiáveis têm menos probabilidade de saber disso, tornando seus argumentos menos confiáveis. Não é possível eliminar esse fator apenas ouvindo as evidências que eles consideraram.
Transformar argumentos em equações matemáticas pode ser uma tarefa muito difícil. Afinal, avaliar a força de uma inferência pode depender de intuições que você não pode replicar sem a mesma experiência de trinta anos.
É inevitável que atribuímos uma probabilidade ligeiramente maior ao que E.T. Jaynes diz sobre probabilidade bayesiana do que a Eliezer Yudkowsky, mesmo que ambos afirmem o mesmo. Os cinquenta anos adicionais de experiência de Jaynes não podem ser considerados tendo zero influência.
No entanto, essa pequena força da autoridade é apenas ceteris paribus e pode ser facilmente superada por argumentos mais fortes. Eu mesmo identifiquei uma pequena errata em um dos livros de Jaynes, pois a álgebra é mais poderosa que a autoridade.
Referências
[1] Pearl, Probabilistic Reasoning in Intelligent Systems.
[2] Judea Pearl, Causality: Models, Reasoning, and Inference, 2nd ed. (New York: Cambridge University Press, 2009).