2008/04/24


Estatística... Pois é!

Fenômenos probabilíticos, aleatórios, estocásticos, contingentes e incertos permeiam nossas vidas. No entanto, poucos dominam a contento a gentil arte do estudo da estatística.

As pessoas querem a todo custo poder tirar conclusões "certas" de dados incertos. Um testemunho disto é o popular conceito de "significância". Análises só são ditas cientificamente corretas se atenderem um certo conceito de "significância estatística", que seria algo geral, concordado por todos. Em geral esta atitude oculta o fato de que é sempre possível que um pesquisador tenha tido AZAR, ou SORTE, e encontrado uma tendência que não existiria em uma amostragem maior. digo, uma tendência cuja probabilidade de ser detectada numa amostragem maior seria ainda menor...

Enfim, eu só queria comentar uma coisa interessante. Tem um tipo de variável aleatória muito importante que é aquela estudada por Jacob Bernoulli (1654–1705). É aquela em que há uma probabilidade p de se detectar um certo evento, e uma (1-p) do contrário. Uma moeda tem p=0,5 Um revolver com uma bala em uma roleta russa tem p=1/6=0,166667.

Um jeito de tentar medir o valor de p é simplesmente contar quantos eventos são detectados numa amostragem maior, por exemplo, na minha turma de engenharia elétrica, no começo do ano tínhamos algo como 50 alunos, sendo apenas 4 mulheres. Daí podemos estimar que p=4/50=0,08. Ou seja, "oito por cento" dos alunos da engenharia elétrica são mulheres. Se imaginássemos por exemplo uns 54321 alunos, deveríamos ter então umas 4345.7 alunas...

Conforme aumenta a quantidade de "testes" feitos, mais a distribuição da probabilidade se aproxima de uma gaussiana. Portanto, esses 4345.7 seriam praticamente o centro duma gaussiana, caso quiséssemos dar uma olhada nas probabilidades de termos 5000 alunas, ou de termos no mínimo 3000 alunas... Tudo isso é calculável uma vez que se tenha p.

Agora, uma coisa interessante é que no dia-a-dia o entendimento do processo de Bernoulli se dé meio assim: se eu digo que temos p=0,043, a rede Grobro diz lá que de cada mil, teremos lá 43 sujeitos de interesse. Aí corrigem: "provavelmente uns 43"... Aí corrigem mais: "mais ou menos uns 43"... E nem tem problema, porque 43 é de fato o número mais provável.

Agora, eu acho engraçado quando ao invés de darmos números quebrados, ou porcentagens, damos uma fração com numerador 1, o que é simplesmente um arredondamento do inverso de p. Por exemplo, para p=4/50 temos 1/(50/4)=1/25,5, aí arredondamos, e diremos que "para cada doze alunos de engenharia elétrica, um será um engenheiro fêmea".

É relativamente comum ouvir essa resposta. Alguém dá um número lá "3/69", e alguém esperto calcula: "ah, quer dizer que teremos um desses em cada 23 casos...". É bem gráfico isso, aquele um sujeito diferente lá em meio aos outros. Deixa a noção da proporção bem clara... Ainda mais com números menores, tipo "um em oito", "um em cada três"...

Me interessou de repente esse tipo de afirmação: A probabilidade de um em n dado p=1/n. Quer dizer, me interessou testar essa afirmação usual: O quanto provável é termos REALMENTE um em n dado essa probabilidade? O quão fiel é essa imagem mental que sempre montamos??...

É meio chato calcular isso, mas eu parti pra calcular outra coisa bem próxima, e achei um resultado bem interessante!

Dado uma probabilidade p, e n amostras, a probabilidade de todas amostras serem do tipo de interesse é p^n. Por exemplo, a probabilidade de tirarmos "cara" ao lançar uma moeda 3 vezes é de 1/8. Pra 10 vezes, é de 1/1024... Prum p pequeno, esse número cai bem rápido. Por exemplo, a probabilidade de termos uma turma de 50 engenheiras fêmeas com p=4/50 é de (4/50)^50 = 1.4272e-55, deveras irrisório.

Por outro lado, a hipótese contrária de um p pequeno, que tem probabilidade (1-p), vai dominando. A probabilidade de uma turma de 50 engenheiros macho é de (46/50)^50 = 0.015466, ou seja 1,5%... Quereria dizer lá que "para cada duzentas turmas, três não tiveram mulheres!..."

Então ao invés de avaliar a probabilidade certinha do estritamente um em n, vamos calcular "ao menos um em n". Isto é simplesmente o complemento da probabilidade de não termos ninguém... E na prática, pra valores de n grandes acaba que a probabilidade que queremos calcular chega mesmo bem perto dessa. E mais, chega perto dum número muito legal!!!

Jogando então p=1/n na fórmula temos que a probabilidade de não ter nenhum caso em n amostragens é de (1-1/n)^n. É fácil sacar, porque é simplesmente n sorteiros. A fórmula exata pra precisamente um evento é mais complicadinha: n*p(1-p)^(n-1).

O gráfico disso tudo dá:


Olha só que interessante. Primeiro vamos ficar felizes: a probabilidade de nenhum evento, cuja fórmula é fácil de deduzir, se aproximou da de apenas um... Então a conclusão bacana que vamos deduzir pra nenhum evento também vale pra que buscamos inicialmente, de apenas um!...

Vamos apreciar primeiro o que acontece nos valores pequenos: para p=1, temos certeza absoluta de que obteremos 1 em cada 1, e que tem chance 0 de termos nenhum em cada 1.

Para p=0,5, temos o problema de jogar um cara ou coroa duas vezes... possibilidades são "cara cara", "coroa cara", "cara coroa" e "coroa coroa", com igual probabilidade, dando chance 1/4 de sair nada, e 1/2 de sair apenas um em dois.

Conforme a coisa aumenta, vai deixando de ser intuitivo. Ambas probabilidades se aproximam, e pra um número... Que número é esse meu deus!?

Alunos de cálculo do segundo ano já devem ter percebido. O número é o limite daquela expressão que dei ali em cima, que repito:

lim n->infinito de (1- 1/n)^n

Esse limite é manjado, difícil de provar, mas é um grande conhecido dos estudantes... Seu resultado esplendoroso é 1/e!!! Sim, o inverso da famosa constante!!... Aliás, foi o próprio Jacob quem primeiro estudou esse limite, suspeito que deve ter sido justamente fazendo esta mesma investigação que estamos fazendo agora, e eu nem tinha a menor idéia disso, por isso estou tão empolgado!... :)

Quer dizer, a constante e, ou melhor, sua inversa aparece naturalmente em nosso dia-a-dia quando consideramos a probabilidade de termos de fato "um em cinquenta e sete" de alguma coisa que costuma ocorrer nesta freqüência em média...

E aqui vão umas considerações finais:

* A probabilidade de termos um em n de uma variável aleatória com p=1/n é 1/e = 0.3678794411... E também é o valor mais provável.
* A probabilidade de não termos nenhum evento em n amostras tende a ser igual à probabilidade de termos somente um.
*A probabilidade de termos ao menos um, é 1-1/e=0.63212....
*A probabilidade de termos um ou nenhum é de uns 2/e=0.74, metade pra cada lado.

Pela estimativa ao considerar uma distribuição quase gaussiana, temos que a variância vai pra 1. Quer dizer que poderíamos afirmar com uma probabilidade de uns 95% ou por aí que vamos ter de zero a uns 4 ou 5 eventos de interesse. Mais de 6 começa a ser muito improvável, pra menos de um milésimo.

Então é isso. Da próxima vez que alguém te disser "ah, você disse probabilidade de um em cento e vinte e sete, então quer dizer que se a gente pegar 127 desses, vai ter um estragado?", vc pode responder imediatamente, com a precisão e rigor científicos de um legítimo Beurnoulli do século XVIII: "Mais ou menos isso... Pra essa quantidade, a probabilidade de termos exatamente um estragado é de aproximadamente 1/e, e a probabilidade de não termos nenhum estragado é quase a mesma. Só garanto que não vamos ter muito mais do que uns quatro."

Quer dizer, se você cai no conto de sortear n vezes, porque a probabilidade é 1/n, você tá praticamente tirando na moedinha se vai ter algum lá ou não (quer dizer, desconsiderando a boa chance de ter mais de 1). Pra fazer uma boa amostragem tem que sortear mais, e não sei te dizer em geral quanto seria.

"É" isso... Pois "é"!...

No comments: