Estatisticamente insignificante…

Well… só para escrever um cadinho a respeito de alguma coisa, recentemente alguém em um grupo de Facebook que participo teve a brilhante ideia de “elaborar um algoritmo” para ganhar na MEGA SENA. Como se ninguém tivesse pensado (e ainda pensando) nisso antes, né?

Muito bem… saibam que todos os jogos já sorteados estão disponíveis para download no site da Caixa Econômica Federal neste, link, em formato ZIP que contém um arquivo HTML, mal formatado, por sinal… Baixado os resultados por ordem de sorteio (aqui) e depois de alguma filtragem, podemos obter algo assim:

04 05 30 33 41 52
09 37 39 41 43 49
10 11 29 30 36 47
01 05 06 27 42 59
01 02 06 16 19 46
07 13 19 22 40 47
...

Essa é a lista de 1960 jogos já sorteados até o último jogo antes que eu tivesse criado esse texto. E, agora, podemos brincar, não é? Infelizmente, não…

O problema é que a quantidade de sorteios feita é insignificante em relação à quantidade de jogos possíveis. Só para dar uma ideia, a quantidade de combinações possíveis é de C(n,r)=\frac{n!}{r!(n-r)!}\Rightarrow\frac{60!}{6!(60-6)!}\approx50063860. Sabendo que temos apenas 1960 jogos disponíveis para fazer alguma avaliação, isso significa que temos apenas 0,003915% de todas as amostras possíveis! Tentar divisar algum padrão nessa base é como dizer que só existem cavalos marrons porque você nunca viu um com pelagem de outra cor…

Com base nas amostras que temos, podemos chegar as mais variadas conclusões falsas. Por exemplo, se traçarmos um gráfico com o número de ocorrências de cada um dos valores, em todos os 1960 jogos, teremos:

Distribuição dos valores em todos os sorteios

Olhando para isso podemos concluir (errado!) que deveríamos ignorar os valores 26 e 55, já que eles aconteceram bem menos do que os demais. Ou, quem sabe, deveríamos prestar mais atenção justamente neles, já que eles tendem a acontecer mais, para manter o “sistema” equilibrado (errado! errado!).

Ainda, existem 6 valores que aconteceram mais que os demais (5, 10, 23, 33, 51 e 53), então, essa deve ser uma sequência mais “apostável” que as demais, não é? E os números 5 e 53 aconteceram 225 vezes nesses 1960 jogos (11% de todos os jogos, pena que não ao mesmo tempo! — de fato, ao mesmo tempo, eles aconteceram apenas 17 vezes!).

De novo, esses dados são estatisticamente insignificantes para que qualquer tipo de análise, no sentido de obtenção de padrões, seja possível e uma outra demonstração disso é uma animaçãozinha que mostra a distribuição dos valores no tempo, onde cada linha contém uma dezena de valores (a linha 1 vai de 1 até 10, a linha 2, de 11 até 20… até a 6ª linha, de 51 até 60):

1/10º de segundo por sorteio

Repare como os quadrados vão ficando rosados, mais ou menos, ao mesmo tempo e mais ou menos terminam em tonalidades similares (e você, muitas vezes, nem percebe o degrau de variação nessa animação de 10 frames por segundo! Ou seja, 1 segundo = 10 sorteios). Isso significa que a distribuição é mais ou menos uniforme no decorrer do tempo, o que torna a “adivinhação” difícil!

Outra forma de ver a variação de cada valor, acima, é a simulação do gráfico inicial em timelapse (de novo, 10 frames por segundo):

Cada ponto é a contagem do valor em uso em cada sorteio

Ok… tem um pequeno bug no programinha que fiz para criar essa animação (a barra azul do lado direito), mas você pegou a ideia…

E, se você ainda acha, que dá para obter algum padrão, pense nisso: Será que o peso da tinta dos números pintados nas bolinhas sorteadas não têm alguma influência? E quanto à quantidade de plástico usado na fabricação delas? E a “qualidade” desse material? Todas as bolinhas vieram do mesmo fabricante? E aquela “cesta” giratória (se é que ainda usam isso!), de que material é feito? Ela parece ser metálica, existem soldas? Elas são uniformes? Tanto a cesta quanto as bolinhas são perfeitamente esféricas? E quanto ao atrito? E a temperatura ambiente? E o diferencial de temperatura entre a “cesta” (de metal) e as bolinhas (de plástico)? E quem está girando as cestas? Tá com fome? Tá cansado? Tá doente? etc…

Existem muitas variáveis e poucas amostras para dizer sequer se essas variáveis devem ou não serem consideradas!

Anúncios