A Estatística das Sondagens

22-03-2014 23:25

 

    Quando era pequeno ficava surpreendido por nas sondagens que mostravam na televisão dizerem que tinham, por exemplo, 98% de certezas – “Como é que eles sabem que têm essa certeza?” questionava-me eu, “Para saberem isso teriam que comparar a amostragem usada com a população total”, pensava eu.

 

    Antes de responder a essa questão, vou dar um pequeno “passeio” sobre alguns conceitos importantes da Matemática envolvida.

 

    Primeiro, é comum haver alguma confusão entre probabilidades e estatísticas. De modo simplificador, a estatística obtém-se através de uma amostragem, enquanto que a probabilidade pode ser calculada simplesmente conhecendo o problema. Por exemplo, se quisermos saber a probabilidade de sair o número 1 no lançamento de um dado de 6 faces numeradas, basta pensarmos nos casos possíveis e favoráveis (como explicado no artigo de como calcular a probabilidade de ganhar o euromilhões): imediatamente chegamos ao resultado 1/6. Contudo, se nos disserem que o dado está viciado e nos pedirem para estimar a probabilidade de sair o número 1, como é que fazemos? Recorremos à estatística: lançamos várias vezes o dado e contamos o número de vezes que sai cada um dos números. Se o dado não estivesse viciado, os números deveriam sair mais ou menos o mesmo número de vezes cada um, contando que lançássemos o dado um número suficiente de vezes.

 

    Com isto, chegámos à chamada Lei dos Grandes Números, que é uma das leis fundamentais nesta área da Matemática: se numa experiência há um dado evento que tem uma probabilidade determinada de ocorrer, se repetirmos a experiência várias vezes, a frequência com que o evento irá ocorrer irá tender para essa probabilidade. (A frequência é o número de vezes que o evento ocorreu a dividir pelo número de vezes que se fez a experiência.)

 

Jakob Bernoulli (1654-1705) foi o primeiro matemático a descrever a Lei dos Grandes Números. Chamou-lhe o “Teorema Dourado”.

 

    Um outro resultado importante da teoria de probabilidades é também ele muito intuitivo, principalmente para aqueles que já fizeram algum tipo de trabalho que envolvesse medidas. Se a medida em causa é importante, então para nos assegurarmos que não cometemos um erro, é natural repetir a medição. A obtenção do mesmo resultado várias vezes dá-nos uma crescente confiança nesse resultado. Se por algum motivo se obtiverem vários resultados diferentes, intuitivamente escolhemos a média. A nível industrial, muitos produtos vêm com a indicação da sua média, bem como da margem de erro (que pode ser estimada através das medidas que fugiram à média).

 

    Se fizermos um histograma, ou seja, se contarmos o número de vezes que ocorreu cada medida (num dado intervalo, por exemplo), obtemos um gráfico deste género:

 

    Para concretizar, imaginem que vos foi dada a tarefa de verificar se um dado vendedor de água não está a enganar os seus clientes, ao vender garrafões de supostamente 5 litros de água com apenas 4.9 litros de água. Primeiro têm que obter uma amostragem aceitável, digamos 100 garrafões. Depois medem a quantidade de água que cada garrafão tinha. Finalmente, fazem o gráfico (histograma): no eixo horizontal colocam, por exemplo: 4.7, 4.8, 4.9, 5.0, 5.1, 5.2, e depois metem uma coluna vertical cuja altura significa o número de vezes que encontraram um garrafão com essa quantidade de água. Se a coluna mais alta aparecer nos 4.9 em vez de nos 5.0, há razões para acreditar que o vendedor de água está de facto a enganar os seus clientes. Caso não esteja a enganar, o histograma deveria ser semelhante ao da figura de cima, centrado nos 5 litros. Quanto mais vezes a experiência fosse repetida, e menores se fizessem as classes (ou seja, as divisões da escala, no caso de cima a escala era 0.1), então as colunas deveriam aproximar-se da curva que se vê na imagem de cima. Esta curva é chamada distribuição Normal, ou distribuição de Gauss.

 

    E com isto chegámos ao resultado que eu falava, e que é provavelmente um dos fundamentos mais importantes em Estatística: o Teorema do Limite Central.

 

    Reformulando em linguagem um pouco mais técnica, este teorema diz-nos que a soma de várias variáveis independentes e identicamente distribuídas (ou seja, as medidas têm que ser naturalmente da mesma “coisa” e não podem depender umas das outras) tem uma distribuição (cuja representação gráfica pode ser um histograma) que se aproxima da distribuição Normal. A aproximação é tanto melhor quanto maior for o número de variáveis consideradas. (No caso do exemplo, trata-se de aumentar o número de garrafões.) Este teorema foi postulado e posteriormente provado pelos matemáticos Moivre, Laplace e Lyapunov.

 

johann_carl_friedrich_gauss

Carl Friedrich Gauss (1777-1855) foi um grandioso matemático e físico. As contribuições estendem-se desde a geometria diferencial à geofísica, passando pela teoria de números (provou, por exemplo, o “teorema de ouro” deixado por Euler), estatística, electrostática, astronomia, óptica… Qualquer estudante universitário das áreas de ciências e engenharias já terá certamente usado o Método dos Mínimos Desvios Quadráticos que foi criado por Gauss quando este tinha 18 anos (embora Legendre tenha chegado ao mesmo resultado independentemente, pela mesma altura). É referido como o “príncipe da Matemática”.

 

    A distribuição Normal depende apenas de dois parâmetros, a média e a variância. A média é o valor no eixo horizontal que corresponde ao centro da curva, ao seu ponto mais alto. A variância qualifica o quanto os valores variam em relação à média, ou seja, quanto maior for a abertura da curva, maior é a variância, porque isso significa que houve uma maior proporção de “dados” longe da média. Tudo o resto é sempre igual – a forma é sempre a mesma!

 

    Voltando à questão inicial, quando se faz uma sondagem, tem-se em mente todos estes conceitos. Não é possível calcular as probabilidades, contudo sabe-se através da Lei dos Grandes Números que quanto maior for a amostragem, a frequência converge para um dado valor – aquele que corresponde ao de toda a população. Esta convergência não é mais que o facto de que o tal histograma se aproxima da curva da distribuição Normal à medida que se aumenta a amostragem. Se quisermos analisar, por exemplo, a estatura média da população adulta masculina mundial, poderemos considerar uma amostragem de alguns milhares de sujeitos. Há porém um aspecto muito importante para que esta amostragem seja adequada: deverá ser aleatória. Por exemplo, se a amostragem não for bem distribuída entre países, tal irá adulterar os resultados. Uma amostragem só com portugueses, por exemplo, iria obviamente dar um valor inferior à média mundial. A forma mais simples de garantir aleatoriedade é normalmente aumentar a amostragem, bem como tentar obtê-la “pesada” com as proporções adequadas. No caso da amostragem para estimar a estatura média global, naturalmente que se teria que ter um maior número de chineses do que de portugueses, por exemplo: de preferência a razão entre o número de chineses e portugueses presentes na amostra deveria ser mais ou menos igual à razão entre a população chinesa masculina adulta e a população portuguesa masculina adulta.

 

    Uma vez garantida a aleatoriedade, tem que se verificar que a amostra segue aproximadamente uma distribuição Normal. Na suposição de que a distribuição de toda a população é também Normal, é possível estimar qual a probabilidade de se estar a cometer um erro ao se usar aquela amostra para caracterizar toda a população. É daqui que surgem os referidos 98%, por exemplo. (O cálculo também pode ser feito ao contrário, isto é, a dimensão da amostra é-nos imposta pelo nível de confiança que queremos obter no resultado.)

 

 

Marinho Lopes (colaborador do Ciência com Todos e doutorando em Física na U. de Aveiro) - texto primeiramente publicado no Blog do autor: Sophia of Nature.

 

Ver original em: http://sophiaofnature.wordpress.com/2013/05/26/a-estatistica-das-sondagens/

 

Tópico: Comentários

A estatística das sondagens

Data: 23-03-2014 | De: Graciete Virgínia Rietsch Monteiro Fernandes

Por incrível que pareça no meu curso de Engenharia Química não tive, nunca, uma cadeira de Cálculo de Probabilidades ou Estatística. Portanto me admiro tanto com os resultados de sondagens obtidos à boca da urna quando há eleições. São tão próximas dos valores reais que eu não consigo compreender como se obtêm
resultados tão exatos dada a diversidade de Partidos ,
opiniões e regiões onde as diferenças de preferências são tão grandes, como é apresentado no programa do prof. Rogério Martins. É uma questão de ignorância minha! Mas a verdade é que as sondagens à boca da urna merecem
confiança. Por isso, quando há eleições, eu espero ansiosamente pelo momento em que as sondagens são apresentadas. E ás vezes apanho cada desilusão!!!!!!
Gostei do seu artigo e gostava também de saber um
bocadinho mais de Matemática. Eu até era boa aluna!!!
Só que agora já é um bocadinho tarde.
Um abraço.

Re:A estatística das sondagens

Data: 24-03-2014 | De: Marinho Lopes

Aconselho-a a ver esta palestra:
http://www.livestream.com/fcglive/video?clipId=pla_62ebb4c9-9af3-4169-887a-02108e8e5899

Eu gostei muito e penso que você também gostará. :)

Abraço.

Re:Re:A estatística das sondagens

Data: 24-03-2014 | De: Graciete Virgínia Rietsch Monteiro Fernandes

Vi o video e gostei, embora na parte final não houvesse muita sequência, porque o video voltava ao princípio.
Verifiquei também que, o maior ou menor êxito das sondagens à boca da urna está na escolha adequada da amostragem o que é muito difícil e exige muita informação ao longo do tempo anterior e próximo das
eleições.
Também gostei da análise do método científico e da sua importância nas conclusões obtidas.
Outra coisa que me impressionou, se entendi bem porque por vezes tinha dificuldade em interpretar o que
o Professor dizia, foi o facto de a Estatística andar um pouco afastada dos programas de muitos cursos. No meu não existia. Mas já lá vão tantos anos!!!
O Professor é mesmo um ótimo comunicador.
Obrigada e um abraço.

A Estatística das Sondagens

Data: 23-03-2014 | De: João Pedro Calafate

Como complemento a este artigo deixo o link para um episódio do programa televisivo "Isto é Matemática", que retrata este tema, protagonizado por Rogério Martins (docente na UNL) que também é colaborador do CcT: https://www.youtube.com/watch?v=fJuOYmEgWNs

Itens: 1 - 4 de 4

Novo comentário