TOLEDOL, o blog sobre RAC

Reportagem com Auxílio do Computador (RAC) e jornalismo investigativo

Posts Tagged ‘estatística

O beabá da probabilidade e da estatística – 1

Para os jornalistas, o melhor jeito de aprender sobre um assunto é escrever sobre ele. Assim, o que se segue é uma aula do ponto de vista do aluno, não do professor. São anotações de quem pretende fixar conceitos, não ensiná-los. Foram inspiradas, na maioria, pela leitura de “O Andar do Bêbado“, de Leonard Mlodinow. Leia-as como quem espia o caderno do colega de escola.

Os jornalistas precisamos estar cientes de que não estamos propensos a relatar fatos objetivos com imparcialidade. Somos naturalmente parciais, nossa percepção é incompleta, e o fato, quando captado pela nossa mente, torna-se uma interpretação. Mesmo uma cena da qual somos testemunhas oculares é subjetiva. É o resultado de uma série de interpolações feitas pelo nosso cérebro para aprimorar a imagem falha e borrada enviada pelos olhos. Desenvolvemos mecanismos cerebrais que agem como Photoshop sobre uma foto desfocada e mal-enquadrada. Somem-se nossos preconceitos e expectativas, e o resultado é pra lá de subjetivo.

Só estando conscientes desses nossos defeitos de origem é que podemos fazer bem o ofício de reportar. Ser cético e duvidar não é mérito, mas necessidade. Como uma colagem, cada versão se completa na outra, superpostas e contraditórias. Daí que quanto mais versões e observações, melhor. Não me refiro apenas a entrevistas, mas a grandes quantidades de informação. A uma amostra que represente com fidelidade o universo que espelha. Isso implica dominar conceitos lógicos e matemáticos simples, mas essenciais.

Para diminuir a margem de erro do nosso trabalho, convém conhecermos o beabá da estatística e da probabilidade. A diferença entre eles? Nas palavras de Mlodinow: a estatística busca inferir as probabilidades com base em medições dos dados, enquanto a probabilidade faz previsões com base em probabilidades fixas.

Começo aqui uma série sobre esses dois assuntos.

. . .

1) A probabilidade de um evento “X” ocorrer é igual à proporção entre o número de eventos “X” e o número total de eventos, desde que todos eles sejam aleatórios.

Exemplo banal: a probabilidade de dar “cara” em um cara-ou-coroa é de 50%, porque há um evento “cara” entre os dois eventos possíveis: “cara” e “coroa”. Logo, a proporção é de 1 para 2, ou 1/2, ou 50%.

Exemplo nem tão banal: desconsideradas as paixões, a arbitragem e a habilidade, a chance de um time de futebol vencer as duas partidas que faltam para o fim do campeonato é de aproximadamente 11%, porque “vencer e vencer” é apenas uma de nove possibilidades: “vencer e vencer”, “vencer e empatar”, “vencer e perder”, “perder e vencer”, “perder e perder”, “perder e empatar”, “empatar e vencer”, “empatar e empatar” e “empatar e perder”. Logo, a proporção é de 1 para 9, ou 1/9 ou 11,11%.

O exemplo acima é hipotético, e não se aplica na vida real, pois jogos de futebol não são eventos totalmente aleatórios (embora sejam mais casuais do que os comentaristas esportivos fazem parecer). Para ilustrar como a ordem dos fatores influencia o cálculo da probabilidade, tomemos o jogo de gamão.

A chance de somarmos 12 ao lançarmos dois dados simultaneamente é igual à de somarmos 2, certo? Sim, porque só há uma combinação possível para 12 (6 e 6) e outra para 2 (1 e 1). E qual a probabilidade de somarmos 7? É bem maior, porque há seis combinações possíveis dos dados que somariam esse resultado: 1 e 6, 2 e 5, 3 e 4, 4 e 3, 5 e 2, 6 e 1. E quantas combinações diferentes são possíveis em um lance dos dois dados? A resposta é 36. Chega-se a ela elevando-se à potência os resultados possíveis de cada dado. No caso, 6², porque são seis lados de dois dados (se fossem 3 dados, os resultados possíveis seriam 6³ = 216).

Logo, as chances de somarmos 7 no lance de dois dados é de 6 em 36, ou 6/36 = 16,7%. Contra apenas 1 em 36 (2,8%) de somarmos 12 ou 2. Portanto, você terá seis vezes mais chances de ganhar se precisar de um resultado 7 do que um 12 ou um 2.

No caso do campeonato de futebol que está a dois jogos do fim, o total de combinações possíveis de resultados para o time A era 9 porque eram 3 resultados possíveis (vencer, empatar ou perder) em duas rodadas. Se fossem 3 rodadas restantes, as possibilidades se multiplicariam para 27 (3³). Nessa hipótese, se o time A precisasse somar pelo menos seis pontos para não ser rebaixado, quais suas chances de permanecer na 1ª divisão?

Nesse caso, interessariam apenas os cenários com duas (2 x 3 pontos = 6 pontos) ou três (3 x 3 pontos = 9 pontos) vitórias para o time A. Quantas combinações de resultados das três partidas restantes contemplam essas possibilidades? A resposta é sete (“vencer, vencer e vencer”; “vencer, vencer, empatar”, “vencer, vencer, perder”; “vencer, empatar, vencer”; “vencer, perder, vencer”; “empatar, vencer, vencer”; “perder, vencer, vencer”). Logo, as chances de não ser rebaixado seriam de 7 em 27, ou cerca de 26%.

Dominar esse conceito é fundamental para se ir adiante na compreensão da probabilidade. Nele se baseiam todas as outras leis probabilísticas. Como veremos nos próximos posts.

Share

Written by Jose Roberto de Toledo

10/12/2009 at 19:56

Comparado a quê? Eis a questão

Em meio a tantas balas perdidas, o secretário de Segurança Pública fluminense, José Mariano Beltrame, fez um achado: “O Rio de Janeiro não é violento. O Rio de Janeiro tem núcleos de violência. Temos índices de criminalidade em determinadas áreas do Rio de Janeiro que são europeus. O Rio de Janeiro não pode receber um programa que seja o mesmo do Oiapoque ao Chuí (vide o blog Caso de Polícia)”.

Procurando bem, sempre é possível achar uma estatística que prove o que você quer. Afinal, como dizia o outro, “bem torturados, os números revelam qualquer coisa”. O secretário deve estar se referindo aos índices de criminalidade de um bairro da Zona Sul (as tais “determinadas áreas”) e comparando-os ao de um continente, o europeu. É covardia.

Não se deve comparar uma média heterogênea e ampla, como a da Europa, com a de um bairro pequeno e homogêneo, como a Urca. No limite, o raciocínio do secretário vai levá-lo a comparar o nível de criminalidade do Barra Shopping com o de Washington DC e concluir que é muito mais arriscado viver na Casa Branca do que na Rocinha.

Em favor do secretário, diga-se que ele não inventou essa chicana estatística. É muito comum os jornalistas usarmos esse recurso para enfatizar uma diferença e ganhar uma manchete. Você já deve ter lido algum título mais ou menos assim: “Bairro paulistano tem qualidade de vida suíça”. Diferenças climáticas e paisagísticas a parte, qualquer comparação de parte com o todo é uma manipulação. Não fosse assim, os rankings de qualidade de vida, criminalidade, IDH, PIB per capita etc seriam todos uma bagunça, misturando países, cidades, continentes, bairros.

É aceitável referir, em um contexto bem explicado, à semelhança entre os índices de violência de um bairro e os de um país, mas apenas como um parâmetro, para ilustrar se esse número é alto ou baixo, não como uma comparação direta.

Tome-se o caso dos homicídios. O que interessa é saber qual o risco que um morador de determinada área corre de morrer assassinado e compará-lo com o de outras áreas semelhantes. Podem ser bairros versus bairros, distritos versus distritos, cidades versus cidades, ou países versus países. Em todos esses casos, trata-se de um cálculo estimado, baseado em uma média e sujeito a erros.

Tanto menor a margem de erro quanto maior for a homogeneidade do universo em estudo. Se você quiser saber qual o seu risco pessoal de tomar um tiro fatal, divida quantos moradores do seu bairro, sexo e faixa etária foram mortos a bala ao longo de um ano pelo número de moradores desse mesmo bairro que sejam do seu sexo e estejam na sua faixa etária. Se você morar no centro paulistano, na República, terá um risco cerca de 20 vezes  maior de ser assassinado do que ser morar nos Jardins.

O mesmo vale para o Rio. Morar na Barra é mais seguro do que morar no Complexo do Alemão. Mas, na média, o risco de um carioca morrer assassinado é 2,4 vezes maior do que o de um paulistano (2007, Datasus). E nem sempre foi assim: em 2000, na média, um morador do Rio tinha menos chances de ser assassinado do que um morador de São Paulo. Talvez fosse mais seguro se o secretário se ocupasse em explicar essa estatística.

Written by Jose Roberto de Toledo

05/11/2009 at 17:40

Comparado a que? Eis a questão

A matemática é uma ciência exata, mas interpretar números é o reino do relativo. Um mesmo valor pode ser grande ou pequeno dependendo da comparação. Saber comparar, portanto, é o grande desafio para jornalistas quando escrevem (ou falam) sobre qualquer assunto que envolva estatísticas.

“O patrimônio do deputado Sinfrônio dobrou de valor em quatro anos de mandato”. É muito ou pouco? Depende. E, pior, depende de vários fatores: do patamar de onde o deputado partiu, se o ritmo de crescimento dos seus bens desacelerou ou se intensificou nos últimos tempos, e de como ele se saiu em relação a seus pares. Se, na média, o patrimônio dos outros parlamentares quadruplicou, então Sinfrônio deve estar na oposição.

Mas se Sinfrônio tinha um Fusca 68 e morava de aluguel antes da eleição, e agora detém um quarto-e-sala e anda de Honda Civic 99, é provável que seu patrimônio tenha dado um salto em termos proporcionais (deduplicado, dependendo da quilometragem do fusquinha). Em valores absolutos, entretanto, ele é tão emergente quanto um eleitor da classe C.

Já o senador Argentário viu seu patrimônio crescer “apenas” 40% ao longo de oito anos de mandato, de R$ 100 milhões para R$ 140 milhões. Classificando-se pela coluna do crescimento relativo do patrimônio, ele se equivaleria ao baixo clero do Congresso. Já pela coluna do crescimento absoluto, Argentário frequentaria o sínodo dos cardeais bigodudos.

Mais complicada de se analisar é a situação do deputado Retilíneo. Seu patrimônio (que não é uma fortuna mas é maior do que o seu, o meu e o nosso) cresceu na mesma média dos seus colegas de partido ao longo dos últimos quatro anos: 200%. Porém, antes de virar-casaca e se transferir da oposição para uma sigla da base aliada, no mandato anterior Retilíneo tinha empobrecido alguns milhares de reais. A notícia, portanto, é a mudança de vetor, de desaceleração para o espetáculo do crescimento.

Os exemplos acima, por mais estúpidos que pareçam (deputado empobrecendo?!), mostram que não há uma regra única para se comparar e, portanto, para se analisar os números. Tudo depende de com que se compara.

Felizmente, alguém já pensou nisso antes e inventou um negócio chamado estatística descritiva. São algumas fórmulas básicas que o jornalista pode usar quando tem que mastigar uma tabela cheia de cifras:

  1. calcule a média (soma dos valores dividida pelo número de fatores)
  2. calcule a mediana (ponto médio de um intervalo de dados, ex: num conjunto que vai de 1 a 5, é 3; se fosse de 1 a 6, seria 3,5)
  3. compare média e mediana (quanto mais distantes uma da outra, mais desigual é a amostra: se a média for muito maior, é porque tem alguém puxando ela para cima e vice-versa)
  4. identifique o valor máximo
  5. identifique o valor mínimo
  6. subtraia o mínimo do máximo para calcular a amplitude da mostra
  7. calcule a variação bruta dos valores no tempo, subtraindo o mais velho do mais novo
  8. calcule a variação proporcional, dividindo a variação bruta pelo valor mais novo
  9. procure padrões de comportamento nos números
  10. identifique os pontos fora da curva, aquilo que foge ao padrão, ou seja, a notícia

Cálculos feitos, o jornalista terá parâmetros para comparar um valor específico com os demais e saber se aquilo é muito ou é pouco. Claro que tudo isso fica muito mais fácil usando uma planilha de cálculo como Excel ou Google Spreadsheet.

Written by Jose Roberto de Toledo

27/08/2009 at 2:33

Pesquisa telefônica no Brasil não ouve pobres

A pesquisa Datafolha sobre eleição presidencial a ser divulgada neste final de semana vai aclarar as chances reais de Marina Silva (PV ou PT?) na sucessão de Lula. Nada como trazer um pouco de racionalidade científica para um debate tão repleto de achismos. A pesquisa servirá ainda para tirar à prova levantamento telefônico feito pelo Ipespe de Antonio Lavareda por encomenda para o PV. A enquete indica a ex-ministra do Meio Ambiente oito pontos percentuais à frente da candidata do governo, Dilma Rousseff.

Comparar é importante porque pesquisa telefônica no Brasil não consegue, ao que se sabe, captar a opinião de uma parcela que decidiu as duas últimas eleições presidenciais: os pobres. Porque as pessoas das classes D e E não têm telefone fixo em casa e não são ouvidas pelos pesquisadores. “Pesquisa eleitoral que represente todo o eleitorado brasileiro só dá para fazer pessoalmente”, afirma o diretor do Datafolha, Mauro Paulino.

04telefone_lata

Lavareda parece não concordar. Em entrevista ao jornal O Estado de S. Paulo (13 de agosto), o consultor do PV defendeu seus métodos e tentou torpedear um dos meios tradicionais de coleta, a entrevista domiciliar: “Nas pesquisas em domicílios, muitos moradores de apartamento ficam de fora porque o zelador não deixa entrar”. A matéria não trás comentários de Lavareda sobre a pesquisa pessoal em ponto de fluxo, técnica historicamente empregada usada pelo Datafolha e incorporada parcialmente pelo Ibope para contornar dificuldade de acesso dos pesquisadores a moradores de áreas controladas pelo narcotráfico e condomínios de luxo, por exemplo.

Leia o resto deste post »

Written by Jose Roberto de Toledo

14/08/2009 at 18:13

Números por letras: técnicas para descrever estatísticas

Um dos melhores livros já escritos sobre técnicas de redação é o “Chicago Guide to Writing About Numbers”, de Jane Miller. A autora não é escritora, tampouco jornalista, mas dá aula sobre como fazer análises quantitativas pertinentes e, tão importante quanto, como apresentar os resultados de uma maneira que o leigo possa entender e compreender temas complexos. Ou seja, embora dirigido a profissionais que lidam com estatísticas em seu dia-a-dia, como médicos, pesquisadores e cientistas sociais, seu livro pode ser muito útil para jornalistas.

Prova disso é seu conselho para que o redator sempre contextualize seus dados com o que em inglês ela chama de W’s (Who, Where, When e What), e que em português poderia ser sintetizado em 3QO: Quem fez o que, quando e onde (ou “o que aconteceu com quem, quando e onde”). Parece um versão resumida dos elementos fundamentais do lide, não? “Sem eles (3QO)”, escreve Miller, “seu público não poderá interpretar os números e, provavelmente, assumirá que você está falando do tempo e lugar presente”. Tipo, a população do Brasil em 2009. Números ou estatísticas sem o 3QO são inúteis, arremata Miller.

41K9MHG7JQL._SL500_AA240_

O risco, todavia, é transformar o texto em um relatório ilegível e repetitivo. Para evitar isso, a autora recomenda especificar o 3QO na primeira sentença, e redigir o resto do parágrafo assumindo que o contexto não mudou. Isso vale se você só citar novos números quando houver mudança do contexto. Eis o exemplo que ela dá:

“Quando a peste negra atingiu a Europa na segunda metade do século XIV, ela ceifou a vida de 25 milhões de pessoas. A doença matou cerca de um quarto da população europeia à época. Epidemias menores ocorreram entre 1300 e 1600”.

A primeira frase contém todos os elementos necessários para contextualizar os números. A segunda fornece uma comparação (25% da população) que permite ao leitor ter uma melhor ideia da magnitude do problema. Mas a última frase, apesar de especificar um novo período, não repetiu “o que” nem o “onde”, implicando que se tratavam de epidemias da mesma doença na Europa.

MillerDSC00118

Os conselhos de Miller, professora de métodos de pesquisa e estatística da Rudgers University, são increvelmente atuais para jornalistas brasileiros envolvidos na cobertura da mais recente pandemia viral.

Em um texto sobre a gripe H1N1, por exemplo, você vai querer fazer várias contextualizações que o levarão a repetir eventualmente o 3QO nos parágrafos seguintes, quando comparar as taxas de mortalidade da “suína” com a da gripe comum, ou a incidência e a letalidade da doença em diferentes regiões do país ou entre grupos etários, ou com outras epidemias de gripe em outras épocas. Nesse caso, convém apresentar um “benchmark”, uma medida de comparação, que ajude o leitor a entender a magnitude do problema. Afinal, por que tanto auê em torno da H1N1? É por que ela mata muito, por causa da sua abrangência?

Miller recomenda que, num texto assim, o autor discuta cada tópico em um parágrafo diferente, que deve começar com uma frase que explicite o propósito e o contexto da comparação. E aí inclua o 3QO.

Written by Jose Roberto de Toledo

04/08/2009 at 4:03

Publicado em Uncategorized

Tagged with