TOLEDOL, o blog sobre RAC

Reportagem com Auxílio do Computador (RAC) e jornalismo investigativo

Posts Tagueados ‘excel

Ferramentas para analisar o discurso de políticos e candidatos

Publiquei nesta segunda no Vox Publica uma comparação quantitativa dos discursos de José Serra e Dilma Rousseff ao se lançarem pré-candidatos à sucessão presidencial. Se quiser saber como esse material foi produzido, siga os passos:

1) obtenha as íntegras escritas dos discursos a serem analisados

2) instale um programa contador de palavras no seu computador. Se usar Mac, sugiro o Word Counter

3) jogue os discursos no contador de palavras e peça para ele fazer as seguintes coisas, separadamente para cada discurso: contá-las, produzir uma tabela de frequência de palavras e gerar um quadro estatístico de legibilidade

4) copie a tabela de frequência dos dois discursos e cole no Excel, um embaixo do outro

5) crie uma nova coluna no Excel (nomeie-a “candidatos”) e preencha-a em todas as linhas onde houver palavras com o nome do candidato que as disse

6) para compatibilizar as mesmas palavras ditas por Serra e Dilma, lado a lado, selecione toda a tabela, clique em “Dados/Tabela dinâmica” no menu superior do Excel

7) siga os passos e crie uma tabela dinâmica com “palavras” nas linhas, “candidatos” nas colunas e a soma das vezes que as palavras foram citadas no conteúdo

8 ) copie as colunas “palavras”, “Serra” e “Dilma” da tabela dinâmica para uma outra planilha do Excel

9) crie novas colunas que vão ajudá-lo a filtrar as palavras (são milhares): tamanho (use a função NÚM.CARACT [LEN, em inglês] para contar quantos caracteres tem cada palavra), verbos, substantivos etc

10) filtre e classifique a tabela segundo o que você quer descobrir: quais palavras cada candidato falou mais, quais as formas pronominais que mais empregaram, os verbos etc

11) copie e cole o produto de suas filtragens em outra planilha, criando assim pequenas tabelas sintéticas com suas conclusões

12) transforme as tabelas sintéticas em gráficos, usando o próprio Excel ou o ManyEyes. Este é melhor para elaborar gráficos de matriz, comparando em círculos proporcionais ao número de citações as palavras ditas pelos candidatos individualmente

O resultado poderá ser um gráfico como este:

Escrito por Jose Roberto de Toledo

12/04/2010 em 4:59

Publicado em Jornalismo Investigativo

Etiquetado com

Comparado a quê? Eis a questão

Em meio a tantas balas perdidas, o secretário de Segurança Pública fluminense, José Mariano Beltrame, fez um achado: “O Rio de Janeiro não é violento. O Rio de Janeiro tem núcleos de violência. Temos índices de criminalidade em determinadas áreas do Rio de Janeiro que são europeus. O Rio de Janeiro não pode receber um programa que seja o mesmo do Oiapoque ao Chuí (vide o blog Caso de Polícia)”.

Procurando bem, sempre é possível achar uma estatística que prove o que você quer. Afinal, como dizia o outro, “bem torturados, os números revelam qualquer coisa”. O secretário deve estar se referindo aos índices de criminalidade de um bairro da Zona Sul (as tais “determinadas áreas”) e comparando-os ao de um continente, o europeu. É covardia.

Não se deve comparar uma média heterogênea e ampla, como a da Europa, com a de um bairro pequeno e homogêneo, como a Urca. No limite, o raciocínio do secretário vai levá-lo a comparar o nível de criminalidade do Barra Shopping com o de Washington DC e concluir que é muito mais arriscado viver na Casa Branca do que na Rocinha.

Em favor do secretário, diga-se que ele não inventou essa chicana estatística. É muito comum os jornalistas usarmos esse recurso para enfatizar uma diferença e ganhar uma manchete. Você já deve ter lido algum título mais ou menos assim: “Bairro paulistano tem qualidade de vida suíça”. Diferenças climáticas e paisagísticas a parte, qualquer comparação de parte com o todo é uma manipulação. Não fosse assim, os rankings de qualidade de vida, criminalidade, IDH, PIB per capita etc seriam todos uma bagunça, misturando países, cidades, continentes, bairros.

É aceitável referir, em um contexto bem explicado, à semelhança entre os índices de violência de um bairro e os de um país, mas apenas como um parâmetro, para ilustrar se esse número é alto ou baixo, não como uma comparação direta.

Tome-se o caso dos homicídios. O que interessa é saber qual o risco que um morador de determinada área corre de morrer assassinado e compará-lo com o de outras áreas semelhantes. Podem ser bairros versus bairros, distritos versus distritos, cidades versus cidades, ou países versus países. Em todos esses casos, trata-se de um cálculo estimado, baseado em uma média e sujeito a erros.

Tanto menor a margem de erro quanto maior for a homogeneidade do universo em estudo. Se você quiser saber qual o seu risco pessoal de tomar um tiro fatal, divida quantos moradores do seu bairro, sexo e faixa etária foram mortos a bala ao longo de um ano pelo número de moradores desse mesmo bairro que sejam do seu sexo e estejam na sua faixa etária. Se você morar no centro paulistano, na República, terá um risco cerca de 20 vezes  maior de ser assassinado do que ser morar nos Jardins.

O mesmo vale para o Rio. Morar na Barra é mais seguro do que morar no Complexo do Alemão. Mas, na média, o risco de um carioca morrer assassinado é 2,4 vezes maior do que o de um paulistano (2007, Datasus). E nem sempre foi assim: em 2000, na média, um morador do Rio tinha menos chances de ser assassinado do que um morador de São Paulo. Talvez fosse mais seguro se o secretário se ocupasse em explicar essa estatística.

Escrito por Jose Roberto de Toledo

05/11/2009 em 17:40

PAUTA: São Paulo perde migrantes e Salvador ganha

A Grande São Paulo perdeu seu poder de atração de imigrantes de outros estados do país. Há menos moradores não-paulistas vivendo na Grande São Paulo hoje do que no início da década. Entre 2001 e o ano passado, a redução foi de 9,4%. Mesmo assim, 3 em cada 10 habitantes dos 39 municípios da Região Metropolitana de São Paulo nasceram em outros estados.

A tendência de regressão da migração é nacional, mas mais forte nas metrópoles. Em todo o país, cerca de 16% dos brasileiros não moram na mesma cidade em que nasceram, um decréscimo de 2,3% em comparação a sete anos antes. Outras regiões metropolitanas experimentaram refluxos ainda mais dramáticos de migrantes, como Belém e Recife.

Ao mesmo tempo, as grandes Salvador, Fortaleza e Porto Alegre assistiram a um crescimento significativo dos migrantes de outros estados 15%, 11% e 8%, respectivamente.

Uma boa história a ser contada é identificar quem está deixando de migrar (ou está voltando para seus estados natais), por quais motivos, se está fazendo isso sozinho ou com a família, se são empregados ou desempregados, se os programas de transferência de renda têm papel nesse fenômeno. É possível responder a essas questões entrevistando especialistas e, principalmente, os dados da PNAD 2008.

O melhor lugar para pesquisar é no SIDRA, do IBGE, principalmente nas tabelas 355, 1840, 1850, 1854 e 2857. Pela tabela dá para saber quantos mineiros moram no Amapá, ou quantos gaúchos vivem no Ceará (e ver quais contingentes estão aumentando e quais estão diminuindo).

View this document on Scribd

Escrito por Jose Roberto de Toledo

18/09/2009 em 22:45

Saiba como escarafunchar os dados da PNAD 2008

Como você sabe, saíram os dados da PNAD 2008. Quem estiver com pressa ou preguiça, pode ficar apenas no release do IBGE, que é sempre amplo. Quem quiser ir mais fundo e escavar suas próprias pautas, pode, depois de ler o release, ir à página da PNAD no site SIDRA, também do IBGE. Lá, além dos dados de 2008, é possível consultar a série histórica desde 2001 para alguns indicadores e aplicar filtros.

A PNAD é, depois do Censo, a pesquisa mais importante feita pelo IBGE. Embora não chegue ao nível municipal, é o mais amplo e diversificado panorama socioeconômico do Brasil. Para os jornalistas, é uma mina de reportagens à procura de bons garimpeiros. Mas achar ouro requer tempo e energia. Por isso, é importante entrevistar os dados, exportando as tabulações do site para uma planilha eletrônica tipo Excel. E lá, usar o beabá da estatística descritiva para extrair manchetes.

Por exemplo, jornalistas de veículos regionais podem calcular as taxas de desemprego (o mais correto é chamar de taxa de desocupação, mas o leitor não merece) para seus estados e regiões metropolitanas. Vai dar um pouco de trabalho, mas é um ótimo exercício de RAC.

Começa-se montando uma tabela da População Economicamente Ativa (PEA) por UF aqui (tabela 1864) . Selecione, pela ordem: 1) Pessoas de 10 anos ou mais de idade, 2) Economicamente Ativa, 3) 2001 a 2008 (usando a tecla shift para selecionar mais de um ano), que devem ficar nas colunas, 4) Unidade da Federação: Tudo (devem ficar nas linhas). Deixe o resto como está e peça para visualizar o resultado, ou gere um arquivo em formato .CSV para abrir direto no Excel.

O passo seguinte é montar uma tabela igual, mas apenas com a população ocupada, aqui (tabela 1868). Selecione, pela ordem: 1) Pessoas de 10 anos ou mais de idade que procuraram trabalho na semana de referência, 2) Condição de ocupação: Desocupadas, 3) 2001 a 2008 (usando a tecla shift para selecionar mais de um ano), que devem ficar nas colunas, 4) Unidade da Federação: Tudo (devem ficar nas linhas). Deixe o resto como está e peça para visualizar o resultado, ou gere um arquivo em formato .CSV para abrir direto no Excel.

No Excel, coloque ambas as tabelas em uma mesma aba de um mesmo arquivo e renomeie-a como “original”, para saber que esses são os dados como você os copiou e antes de manipulá-los. Crie uma cópia dessa aba, e batize-a de “trabalho”. É nela que você vai fazer os cálculos.

Para nossa matéria, vamos comparar os dados de três anos: 2002, 2007 e 2008. Por que? 2002 foi o último ano do governo FHC, 2007 é o ano de referência mais próximo e 2008 reflete a situação pré-crise financeira. O primeiro passo é ocultar as colunas dos demais anos na planilha “trabalho” (clique com o botão da direita do mouse sobre o nome da coluna [A, C...] e marque “ocultar”).

Insira duas colunas em branco, uma entre 2002 e 2007 e outra entre 2007 e 2008. No cabeçalho dessas colunas em branco escreva “taxa 2002″, “taxa 2007″ e “taxa 2008″, respectivamente. Na célula imediatamente abaixo, correspondente à linha “Brasil”, você vai escrever a fórmula de cálculo da taxa de desocupação:

=Cx/Cy, onde “Cx” corresponde à célula onde está o número de brasileiros desocupados que procuraram emprego em 2002 e “Cy” corresponde à célula onde está o número da PEA do Brasil em 2002.

Aperte “enter” no teclado e transforme a célula em porcentagem (clique com o botão da direita e escolha Formatar Célula). O resultado tem que dar 9,2%. Copie e cole a fórmula nas células abaixo para descobrir as taxas das UFs. Repita a operação com as colunas de 2007 e 2008.

Se analisar os resultados corretamente, descobrirá que as taxas de desemprego podem ser mais de três vezes maiores em certos Estados do que em outros, que enquanto em algumas UFs o desemprego caiu 41% de 2007 para 2008, em outras a taxa aumentou 39%, que Lula vai bater bumbo dizendo que reduziu em mais de 20% a taxa de desemprego que recebeu de FHC (cuidado aí, porque os efeitos da crise só aparecerão na PNAD 2009, se houver).

Abaixo, as tabelas elaboradas ao longo deste exercício; se quiser os resultados, vá à pág. 9:

View this document on Scribd

Isso é só um exemplo das centenas de matérias que podem ser feitas escarafunchando os dados da PNAD 2008. Pegue seus equipamentos e comece a cavoucar.

Escrito por Jose Roberto de Toledo

18/09/2009 em 16:07

Para perder o medo do Excel – 2

Abaixo, uma outra maneira de calcular a variação proporcional usando o Excel. Dessa vez, o cálculo inclui a variação bruta. É bom saber fazer de ambos os jeitos porque cada um se presta melhor a uma situação. O cálculo de variação é o mais comumente usado por qualquer jornalista em qualquer editoria. No mínimo, você vai querer saber quanto a circulação do jornal caiu em relação ao ano anterior…

Escrito por Jose Roberto de Toledo

02/09/2009 em 1:47

Publicado em Reportagem com Auxílio do Computador

Etiquetado com

Para perder o medo do Excel – 1

Esse tema já foi tratado aqui, mas há coisas que são mais fáceis de explicar usando recursos multimídia. Entre elas está como fazer cálculos no Excel. Abaixo, segue um vídeo que ensina como calcular a variação percentual usando a planilha eletrônica. Se você tiver outras dúvidas sobre como usar o Excel, deixe um comentário que tentarei responder, na medida da minha ignorância.

Escrito por Jose Roberto de Toledo

02/09/2009 em 1:38

Publicado em Reportagem com Auxílio do Computador

Etiquetado com

Inscreva-se para novo curso online de RAC

O Knight Center for Journalism in the Americas abriu inscrições para mais um curso online de introdução à Reportagem com Auxílio do Computador (RAC). São quatro semanas de ensino à distância, cobrindo quatro grandes tópicos: busca avançada na internet, uso de bases de dados online e offline, planilha eletrônica (Excel) aplicada ao jornalismo e um roteiro para criar o seu próprio banco de dados usando softwares gratuitos. Duas coisas importantes: o curso é grátis e é em português (não tem outro no idioma lusitano).

O curso de RAC à distância tem três grandes vantagens sobre cursos presenciais curtos: 1) você pode fazer o curso na hora que bem entender, inclusive de madrugada (as aulas são em vídeo, powerpoint e texto), 2) você pode praticar o que aprendeu imediatamente fazendo exercícios com correção automática, 3) através dos fóruns online, você tira dúvidas com os instrutores e faz contatos com jornalistas de todo o Brasil (as resposta às perguntas costumam vir em minutos, no máximo em horas).

Picture 37

O Knight Center está encerrando um curso de RAC por estes dias. Participaram intensamente jornalistas profissionais dos Pampas à Amazônia, além de brasileiros radicados nos EUA, Alemanha e Bolívia. Um dos subprodutos do curso foi este banco de dados, elaborado por uma das participantes, com links explicativos sobre dezenas de sites úteis para apurar informações para reportagens.

O Knight Center está baseado na Universidade do Texas, em Austin. É comandado por um veterano jornalista brasileiro, Rosental Calmon Alves (no Twitter, @rosental). O instrutor do curso serei eu, com auxílio da jornalista Vanessa Higgins.

Para se inscrever, preencha este formulário online e torça para ser selecionado para uma das 70 vagas. Para saber mais sobre o Knight Center e sobre o curso, visite a página deles na internet.

Escrito por Jose Roberto de Toledo

29/08/2009 em 7:16

Comparado a que? Eis a questão

A matemática é uma ciência exata, mas interpretar números é o reino do relativo. Um mesmo valor pode ser grande ou pequeno dependendo da comparação. Saber comparar, portanto, é o grande desafio para jornalistas quando escrevem (ou falam) sobre qualquer assunto que envolva estatísticas.

“O patrimônio do deputado Sinfrônio dobrou de valor em quatro anos de mandato”. É muito ou pouco? Depende. E, pior, depende de vários fatores: do patamar de onde o deputado partiu, se o ritmo de crescimento dos seus bens desacelerou ou se intensificou nos últimos tempos, e de como ele se saiu em relação a seus pares. Se, na média, o patrimônio dos outros parlamentares quadruplicou, então Sinfrônio deve estar na oposição.

Mas se Sinfrônio tinha um Fusca 68 e morava de aluguel antes da eleição, e agora detém um quarto-e-sala e anda de Honda Civic 99, é provável que seu patrimônio tenha dado um salto em termos proporcionais (deduplicado, dependendo da quilometragem do fusquinha). Em valores absolutos, entretanto, ele é tão emergente quanto um eleitor da classe C.

Já o senador Argentário viu seu patrimônio crescer “apenas” 40% ao longo de oito anos de mandato, de R$ 100 milhões para R$ 140 milhões. Classificando-se pela coluna do crescimento relativo do patrimônio, ele se equivaleria ao baixo clero do Congresso. Já pela coluna do crescimento absoluto, Argentário frequentaria o sínodo dos cardeais bigodudos.

Mais complicada de se analisar é a situação do deputado Retilíneo. Seu patrimônio (que não é uma fortuna mas é maior do que o seu, o meu e o nosso) cresceu na mesma média dos seus colegas de partido ao longo dos últimos quatro anos: 200%. Porém, antes de virar-casaca e se transferir da oposição para uma sigla da base aliada, no mandato anterior Retilíneo tinha empobrecido alguns milhares de reais. A notícia, portanto, é a mudança de vetor, de desaceleração para o espetáculo do crescimento.

Os exemplos acima, por mais estúpidos que pareçam (deputado empobrecendo?!), mostram que não há uma regra única para se comparar e, portanto, para se analisar os números. Tudo depende de com que se compara.

Felizmente, alguém já pensou nisso antes e inventou um negócio chamado estatística descritiva. São algumas fórmulas básicas que o jornalista pode usar quando tem que mastigar uma tabela cheia de cifras:

  1. calcule a média (soma dos valores dividida pelo número de fatores)
  2. calcule a mediana (ponto médio de um intervalo de dados, ex: num conjunto que vai de 1 a 5, é 3; se fosse de 1 a 6, seria 3,5)
  3. compare média e mediana (quanto mais distantes uma da outra, mais desigual é a amostra: se a média for muito maior, é porque tem alguém puxando ela para cima e vice-versa)
  4. identifique o valor máximo
  5. identifique o valor mínimo
  6. subtraia o mínimo do máximo para calcular a amplitude da mostra
  7. calcule a variação bruta dos valores no tempo, subtraindo o mais velho do mais novo
  8. calcule a variação proporcional, dividindo a variação bruta pelo valor mais novo
  9. procure padrões de comportamento nos números
  10. identifique os pontos fora da curva, aquilo que foge ao padrão, ou seja, a notícia

Cálculos feitos, o jornalista terá parâmetros para comparar um valor específico com os demais e saber se aquilo é muito ou é pouco. Claro que tudo isso fica muito mais fácil usando uma planilha de cálculo como Excel ou Google Spreadsheet.

Escrito por Jose Roberto de Toledo

27/08/2009 em 2:33

Links, websites para IPyS Colpin

Websites citados por Lise Olsen (IRE, USA), Giannina Segnini (La Nación, Costa Rica) e José Roberto de Toledo (Abraji, Brasil) en “Qué Hay de Nuevo en la Investigación por Computadora” – IPyS Colpin (Conferencia Latinoamericana de Periodismo de Investigación) – Lima, 18/08/2009:

Sitios útiles y trucos para aprovechar de las técnicas de

Periodismo Asistido por Computadora (PAC)

Lise Olsen, reportera de investigación

The Houston Chronicle

Miembro de la junta directiva de Investigative Reporters and Editors,

(713) 362-7462

lise.olsen@chron.com

Giannina Segnini, Jefa de Redacción

La Nación de Costa Rica

(506) 2247-4265

gsegnini@nacion.com

José Roberto Toledo

ABRAJI y director de Prima Pagina, Brasil

Leia o resto deste post »

Escrito por Jose Roberto de Toledo

18/08/2009 em 10:25

Dez perguntas sobre RAC para Lise Olsen, diretora do IRE (EUA)

“O Brasil é um dos países líderes em jornalismo investigativo no mundo”. A frase seria cabotina se dita por um brasileiro. Mas quem a formulou tem experiência e conhecimento sobre o assunto -o que só aumenta a importância da declaração.

LISE OLSEN_IRE_H CHRONICLE

Integrante do conselho diretor do Investigative Reporters and Editors (IRE), a Abraji dos EUA (eia pretensão), Lise Olsen é repórter investigativa do Houston Chronicle, um dos maiores jornais dos EUA. Lise teve um papel fundamental na disseminação das técnicas de Reportagem com Auxílio do Computador (RAC) na América Latina. Esteve à frente do IRE do México entre 1996 e 1998 e deu cursos de RAC em mais de uma dezena de países, inclusive o Brasil, ainda na segunda metade dos anos 90.

Por causa de seu pioneirismo no RAC brasileiro nasceu a ideia de iniciar por Lise esta que, espero, seja a primeira de uma série de entrevistas com jornalistas que são paradigmas do uso do computador como uma ferramenta de apuração e/ou organização e análise de informações.

1 – Como você começou a trabalhar com RAC e por que?

Lise Olsen - Eu logo fiquei excitada com o poder do uso de documentos para expor segredos e corrupção. Em 1994, eu comecei a aprender RAC depois de perceber que o computador nos permitiria analisar milhares ou mesmo milhões de dados muito mais rapidamente do que resgatando um fichário de cada vez de um arquivo físico. Mas, é claro, eu ainda faça as duas coisas (RAC e pesquisa a arquivos de papel).

2 – Desde que você começou, quais foram as principais mudanças ocorridas nas técnicas de RAC?

Lise – A principal mudança foi a explosão da internet. São tantas bases de dados disponíveis na web hoje me dia que  eu fico surpresa que ainda haja algum repórter que não tenha se dado conta de que é necessário saber técnicas de RAC. Também se tornou muito comum para repórteres que fazem investigações usar planilhas eletrônicas. Nos velhos tempos, apenas os repórteres de economia e negócios sabiam lidar com elas. E hoje todo mundo está “blogando”, e montando bases de dados interativas e mapas, tornando nossas investigações mais interativas e acessíveis para o público do que jamais foram.

3 – Como você se mantém atualizada sobre as novas tendências de RAC?

Lise – Eu frequento as conferências organizadas pelos grupos mais avançados como o IRE, o Knight Center for Journalism in the Americas e, quando tenho sorte, da Abraji (Associação Brasileira de Jornalismo Investigativo) e do IPyS (Instituto Prensa y Sociedad, do Peru) na América do Sul. E frequentemente peço conselhos a amigos que se especializaram em diferentes aspectos do RAC, como pesquisa de notícias, mapeamento, estatística e programação.

Leia o resto deste post »

Escrito por Jose Roberto de Toledo

14/08/2009 em 4:45

Seguir

Obtenha todo post novo entregue na sua caixa de entrada.

Join 35 other followers