TOLEDOL, o blog sobre RAC

Reportagem com Auxílio do Computador (RAC) e jornalismo investigativo

Posts Tagged ‘excel

Ferramentas para analisar o discurso de políticos e candidatos

Publiquei nesta segunda no Vox Publica uma comparação quantitativa dos discursos de José Serra e Dilma Rousseff ao se lançarem pré-candidatos à sucessão presidencial. Se quiser saber como esse material foi produzido, siga os passos:

1) obtenha as íntegras escritas dos discursos a serem analisados

2) instale um programa contador de palavras no seu computador. Se usar Mac, sugiro o Word Counter

3) jogue os discursos no contador de palavras e peça para ele fazer as seguintes coisas, separadamente para cada discurso: contá-las, produzir uma tabela de frequência de palavras e gerar um quadro estatístico de legibilidade

4) copie a tabela de frequência dos dois discursos e cole no Excel, um embaixo do outro

5) crie uma nova coluna no Excel (nomeie-a “candidatos”) e preencha-a em todas as linhas onde houver palavras com o nome do candidato que as disse

6) para compatibilizar as mesmas palavras ditas por Serra e Dilma, lado a lado, selecione toda a tabela, clique em “Dados/Tabela dinâmica” no menu superior do Excel

7) siga os passos e crie uma tabela dinâmica com “palavras” nas linhas, “candidatos” nas colunas e a soma das vezes que as palavras foram citadas no conteúdo

8 ) copie as colunas “palavras”, “Serra” e “Dilma” da tabela dinâmica para uma outra planilha do Excel

9) crie novas colunas que vão ajudá-lo a filtrar as palavras (são milhares): tamanho (use a função NÚM.CARACT [LEN, em inglês] para contar quantos caracteres tem cada palavra), verbos, substantivos etc

10) filtre e classifique a tabela segundo o que você quer descobrir: quais palavras cada candidato falou mais, quais as formas pronominais que mais empregaram, os verbos etc

11) copie e cole o produto de suas filtragens em outra planilha, criando assim pequenas tabelas sintéticas com suas conclusões

12) transforme as tabelas sintéticas em gráficos, usando o próprio Excel ou o ManyEyes. Este é melhor para elaborar gráficos de matriz, comparando em círculos proporcionais ao número de citações as palavras ditas pelos candidatos individualmente

O resultado poderá ser um gráfico como este:

Written by Jose Roberto de Toledo

12/04/2010 at 4:59

Publicado em Jornalismo Investigativo

Tagged with

Comparado a quê? Eis a questão

Em meio a tantas balas perdidas, o secretário de Segurança Pública fluminense, José Mariano Beltrame, fez um achado: “O Rio de Janeiro não é violento. O Rio de Janeiro tem núcleos de violência. Temos índices de criminalidade em determinadas áreas do Rio de Janeiro que são europeus. O Rio de Janeiro não pode receber um programa que seja o mesmo do Oiapoque ao Chuí (vide o blog Caso de Polícia)”.

Procurando bem, sempre é possível achar uma estatística que prove o que você quer. Afinal, como dizia o outro, “bem torturados, os números revelam qualquer coisa”. O secretário deve estar se referindo aos índices de criminalidade de um bairro da Zona Sul (as tais “determinadas áreas”) e comparando-os ao de um continente, o europeu. É covardia.

Não se deve comparar uma média heterogênea e ampla, como a da Europa, com a de um bairro pequeno e homogêneo, como a Urca. No limite, o raciocínio do secretário vai levá-lo a comparar o nível de criminalidade do Barra Shopping com o de Washington DC e concluir que é muito mais arriscado viver na Casa Branca do que na Rocinha.

Em favor do secretário, diga-se que ele não inventou essa chicana estatística. É muito comum os jornalistas usarmos esse recurso para enfatizar uma diferença e ganhar uma manchete. Você já deve ter lido algum título mais ou menos assim: “Bairro paulistano tem qualidade de vida suíça”. Diferenças climáticas e paisagísticas a parte, qualquer comparação de parte com o todo é uma manipulação. Não fosse assim, os rankings de qualidade de vida, criminalidade, IDH, PIB per capita etc seriam todos uma bagunça, misturando países, cidades, continentes, bairros.

É aceitável referir, em um contexto bem explicado, à semelhança entre os índices de violência de um bairro e os de um país, mas apenas como um parâmetro, para ilustrar se esse número é alto ou baixo, não como uma comparação direta.

Tome-se o caso dos homicídios. O que interessa é saber qual o risco que um morador de determinada área corre de morrer assassinado e compará-lo com o de outras áreas semelhantes. Podem ser bairros versus bairros, distritos versus distritos, cidades versus cidades, ou países versus países. Em todos esses casos, trata-se de um cálculo estimado, baseado em uma média e sujeito a erros.

Tanto menor a margem de erro quanto maior for a homogeneidade do universo em estudo. Se você quiser saber qual o seu risco pessoal de tomar um tiro fatal, divida quantos moradores do seu bairro, sexo e faixa etária foram mortos a bala ao longo de um ano pelo número de moradores desse mesmo bairro que sejam do seu sexo e estejam na sua faixa etária. Se você morar no centro paulistano, na República, terá um risco cerca de 20 vezes  maior de ser assassinado do que ser morar nos Jardins.

O mesmo vale para o Rio. Morar na Barra é mais seguro do que morar no Complexo do Alemão. Mas, na média, o risco de um carioca morrer assassinado é 2,4 vezes maior do que o de um paulistano (2007, Datasus). E nem sempre foi assim: em 2000, na média, um morador do Rio tinha menos chances de ser assassinado do que um morador de São Paulo. Talvez fosse mais seguro se o secretário se ocupasse em explicar essa estatística.

Written by Jose Roberto de Toledo

05/11/2009 at 17:40

PAUTA: São Paulo perde migrantes e Salvador ganha

A Grande São Paulo perdeu seu poder de atração de imigrantes de outros estados do país. Há menos moradores não-paulistas vivendo na Grande São Paulo hoje do que no início da década. Entre 2001 e o ano passado, a redução foi de 9,4%. Mesmo assim, 3 em cada 10 habitantes dos 39 municípios da Região Metropolitana de São Paulo nasceram em outros estados.

A tendência de regressão da migração é nacional, mas mais forte nas metrópoles. Em todo o país, cerca de 16% dos brasileiros não moram na mesma cidade em que nasceram, um decréscimo de 2,3% em comparação a sete anos antes. Outras regiões metropolitanas experimentaram refluxos ainda mais dramáticos de migrantes, como Belém e Recife.

Ao mesmo tempo, as grandes Salvador, Fortaleza e Porto Alegre assistiram a um crescimento significativo dos migrantes de outros estados 15%, 11% e 8%, respectivamente.

Uma boa história a ser contada é identificar quem está deixando de migrar (ou está voltando para seus estados natais), por quais motivos, se está fazendo isso sozinho ou com a família, se são empregados ou desempregados, se os programas de transferência de renda têm papel nesse fenômeno. É possível responder a essas questões entrevistando especialistas e, principalmente, os dados da PNAD 2008.

O melhor lugar para pesquisar é no SIDRA, do IBGE, principalmente nas tabelas 355, 1840, 1850, 1854 e 2857. Pela tabela dá para saber quantos mineiros moram no Amapá, ou quantos gaúchos vivem no Ceará (e ver quais contingentes estão aumentando e quais estão diminuindo).

View this document on Scribd

Written by Jose Roberto de Toledo

18/09/2009 at 22:45

Saiba como escarafunchar os dados da PNAD 2008

Como você sabe, saíram os dados da PNAD 2008. Quem estiver com pressa ou preguiça, pode ficar apenas no release do IBGE, que é sempre amplo. Quem quiser ir mais fundo e escavar suas próprias pautas, pode, depois de ler o release, ir à página da PNAD no site SIDRA, também do IBGE. Lá, além dos dados de 2008, é possível consultar a série histórica desde 2001 para alguns indicadores e aplicar filtros.

A PNAD é, depois do Censo, a pesquisa mais importante feita pelo IBGE. Embora não chegue ao nível municipal, é o mais amplo e diversificado panorama socioeconômico do Brasil. Para os jornalistas, é uma mina de reportagens à procura de bons garimpeiros. Mas achar ouro requer tempo e energia. Por isso, é importante entrevistar os dados, exportando as tabulações do site para uma planilha eletrônica tipo Excel. E lá, usar o beabá da estatística descritiva para extrair manchetes.

Por exemplo, jornalistas de veículos regionais podem calcular as taxas de desemprego (o mais correto é chamar de taxa de desocupação, mas o leitor não merece) para seus estados e regiões metropolitanas. Vai dar um pouco de trabalho, mas é um ótimo exercício de RAC.

Começa-se montando uma tabela da População Economicamente Ativa (PEA) por UF aqui (tabela 1864) . Selecione, pela ordem: 1) Pessoas de 10 anos ou mais de idade, 2) Economicamente Ativa, 3) 2001 a 2008 (usando a tecla shift para selecionar mais de um ano), que devem ficar nas colunas, 4) Unidade da Federação: Tudo (devem ficar nas linhas). Deixe o resto como está e peça para visualizar o resultado, ou gere um arquivo em formato .CSV para abrir direto no Excel.

O passo seguinte é montar uma tabela igual, mas apenas com a população ocupada, aqui (tabela 1868). Selecione, pela ordem: 1) Pessoas de 10 anos ou mais de idade que procuraram trabalho na semana de referência, 2) Condição de ocupação: Desocupadas, 3) 2001 a 2008 (usando a tecla shift para selecionar mais de um ano), que devem ficar nas colunas, 4) Unidade da Federação: Tudo (devem ficar nas linhas). Deixe o resto como está e peça para visualizar o resultado, ou gere um arquivo em formato .CSV para abrir direto no Excel.

No Excel, coloque ambas as tabelas em uma mesma aba de um mesmo arquivo e renomeie-a como “original”, para saber que esses são os dados como você os copiou e antes de manipulá-los. Crie uma cópia dessa aba, e batize-a de “trabalho”. É nela que você vai fazer os cálculos.

Para nossa matéria, vamos comparar os dados de três anos: 2002, 2007 e 2008. Por que? 2002 foi o último ano do governo FHC, 2007 é o ano de referência mais próximo e 2008 reflete a situação pré-crise financeira. O primeiro passo é ocultar as colunas dos demais anos na planilha “trabalho” (clique com o botão da direita do mouse sobre o nome da coluna [A, C…] e marque “ocultar”).

Insira duas colunas em branco, uma entre 2002 e 2007 e outra entre 2007 e 2008. No cabeçalho dessas colunas em branco escreva “taxa 2002”, “taxa 2007” e “taxa 2008”, respectivamente. Na célula imediatamente abaixo, correspondente à linha “Brasil”, você vai escrever a fórmula de cálculo da taxa de desocupação:

=Cx/Cy, onde “Cx” corresponde à célula onde está o número de brasileiros desocupados que procuraram emprego em 2002 e “Cy” corresponde à célula onde está o número da PEA do Brasil em 2002.

Aperte “enter” no teclado e transforme a célula em porcentagem (clique com o botão da direita e escolha Formatar Célula). O resultado tem que dar 9,2%. Copie e cole a fórmula nas células abaixo para descobrir as taxas das UFs. Repita a operação com as colunas de 2007 e 2008.

Se analisar os resultados corretamente, descobrirá que as taxas de desemprego podem ser mais de três vezes maiores em certos Estados do que em outros, que enquanto em algumas UFs o desemprego caiu 41% de 2007 para 2008, em outras a taxa aumentou 39%, que Lula vai bater bumbo dizendo que reduziu em mais de 20% a taxa de desemprego que recebeu de FHC (cuidado aí, porque os efeitos da crise só aparecerão na PNAD 2009, se houver).

Abaixo, as tabelas elaboradas ao longo deste exercício; se quiser os resultados, vá à pág. 9:

View this document on Scribd

Isso é só um exemplo das centenas de matérias que podem ser feitas escarafunchando os dados da PNAD 2008. Pegue seus equipamentos e comece a cavoucar.

Written by Jose Roberto de Toledo

18/09/2009 at 16:07

Para perder o medo do Excel – 2

Abaixo, uma outra maneira de calcular a variação proporcional usando o Excel. Dessa vez, o cálculo inclui a variação bruta. É bom saber fazer de ambos os jeitos porque cada um se presta melhor a uma situação. O cálculo de variação é o mais comumente usado por qualquer jornalista em qualquer editoria. No mínimo, você vai querer saber quanto a circulação do jornal caiu em relação ao ano anterior…

Written by Jose Roberto de Toledo

02/09/2009 at 1:47

Publicado em Reportagem com Auxílio do Computador

Tagged with

Para perder o medo do Excel – 1

Esse tema já foi tratado aqui, mas há coisas que são mais fáceis de explicar usando recursos multimídia. Entre elas está como fazer cálculos no Excel. Abaixo, segue um vídeo que ensina como calcular a variação percentual usando a planilha eletrônica. Se você tiver outras dúvidas sobre como usar o Excel, deixe um comentário que tentarei responder, na medida da minha ignorância.

Written by Jose Roberto de Toledo

02/09/2009 at 1:38

Publicado em Reportagem com Auxílio do Computador

Tagged with

Inscreva-se para novo curso online de RAC

O Knight Center for Journalism in the Americas abriu inscrições para mais um curso online de introdução à Reportagem com Auxílio do Computador (RAC). São quatro semanas de ensino à distância, cobrindo quatro grandes tópicos: busca avançada na internet, uso de bases de dados online e offline, planilha eletrônica (Excel) aplicada ao jornalismo e um roteiro para criar o seu próprio banco de dados usando softwares gratuitos. Duas coisas importantes: o curso é grátis e é em português (não tem outro no idioma lusitano).

O curso de RAC à distância tem três grandes vantagens sobre cursos presenciais curtos: 1) você pode fazer o curso na hora que bem entender, inclusive de madrugada (as aulas são em vídeo, powerpoint e texto), 2) você pode praticar o que aprendeu imediatamente fazendo exercícios com correção automática, 3) através dos fóruns online, você tira dúvidas com os instrutores e faz contatos com jornalistas de todo o Brasil (as resposta às perguntas costumam vir em minutos, no máximo em horas).

Picture 37

O Knight Center está encerrando um curso de RAC por estes dias. Participaram intensamente jornalistas profissionais dos Pampas à Amazônia, além de brasileiros radicados nos EUA, Alemanha e Bolívia. Um dos subprodutos do curso foi este banco de dados, elaborado por uma das participantes, com links explicativos sobre dezenas de sites úteis para apurar informações para reportagens.

O Knight Center está baseado na Universidade do Texas, em Austin. É comandado por um veterano jornalista brasileiro, Rosental Calmon Alves (no Twitter, @rosental). O instrutor do curso serei eu, com auxílio da jornalista Vanessa Higgins.

Para se inscrever, preencha este formulário online e torça para ser selecionado para uma das 70 vagas. Para saber mais sobre o Knight Center e sobre o curso, visite a página deles na internet.

Written by Jose Roberto de Toledo

29/08/2009 at 7:16