Como a ciência de dados pode cartografar, em tempo real, a agenda de adversários políticos (ou de todo campo político)

27 de dezembro de 2016

por Fabio Malini


Por Fabio Malini, Milena Mangabeira, Ricardo Aiolfi, Thaisa Côrtes, Carolina Moreira, Patrick Ciarelli

.

Em agosto de 2016, a equipe pesquisadores do Laboratório de Estudos sobre Imagens e Cibercultura (LABIC), focados em política e eleições (LAB.POLIT.IC), deu início ao processo de modelagem de dados em dois perfis de políticos importantes do Espírito Santo, em busca de um padrão lexical do qual pudéssemos rotular as principais os temas de suas respectivas postagens. A questão que fundamentava o trabalho: como é o comportamento de adversários políticos no Facebook? E mais: é possível prever as predileções temáticas desses políticos?

A coleta dos posts no Facebook do ex-governador Renato Casagrande (PSB) e o atual governador Paulo Hartung (PMDB) ocorreu entre os dias 01 de janeiro ao dia 01 de julho de 2016, totalizando 380 publicações, sendo 170 de PH e 210 de RC. Para quem não é do ES, os dois políticos, ex-aliados, disputam a hegemonia da cena política local, com ampla vantagem (até o momento) para Hartung (apesar de sua baixa popularidade). Longe de esmiuçar a disputa paroquial dessas duas lideranças, esse trabalho visa demonstrar como a performance de políticos no Facebook pode ser objeto de métodos predictivos, isto é, de metodologias (com grandes volumes de dados) que permitam demonstrar, em tempo real, em webaplicações, ações políticas futuras tendo como base os rastros da atuações políticas no passado (no acúmulo de posts).

.

Metodologia de trabalho:  Categorização dos dados e Geração de códigos (filtros) semânticos


O primeiro passo metodológico foi realizado a partir da leitura das publicações de 2015 no Facebook oriundas das  páginas de deputados estaduais e federais do Espírito Santo, assim como senadores e candidatos ao senado e governo em 2014. O objetivo era buscar termos-chave com os quais pudessem categorizar essas publicações, de acordo com legendas criadas nos procedimentos iniciais da pesquisa , em dezembro de 2015.  Esse trabalho foi detalhado no seguinte post: http://bit.ly/2ibSXDi

A proposta nesse segundo momento foi o desenvolvimento de um estudo que fundamente a construção de um dicionário com os quais se pretende automatizar a rotulação dos posts futuros de RC, PH e demais lideranças políticas do Estado. Uma vez criado esse dicionário, qualquer post pode ser rotulado em um tema e um subtema, permitindo assim ensinar qualquer máquina a fazer um trabalho antes humano.  O produto desta fase foi então o Dicionário de Termos Políticos de Casagrande e Hartung, que pode ser acessado AQUI.  No dicionário, os termos estão distribuindo os seguintes categorias e subcategorias:

.

Atividade Política, que reúne os subtemas Presença na Mídia, Combate à corrupção, Audiência e Encontros Públicos, Comissões Parlamentares, Política Partidária, Prestação de Contas, Política Internacional, Disputa Política, Agenda Externa, Captação de Recursos, Peça Publicitária, 
Avaliação de Governo, que reúne os subtemas Governo Dilma Roussef e Governo Paulo Hartung.
Demandas Sociais, que reúne os subtemas Habitação, Cultura, Esporte, Saúde, Direitos Humanos, Mobilidade Urbana, Educação, Segurança Pública.
Desenvolvimento econômico e social, que reúne os subtemas Turismo, Artesanato, Gestão Fiscal, Produção Industrial, Prestação de contas, Premiações e Certificações, Emprego e Renda, Cultura, Crise econômica, Agronegócio, Agricultura Familiar.
Gestão de crise, que reúne, até o momento, o subtema Mobilizações Sociais. 
Infra-estrutura, que reúne os subtemas Telefonia Móvel, Estradas, Aeroporto, Portos, Saneamento Básico, Obras Públicas, 
Interação com o Leitor, que reúne os subtemas Mensagens motivacionais e Mensagens Pessoais.
Meio Ambiente, que reúne os subtemas Impactos Ambientais, Recursos Hídricos e Sustentabilidade. 

.

Os termos que constituem esse dicionário foram denominados de n-grama. A rotulação dos n-gramas se deu na tentativa de enquadrar certo número de palavras em (sub)categorias. Exemplo: as palavras “segurança”, “sustentabilidade” e “estradas” se associam, cada qual, a uma única subcategoria. Por exemplo, segurança pertence ao dicionário de  “Segurança Pública” (que pertencente à categoria “Demandas Sociais”); “Sustentabilidade” pertencente à categoria “Meio Ambiente” e “Estradas” pertence à categoria “Infraestrutura”. Asssim, quando uma única palavra é possível de ser rotulada (numa categoria ou subcategoria), a palavra é nomeada de uni-gramas. Já os termos co-ocorrentes, tais como “Estado Presente” ou “Crise Financeira” foram chamados de bigramas. A busca de todo trabalho foi voltada em identificar termos que dessem sentido assertivo à categoria/subcategoria (tema/sub-tema) de um post. Houve casos de termos associados, como “contorno do Mestre de Álvaro”, que se constitui como um pentagrama rotulado, respectivamente, como Estrada (subtema da categoria Infraestrutura) e Mobilidade Urbana, por exemplo.

Em seguida, a atividade metodológica teve como ator principal a automatização do processo, que teve como proposta realizar operação conforme o processo humano se procedeu, categorizando e subcategorizando os dados, através de algoritmos de machine learning, de acordo com o Dicionário de Termos. Para tanto, o processo foi realizado em quatro datasets: os dois primeiros da coleta inicial do dia 01/01 a 01/07 de 2016 de postagens de PH e RC; e em dois datasets com dados de 02/07 a 22/09. Sobre esse último banco de dados, Hartung e Casagrande tiveram cada um 81 publicações coletadas.

A automação gerou estatísticas que demonstra a presença, no primeiro e segundo semestre, as subcategorias e as categorias definidas pelo Dicionário. Assim, pode-se chegar ao primeiro resultado da automatização dos dados, identificando a partir da porcentagem de publicações, quais as principais agendas destacadas pelos políticos. E, assim, é possível agora manter atualizados o Dicionário com novos termos e identificar como as estratégias (ou reações) desses políticos.

Se no primeiro dataset a classificação dos posts em seus respectivos temas e sub-temas (categorias e sub-categorias) foi humana, já o segundo conjunto de posts (de julho a setembro) teve  classificação toda maquínica.

.

Comparando as agendas de Hartung e Casagrande: caminhos para a criação de aplicações de análise de opinião política em tempo real 

 

rc_temas

Gráfico 01 – Foco dos Posts de Renato Casagrande no primeiro e segundo semestres de 2016.

 

Paulo Hartung (PMDB) e Renato Casagrande (PSB), hoje, são adversários políticos e dois dos mais influentes políticos do Espírito Santo. No primeiro semestre de 2016, Casagrande concentra seus posts em temáticas mais pessoais direcionadas a interagir de modo “fofinho” com sua audiência. 39,7% do total de seus posts são para “Interação com o Leitor”. No segundo, são enquadrados na Categoria Interação com o leitor. Já no segundo semestre, 51,4% de suas mensagens estão conectadas a estratégias de relações diretas de interação com o seu público. Casagrande possui alto índice na categoria “Avaliação de Governo˜, em função de uma agenda crítica às medidas do governo PH. Esse tema somente aparece nas postagens de Hartung quando este faz um balanço crítico do governo deposto de Dilma Roussef. Casagrande se afasta, nesse segundo semestre, de uma imagem como um político pensador de modelos econômicos (de 13.2% para 3,8% no segundo semestre), mantendo sua ênfase nas demandas sociais (de 10,9% para 10,5%).

 

ph_temas

Gráfico 02 – Foco dos Posts de Paulo Hartung no primeiro e segundo semestres de 2016.

 

Já Paulo Hartung, atual governador do ES, mudou sua prioridade de agenda (Gráfico 2). Antes mais focado no tema do desenvolvimento econômico (de onde sempre extraiu o core  de sua imagem pública, a de bom gestor financeiro), passou a se constituir como “gente como a gente”, deslocando sua postura de soberano para a de cidadão conectado com a vida ordinária do povão. Isso fez prevalecer posts mais informais, centrados na categoria Interação com usuário da internet, por isso que, se, no primeiro semestre, 25% de seus posts são rotulados nessa categoria, no segundo semestre, dobraram para 50,5%. Hartung, sempre muito hábil nos processos de controle de sua imagem nos meios de comunicação de massa, vai tentando se adaptar ao meio digital, onde a conduta crítica a governos e a políticos é mais agressiva, mas também é onde afetos francos circundam aqueles que acertam na sua relação com os governados. Interessante, comparando os gráficos 01 e 02, é como a agenda ambiental para Hartung tem sido uma preocupação maior do que para Casagrande, muito em função aos fatos ambientais conturbados que sacodem a gestão do atual governador, a saber: o ecocídio provocado pelo derramamento de lama tóxica da Samarco no Rio Doce, a severa crise hídrica (que também revela a crise de modelo desenvolvimentista) e a alta demanda de reflorestamento nas áreas rurais.

Com pouco resultado para mostrar, os dois atores optam por criar mais um léxico de afetividade com suas audiências do que promover discussões e debates sobre deliberações políticas a se construir em rede, produzindo uma comunicação política em que o mundo íntimo é oferecido como alternativa a ausência de ideias e debates políticos. Talvez aí incida um dos principais efeitos do Facebook: criar uma simulação de proximidade, em que o político se reduza a uma espécie de celebridade governada por webcams mais até do que priorizar a atração de sujeitos sociais para um projeto político de transformação de mundo (o que falta a ambos políticos). Aqui, há uma diferença importante de tom entre eles. Hartung busca produzir uma imagem íntima de si que clama por um sujeito que circula pela cidade em momentos de lazer (suas pedaladas jogam a bike como a própria metáfora disso) ao mesmo tempo que força um ufanismo utópico (#amores) do marketing turístico que só fala para convertidos locais.

Essa alta intensidade na priorização de posts fofinhos para a audiência, tanto em Casagrande, quanto em Hartung, demonstra a própria falta de agendas reais a comunicar. E única alternativa para manter sua comunidade engajada em sua ação política, em momentos de poucas realizações a se demonstrar. Nesse sentido, a manutenção do equilíbrio fiscal se torna, em ambiência irrestrita de crises política e econômica, é o maior dos valores do marketing do Hartung, não à toa a subcategoria “gestão fiscal” seja o principal subtema destacado por Hartung, em 11% de suas postagens do segundo semestre de 2016, quando os efeitos da crise se agravaram. E também para Casagrande (3,7% no primeiro semestre), quando percebe que esse valor é arrancado de seu legado, também reconhecido como boa prática de gestão fiscal.

Casagrande repete a fórmula de Hartung, mas adota uma cultura de interação off line, através de seu ótimo Na Estrada com Casão. Sem mandato, Casagrande faz encontros na casa de seus eleitores, publicizando uma dupla intimidade, a sua e a daqueles que participam da ação. Amplifica a escuta política, isto é: “sai do Facebook”. Já Hartung tenta mostrar vitalidade na agenda de governo, difundindo encontros com diferentes personagens da vida social, através de seus já habituais selfies  no Palácio Anchieta, mas ainda agarrado à sua tradição de interagir a partir do Palácio. 

Quanto aos subtemas dos governadores, de acordo com a primeira relação de dados (01/01 a 01/07), Renato Casagrande optou por construir uma narrativa política que enaltece os símbolos territoriais do ES. Turismo e cultura ganham destaque em suas publicações, forjando uma relação de pertencimento territorial com sua audiência, o que, obviamente, acaba por atrair mais curtidas não-ideológicas com sua visão política. Gestão fiscal, obras públicas, segurança pública, saúde, impactos ambientais, emprego e renda, recursos hídricos e combate à corrupção foram os temas de maior preocupação de Casagrande. O ex-governador atuou para recusar a narrativa da crise do estado instalada pelo atual governo, a partir de uma estratégia criativa: ir, in locus, retratar obras públicas (de seu governo) que estão paradas ou mesmo destacar a conclusão de outras iniciadas pelo seu mandato. Os temas seguintes são mais reativos, no sentido que os fortes problemas ambientais gerados pela seca (conjugada com a própria falência do modelo de desenvolvimento do ES) e as crise econômica e política foram suficientes para as temáticas do emprego, do meio ambiente e do combate à corrupção contaminar o radar de interesses de RC.

A segunda base de dados (02/07 a 22/09) mostra que RC realça mais questões concretas das cidades, diminuindo a narrativa da “defesa do legado” contra a narrativa da salvação do ES de PH. Assim, RC priorizou os seguintes temas: segurança pública, educação, mobilidade urbana, obras públicas, impactos ambientais, gestão fiscal, recursos hídricos, combate à corrupção, emprego e renda e turismo. Abaixo, seguem as estatísticas. Na tabela da esquerda, as estatísticas em porcentagem são referentes ao total de 210 publicações. A segunda tabela tem como referência 81 posts.

.

Imagem 1 – tabela de estatística de Renato Casagrande

Tabela  1 – tabela de estatística de Renato Casagrande

.

Paulo Hartung, por sua vez, considerando o fato que é o atual governador exercício do Espírito Santo, tem como principais agendas, de acordo com seus posts do primeiro semestre, os seguintes temas: turismo, cultura, emprego e renda, obras públicas, recursos hídricos, agroindústria, crise econômica, sustentabilidade, educação e agricultura familiar. Agora, com o segundo processamento de dados: gestão fiscal, educação, emprego e renda, recursos hídricos, obras públicas, produção industrial, combate à corrupção cultura, habitação e turismo. Aqui, à esquerda, a tabela tem como total posts 170, e a segunda, 81. A diferença de um semestre para outro demonstra que o governador ataca três temas centrais em tempos de vacas magras. O primeiro é a própria manutenção do compromisso de equilíbrio fiscal de seu governo, num mar de desastres estatais no Rio de Janeiro, Rio Grande do Sul, Minas Gerais e Goiás. Hartung elencou muito bem o tema como um resultado maior de seu governo: o de manter em pé os compromissos de pagamento do Estado, demonstrando a situação superavitária (por enquanto) do Espírito Santo. Tenderá abusar desse valor positivo. Por outro lado, a presença da educação (7,1%) como segundo subtema de maior interesse de seus posts revelam seu calcanhar de aquiles até agora, dado o levante secundarista apartidário que ocorre insistentemente em seu governo.

 

Imagem 2 – tabela de estatística de Paulo Hartung

Tabela 2 – tabela de estatística de Paulo Hartung

.

Correlações entre classes (subtemas): o exemplo das Mensagens Pessoais

É possível ainda correlacionar as subcategorias identificando relacões entre elas. Por exemplo. Vê-se que, tanto Paulo Hartung, quanto Renato Casagrande, optam por transformar suas páginas em ponto de encontro informal (como tom discursivo). Mas o que exatamente de política é publicado em tons mais fofinhos nas chamadas “Mensagens Pessoais” ?

Assim, isolamos a subcategoria “Mensagens Pessoais”, pertencente a classe “Interação com o leitor”. E identificamos  se o mesmo post foi classificado em outra subcategoria. Assim podemos analisar o sentido político das mensagens mais pessoais.

 

 

subtemaxsubtemamensgpessoaisrc

Gráfico 03 –  Subtemas correlacionados à classe de post rotulada como “Mensagens Pessoais”, nos semestre 01 e 02 da página de Renato Casagrande

.

De acordo com o Gráfico 03, as Mensagens Pessoais de Renato Casagrande giram em torno de mensagens de felicitação (parabenizar aniversário de cidades), turismo (destacar belezas de regiões do ES), prestação de contas (defender-se de acusações), peça publicitária (Gifs e outros bichos),  agenda externa (caravana pelo estado e país) e obras públicas (demonstração de feitos de sua gestão que se encontram interrompidas pelo atual governo). Daí se depreende que Casagrande faz a crítica leve, que passa mais por defender o legado do seu governo do que bombardear de ataques as dificuldades de Hartung.

 

subtemaxsubtemamensgpessoaisph

Gráfico 04 – Subtemas correlacionados à classe de post rotulada como “Mensagens Pessoais”, nos semestre 01 e 02 da página de Paulo Hartung no Facebook

.

De acordo com o Gráfico 04, as Mensagens Pessoais de Paulo Hartung se avolumam mais no segundo semestre de 2016, quando inclina seus posts a um tom mais informal (antes era focado em compartilhamentos de links, simulando um curador de conteúdos econômicos online).  Assim, é importante se atentar aos dados do segundo semestre. Neles, as Mensagens Pessoais giram em torno de mensagens de felicitação (homenagens a personalidades públicas), turismo (destacar belezas de regiões do ES), agenda externa (viagens oficiais e seus efeitos), gestão fiscal (informação e medidas contra a crise econômica) e anúncio publicitário (campanhas de governo). Daí se depreende que o tom maior de Hartung vai ser levar adiante, na sua relação mais íntima com a audiência, o tema da sobrevivência financeira do ES diante da turbulência (inter)nacional. Vale à pena destacar o crescimento de postagens pessoais acerca de assuntos ambientais (pedindo racionalidade no uso da água, por exemplo), um tema que perturba a Administração.

Para efeitos de exemplificação, utilizamos a subcategoria  Mensagens Pessoais como um exemplo para explorar correlação entre subtemas. A priori, com nossa metodologia, é possível correlacionar todos os outros também.

Ao final desse trabalho, destacamos que nossa experiência constatou que quanto mais humano for a etiquetagem, melhor será  a automação maquínica da classificação de posts em temas e subtemas. A  rotulação automatizada foi realizada em 542 posts. Claro, o “segundo semestre” de 2016 teve uma amostra baseada apenas nos três primeiros meses. Vale à pena, mais à frente, criar a atualização das estatísticas, cobrindo todo o semestre.  As informações que obtivemos com este processo inicial dão um caminho do que pode vir a acontecer nas próximas eleições, um mapeamento temático orientado tanto pelas publicações oficiais de PH e RC, quanto pautadas pela repercussão diante da audiência dos perfis capixabas. Além disso, pretendemos, em uma publicação próxima, avaliar o processo das terminologias. E ainda um próximo desafio será, a partir do “dicionário de n-gramas” que criamos para rotular PH e RC, utilizar esta sistematização em outros datasets, como para deputados estaduais, federais, senadores e imprensa local, construindo assim a base para um Radar da Agenda Real da Política Local.

Compartilhe

Comentários