Redes Sociais Online – Breve revisão da literatura

Um dos principais diferenciais da pandemia de Covid-19 e suas consequências em relação a outras grandes epidemias é a existência das redes sociais online. As redes sociais online são um “tipo de mídia que permite que usuários ao redor do mundo se conectem, troquem experiências e compartilhem conteúdo de forma instantânea através da Internet”, e se destacam devido à grande quantidade, variedade e velocidade de dados gerados, cujo monitoramento tornou-se um problema de Big Data (França et al., 2014, p. 10-11).

Com a popularização da Internet, as redes sociais têm adquirido crescente importância como mediadoras da vida pública e particular, concentrando um número cada vez maior de informações. Estas informações podem ser utilizadas para inferir características e analisar atitudes e comportamentos de seus usuários em relação a temas de interesse.

A análise dos rastros digitais deixados pelos usuários pode ser útil para a compreensão de como as mudanças causadas pela pandemia afetaram a vida das pessoas e repercutiram no mundo virtual. Assim, é possível obter e analisar diversas informações, dentre elas opiniões e sentimentos (Benevenuto et al., 2011).

Devido à complexidade das interações, diversas pesquisas foram desenvolvidas com o propósito de quantificar e entender melhor a dinâmica das redes sociais. Com ferramentas apropriadas, é possível inferir desde a idade e o sexo dos usuários até o sentimento em relação a um determinado tema ou experiência.

Conforme será apresentado nas próximas seções, alguns estudos buscam, por exemplo, identificar colocações satíricas em postagens por meio de algoritmos de aprendizado de máquina. Outros procuram identificar características demográficas dos usuários, como idade e sexo, através de elementos textuais e não textuais, como fotos e imagens de perfil. Vários estudos utilizam análise linguística para investigar elementos das postagens, buscando determinar padrões de escrita e comportamento de grupos específicos através da análise de sentimentos[1].

Objetivo

Este trabalho apresenta breve revisão de estudos que aplicaram estratégias para obter informações de redes sociais online. O objetivo é fornecer um arcabouço teórico relevante que possa servir de referencial para estudos futuros.

Características Sociodemográficas dos Usuários de Redes Sociais

Idade

Nguyen et al. (2013) exploraram a previsão da idade de usuários do Twitter sob a perspectiva de um problema de regressão e classificação. Com base no texto dos tweets, testaram a previsão da idade exata, grupos etários e fase da vida. Para avaliar a performance dos métodos de classificação, utilizaram a medida F1 e, para a avaliação do método de regressão, foram considerados o erro médio absoluto (MAE), a correlação de Pearson e a acurácia. Dados de mais de 3000 usuários holandeses do Twitter com informação completa de gênero e idade foram divididos em conjuntos de treino e teste. Os parâmetros e especificações foram ajustados por meio da validação cruzada do conjunto de treinamento. Para construção do algoritmo de aprendizado, foram empregadas as bibliotecas scikit-learn e liblinear. O sistema desenvolvido por Nguyen et al. (2013) foi capaz de prever a idade exata apenas com base em características dos tweets, com uma margem de erro de 04 ano. Os autores encontraram que pessoas mais jovens tendem a usar modificações estilísticas com mais frequência, como palavras em caixa alta e repetição de vogais. Os jovens também usam mais a primeira pessoa do singular (eu) e menos a terceira pessoa (nós) do que os usuários mais velhos. Já os usuários mais velhos, acima dos 35 anos de idade, aproximadamente, tendem a usar linguagem mais complexa e formal; seus tweets são mais longos, assim como as palavras, há maior uso de preposições, links e hashtags.

Idade e renda

Flekova et al. (2016) analisaram milhões de tweets com o intuito de explorar a relação entre o estilo de escrita e a idade e renda de milhares de usuários do Twitter. Os principais métodos utilizados foram o modelo Elastic Net Regularization, uma extensão da regressão linear, e a regressão por vetores de suporte. Os autores comprovaram a existência de correlação significativa entre o estilo de escrita e a renda e idade dos usuários e mostraram que elementos como pontuação, tamanho das palavras, uso de nomes e pronomes são preditivos destas características.

Sexo

Daneshvar e Inkpen (2018) propõem um modelo de classificação baseado em uma máquina de vetores de suporte para determinar o sexo dos usuários do Twitter. Para tanto, utilizam informações textuais de tweets em inglês, espanhol e árabe de 7500 usuários únicos. No pré-processamento, os textos foram tokenizados[2], por meio do pacote TweetTokenizer da biblioteca Natural Language Toolkit (NLTK) do Python. Antes da construção do modelo de classificação, foi feita a redução de dimensionalidade, por meio da análise semântica latente. Os autores testaram, como recurso adicional, se a frequência de expressões ofensivas poderia ser utilizada para inferir o sexo do usuário, mas chegaram à conclusão de que o sistema de classificação baseado em vetores de suporte que utiliza apenas n-gramas de palavras e caracteres apresentou melhores resultados.  

Ciccone et al. (2018) construíram dois classificadores para previsão do sexo dos usuários do Twitter, um baseado em texto e outro em imagens. Ambos foram aplicados a três idiomas – inglês, espanhol e árabe – com a finalidade de prever o sexo do indivíduo a partir do conteúdo de seus tweets. A acurácia da classificação baseada em textos foi de cerca de 80% e a classificação baseada em imagens também apresentou resultados significativos, com acurácia de 70%, sendo que o reconhecimento facial foi o recurso mais eficaz.

Idade e sexo

No caso da língua portuguesa, Miranda Filho et al. (2014) propõem um método para identificar a sexo e idade de usuários do Twitter a partir de bases de dados e dicionários previamente construídos. Nomes de usuários e textos coletados dos tweets foram submetidos a algoritmos de classificação, com resultados para inferência de sexo e idade de elevada acurácia. Esse alcance revela um cenário promissor do uso de métodos de predição em língua portuguesa.

Nacionalidade, profissão e sexo

Por sua vez, Cunha et al. (2014) analisaram mais de 6 milhões de atualizações de status do Google+ com o objetivo de analisar características linguísticas de pessoas de diferentes grupos sociais. Os resultados mostraram particularidades linguísticas, dependendo do pertencimento a grupos específicos. Os autores encontraram que falantes não nativos do inglês, mulheres e profissionais da saúde são os que mais cometeram erros ortográficos em suas postagens. Também encontraram que alemães, franceses e indianos tendem a usar uma linguagem mais complexa, com palavras e sentenças mais extensas, do que os falantes nativos da língua inglesa. A análise da semântica e do vocabulário mostraram que os homens tendem a usar o Google+ para falar de tópicos técnicos e atividades profissionais, e que as mulheres têm maiores chances de usar a rede social para falar de suas relações sociais e familiares. 

Ferramentas para Análise de Sentimentos

Além da inferência de aspectos demográficos, estratégias para extrair os sentimentos de usuários nas redes sociais online têm sido amplamente utilizadas. Dentre as ferramentas de análise do uso da linguagem, destaca-se o LIWC (sigla para Linguistic Inquiry and Word Count), programa que procura e conta palavras em um amplo conjunto de textos, com base em um dicionário próprio. O programa calcula a proporção de palavras em cada categoria, podendo ser utilizado para a classificação de usuários ou analisar os sentimentos expressos em diversos tipos de texto. Tausczik e Pennebaker (2010) analisam diversos métodos computadorizados para análise de texto e descrevem como o LIWC foi criado e validado. Os autores exploram também a ligação entre o uso das palavras e alguns processos sociais básicos e de personalidade. Além disso, demonstram que o LIWC é um programa muito relevante para estudos de análise de textos e consegue identificar a emoção no uso da linguagem com precisão. Entretanto, o LIWC tem algumas limitações, já que não é capaz de identificar o contexto, ironia ou sarcasmo.

Outra ferramenta que se destaca na análise de sentimentos é o SentiStrength. Thelwall (2016) descreve seu funcionamento, que é baseado em uma lista de palavras. Para cada palavra é atribuída uma emoção e uma pontuação; pontuações positivas são atribuídas para palavras que expressam sentimentos positivos e pontuações negativas são atribuídas para as palavras com sentimentos negativos. Em uma sentença, as palavras são separadas (tokenizadas) e, utilizando a lista de palavras e respectivas pontuações, calcula-se a pontuação máxima dos sentimentos negativos e a pontuação máxima dos sentimentos positivos. No final da análise, a pontuação que representa o sentimento geral transmitido pelo texto é calculada pela soma das pontuações de cada frase. Thelwall  (2016) ressalta que o SentiStrength pode se tornar mais preciso a partir de ajustes, como aumentar seu léxico e alterar as configurações de humor segundo o tópico que está sendo analisado. Para textos curtos, o SentiStrength apresenta boa performance. Entretanto, assim como o LIWC, pode falhar na identificação de textos contendo ironia e sarcasmo.

O IBM Watson Tone Analyzer classifica entonações e emoções e tons em um texto escrito. Com essa ferramenta, pode-se inferir se o escritor está triste, feliz, confiante, com raiva ou com medo. Este recurso de classificação pode ser bastante útil, por exemplo, na construção das estratégias de diálogos dos chatbots, permitindo identificar as emoções da pessoa que está interagindo com a plataforma. Uma limitação para a aplicação da ferramenta é o fato de analisar apenas textos em inglês, sendo necessária uma tradução dos conteúdos em outros idiomas para se utilizá-la. Este processo de tradução pode gerar perda de informações intrínsecas ao texto no idioma original, como é o caso da análise de ditados populares, expressões idiomáticas, detecção de ironia e ambiguidade, que variam de acordo com a língua e desfavorecem o uso desta ferramenta.

Já o Google Bert (Bidirectional Encoder Representations from Transformers) é uma arquitetura de rede neural projetada pelo Google que transformou o que há de mais avançado em tarefas de processamento de linguagem natural, como classificação de texto, tradução, resumo e resposta a perguntas. O Google Bert é uma ferramenta de análise de sentimentos que indica se uma frase possui um sentimento negativo ou positivo. Recomenda-se de 2 a 4 etapas de treinamento para ajustar o algoritmo BERT em uma tarefa específica de processamento de linguagem natural. Ao ajustá-lo, é possível treinar um modelo com bom desempenho a partir de um conjunto de dados de treinamento em quantidade muito menor do que seria necessário para outros modelos desse tipo. Ao invés de implementar arquiteturas personalizadas e, às vezes, obscuras, o BERT pode ser ajustado à tarefa de interesse de maneira relativamente simples – normalmente, adicionando uma camada totalmente conectada ao BERT e realizando algumas etapas de treinamento. Em termos de eficiência, o BERT mostra-se como uma alternativa melhor, ou pelo menos igual, com resultados satisfatórios para ampla variedade de tarefas: classificação de textos, detecção de idiomas, identificação de similaridades semânticas, resposta a perguntas, entre outras. O BERT requer menos tempo e menos dados para treinamento, produzindo resultados com maior precisão; desse modo, trata-se de uma boa ferramenta para situações com pouca quantidade de dados disponíveis para o treinamento do algoritmo.

Exemplos de Aplicação da Análise de Sentimentos em Redes Sociais

Saúde mental

O LIWC permite identificar experiências dos usuários das redes sociais a partir do conteúdo textual de suas postagens. Coppersmith et al. (2014) mostram que é possível identificar usuários do Twitter com doenças psíquicas, como transtorno de estresse pós-traumático, de maneira automatizada. Por meio do escaneamento de tweets que possuem o diagnóstico explícito do usuário, os autores analisaram tweets de militares dos Estados Unidos. Três classificadores diferentes foram utilizados: unigram language model (ULM), one character n-gram language model (CLM) e um modelo do Linguistic Inquiry Word Count (LIWC). Após a validação, concluiu-se que o método ULM é mais preciso, seguido pelo CLM e o LIWC para a classificação de tweets de pessoas com transtorno de estresse pós-traumático. Ao utilizar o classificador CLM, foi possível identificar que 248 de 342 das áreas militares têm maior incidência do transtorno em relação aos civis.

Mudanças nos sentimentos, nos hábitos e nos interesses das pessoas podem ser capturadas através do estudo e análise do uso da linguagem, comparando os textos produzidos por elas em diferentes períodos de tempo, como foi feito por Choudhury et al. (2013). Os pesquisadores, utilizando o LIWC, quantificaram alterações pós-parto em relação a aspectos de emoção, engajamento e estilo linguístico de postagens do Twitter de 376 mulheres e construíram modelos estatísticos preditivos sobre a influência do parto no humor e no comportamento de novas mães. Os modelos preditivos conseguiram classificar mulheres que irão sofrer mudanças significativas após o parto utilizando apenas observações sobre o seu comportamento pré-natal, com uma precisão de 71%. Quando, adicionalmente, foram levantados os dados das primeiras semanas após o parto, a acurácia da predição chegou a mais de 80%.

Política

Sylwester e Purver (2015) utilizaram o LIWC para identificar apoiadores do Partido Democrata e do Partido Republicano nos Estados Unidos. Os autores encontraram diferenças significativas na forma como as pessoas se expressam no Twitter, dependendo de sua afiliação política. Enquanto os tweets dos republicanos enfatizam a religião, o nacionalismo, a política e as leis, os democratas tendem a expressar mais sentimentos e emoções e a enfatizar elementos da cultura e do entretenimento.

Ottoni et al. (2018) utilizaram o Empath, uma ferramenta de análise de tópicos e emoções, para analisar o conteúdo de canais do YouTube publicamente endossados pelo website InfoWars, famoso portal de comunicação da direita norte americana. Os comentários e transcrições dos vídeos destes canais foram comparados com informações dos 10 canais mais populares do YouTube na categoria de “notícias e política”. Com o objetivo de identificar discrepâncias de vocabulário e sentimentos expressos, os autores utilizaram a função WordNet Lemmatizer da biblioteca NLTK para agrupar flexões de uma mesma palavra. Em seguida, utilizando o Empath, classificaram as palavras em duas categorias. A primeira categoria relacionada a sentimentos negativos, como ódio, violência e discriminação e a outra categoria associada a sentimentos positivos. Dentre as diferenças encontradas nos conteúdos e comentários dos vídeos, os autores encontraram que os canais de direita tendiam a conter mais palavras com conotação negativa, mais tópicos relacionados à guerra e ao terrorismo e discriminação contra muçulmanos, nos vídeos, e contra homossexuais, nos comentários.

Limitações, adaptação e combinação de ferramentas

Além do problema de identificação de linguagem figurada, outro grande desafio para a aplicação das técnicas de análise de sentimentos no Brasil consiste na necessidade de adaptação dos algoritmos para a língua portuguesa e para o contexto brasileiro, pois a maior parte das ferramentas disponíveis foi desenvolvida para a língua inglesa. Conforme será mostrado a seguir, já existem propostas para contornar estas limitações.

Apesar de não identificar ironias ou sátiras diretamente, o LIWC pode ser associado a outras ferramentas e conhecimentos, de modo a ser útil no estudo desse tipo linguagem figurada. Salas-Zárate et al. (2017) coletaram 10.000 tweets satíricos e 10.000 não satíricos, a fim de propor um método que poderia ser usado para o reconhecimento de textos satíricos. Foram utilizados o dicionário LIWC e recursos psicológicos e linguísticos para treinar três algoritmos de aprendizado de máquina (J48, SMO, BayesNet). Os autores conseguiram criar um novo detector de sátiras baseado em recursos psicolinguísticos com resultados encorajadores. Barbieri et al. (2015) coletaram mais de 33 mil tweets, sendo que metade eram textos satíricos. Diferentes experimentos foram realizados, com o objetivo de investigar a detecção automática de notícias satíricas em inglês, espanhol e italiano. Os autores mostraram que o modelo baseado em aspectos intrínsecos das palavras foi a melhor aproximação para essa finalidade nas três línguas consideradas.

Vilares et al. (2015) se propuseram a descobrir se seria possível melhorar o algoritmo de análise de sentimentos SentiStrength para tweets em espanhol. Um dos objetivos foi o de descobrir se informações sobre as eleições coletadas no Twitter poderiam complementar as pesquisas eleitorais tradicionais. Os resultados sugerem que o Twitter cumpre o papel de selecionar e amplificar eventos políticos, além de refletir a popularidade de líderes políticos e partidos, mas não permite inferir intenções de voto.  Além de enriquecer o SentiStrenght para o contexto da política espanhola, os autores também identificaram fenômenos linguísticos como expressões, negação e repetição de caracteres com grande influência na detecção de sentimentos e influência na precisão dos resultados, apontando para a possibilidade de uso eficiente do SentiStrength em outras línguas, por meio de adaptação dos dicionários com os quais o algoritmo opera.

Prastowo e Yuniarno (2019) também buscaram descobrir maneiras de aumentar a precisão do SentiStrength para a classificação de sentimentos, desta vez para postagens do Twitter no idioma indonésio. Para o treinamento do algoritmo e classificação de tweets positivos e negativos, utilizaram a ferramenta SentiStrength em combinação com os métodos de aprendizado Multilayer Perceptron e Naive Bayes. Após os experimentos, os autores concluíram que o uso SentiStrength, junto ao Multilayer Perceptron aumentaram a precisão de redes neurais utilizadas para a classificação de sentimentos dos tweets.

Como foi mostrado nesse trabalho, existem diversas ferramentas para extrair informações, classificar usuários, realizar inferências e análise de sentimentos a partir de dados de redes sociais online. Estas ferramentas, se combinadas, podem apresentar resultados ainda melhores do se utilizadas separadamente. Araújo et al. (2013) compararam 8 métodos de análise de sentimentos: LIWC, Happiness Index, SentiWordNet, SASA, PANAS-t, Emoticons, SenticNet e SentiStrength. Os autores utilizaram cerca de 1,8 milhões de mensagens coletadas do Twitter, representando um histórico completo da rede desde a sua criação, em 2006 até agosto de 2009, e uma coleção de textos previamente rotulados como positivo ou negativo por pessoas. Destes tweets, foram filtrados aqueles associados a eventos sociais significativos, como a queda de um avião da AirFrance e as eleições americanas de 2008. Os métodos foram comparados principalmente em relação à abrangência (fração de mensagens capturadas) e concordância (fração de sentimentos corretamente identificados). No quesito abrangência, o SentiWordNet e SenticNet se destacam. Por sua vez, o LIWC e o PANAS-t atingiram a maior taxa de concordância. A partir das vantagens, desvantagens e limitações de cada método, foi proposto um Método Combinado que utiliza todos os métodos investigados, com exceção do LIWC. O Método Combinado foi eficiente e apresentou uma abrangência de 95%, a acurácia, no entanto, ficou comprometida. Segundo os autores, a melhor maneira de melhorar a análise de sentimentos consiste em combinar métodos distintos que atendam ao mesmo propósito.

Considerações Finais

Utilizando o arcabouço apresentado, é possível investigar questões importantes sobre a pandemia de covid-19 no Brasil, em retrospectiva e, mais importante, em tempo real. Por exemplo, quais eventos têm maior repercussão online? Qual é o sentimento geral da parcela da população que está presente nas redes sociais? Qual é a relevância dos tópicos associados às causas e consequências da pandemia? O vírus, a doença, o isolamento, os tratamentos, as vacinas, os impactos econômicos… – o que importa aos brasileiros a cada fase da pandemia?


[1] A análise de sentimentos envolve técnicas de processamento de linguagem natural e análise de texto para extrair, quantificar e estudar sentimentos, estados emocionais e outras informações subjetivas. Estas técnicas utilizam escalas numéricas para classificação de textos em positivos ou negativos.

[2] Tokenização é a segmentação das palavras de um texto, ou seja, refere-se à fragmentação de um texto em palavras e sentenças para processamento subsequente (Barbosa et al., 2017). Em um texto tokenizado, caracteres irrelevantes são removidos e as palavras são transformadas em elementos independentes (tokens).

Referências Bibliográficas

Araújo, M., Gonçalves, P., Benevenuto, F., & Cha, M. (2013). Métodos para análise de sentimentos no twitter. In Proceedings of the 19th Brazilian symposium on Multimedia and the Web (WebMedia’13) (p. 19). sn.

Barbieri, F., Ronzano, F., & Saggion, H. (2015). Do we criticise (and laugh) in the same way? Automatic detection of multi-lingual satirical news in Twitter. In Twenty-Fourth International Joint Conference on Artificial Intelligence.

Benevenuto, F., Almeida, J. M., & Silva, A. S. (2011). Explorando redes sociais online: Da coleta e análise de grandes bases de dados às aplicações. Porto Alegre: Sociedade Brasileira de Computação, 22.

Choudhury, M., Counts, S., & Horvitz, E. (2013). Predicting postpartum changes in emotion and behavior via social media. In Proceedings of the SIGCHI conference on human factors in computing systems (pp. 3267-3276).

Ciccone, G., Sultan, A., Laporte, L., Egyed-Zsigmond, E., Alhamzeh, A., & Granitzer, M. (2018, September). Stacked gender prediction from tweet texts and images notebook for pan at CLEF 2018. In CLEF 2018-Conference and Labs of the Evaluation (p. 11p).

Coppersmith, G., Dredze, M., & Harman, C. (2014). Quantifying mental health signals in Twitter. In Proceedings of the workshop on computational linguistics and clinical psychology: From linguistic signal to clinical reality (pp. 51-60).

Cunha, E., Magno, G., Gonçalves, M. A., Cambraia, C., & Almeida, V. (2014). How you post is who you are: Characterizing Google+ status updates across social groups. In Proceedings of the 25th ACM conference on Hypertext and social media (pp. 212-217).

Daneshvar, S., & Inkpen, D. (2018). Gender identification in Twitter using n-grams and LSA. In Proceedings of the Ninth International Conference of the CLEF Association (CLEF 2018).

Flekova, L., Preoţiuc-Pietro, D., & Ungar, L. (2016). Exploring stylistic variation with age and income on Twitter. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers) (pp. 313-319).

França, T. C., de Faria, F. F., Rangel, F. M., de Farias, C. M., & Oliveira, J. (2014). Big Social Data: princípios sobre coleta, tratamento e análise de dados sociais. XXIX Simpósio Brasileiro de Banco de Dados–SBBD14.

Miranda Filho, R., Carvalho, A. I., & Pappa, G. L. (2014). Inferência de sexo e idade de usuários no Twitter. In Anais do III Brazilian Workshop on Social Network Analysis and Mining (pp. 200-211). SBC.

Nguyen, D., Gravel, R., Trieschnigg, D., & Meder, T. (2013). ” How Old Do You Think I Am?” A Study of Language and Age in Twitter. In Proceedings of the International AAAI Conference on Web and Social Media (Vol. 7, No. 1).

Ottoni, R., Cunha, E., Magno, G., Bernardina, P., Meira Jr, W., & Almeida, V. (2018). Analyzing right-wing youtube channels: Hate, violence and discrimination. In Proceedings of the 10th ACM Conference on Web Science (pp. 323-332).

Prastowo, E. Y., & Yuniarno, E. M. (2019). Combining SentiStrength and Multilayer Perceptron in Twitter Sentiment Classification. In 2019 International Seminar on Intelligent Technology and Its Applications (ISITIA) (pp. 381-386). IEEE.

Salas-Zárate, M. P., Paredes-Valverde, M. A., Rodriguez-García, M. Á., Valencia-García, R., & Alor-Hernández, G. (2017). Automatic detection of satire in Twitter: A psycholinguistic-based approach. Knowledge-Based Systems128, 20-33.

Sylwester, K., & Purver, M. (2015). Twitter language use reflects psychological differences between democrats and republicans. PloS one10(9), e0137422.

Tausczik, Y. R., & Pennebaker, J. W. (2010). The psychological meaning of words: LIWC and computerized text analysis methods. Journal of language and social psychology29(1), 24-54.

Thelwall, M. (2017). The Heart and soul of the web? Sentiment strength detection in the social web with SentiStrength. In Cyberemotions (pp. 119-134). Springer, Cham.

Vilares, D., Thelwall, M., & Alonso, M. A. (2015). The megaphone of the people? Spanish SentiStrength for real-time analysis of political tweets. Journal of Information Science41(6), 799-813.