Observando redes complexas

Já falamos algumas vezes sobre certas propriedades que encontramos em redes complexas como tamanho de caminhos curtosalto coeficiente de aglomeração e alta conectividade. Uma outra propriedade comum a muitas redes complexas é uma distribuição do grau fortemente assimétrica, com poucos nós de grau muito elevado (10 ou 100 vezes maior que a média, por exemplo) e a maior parte dos nós (60% à 90% deles) com grau abaixo da média.

Encontrar propriedades semelhantes em redes derivadas de campos distintos (biologia, engenharia, economia etc) serviu de motivação para o desenvolvimento de toda a ciência da redes. Foi por causa destas propriedades em comum que os cientistas se deram ao trabalho de buscar teorias e modelos que, de alguma forma, explicassem o fenômeno encontrado. Este é um pensamento inspirador, não é mesmo? 

Neste artigo (e nos próximos desta série de 3) queremos fazer um pouco daquilo que os primeiros estudiosos da área fizeram: explorar redes de domínios distintos e verificar suas propriedades. A ideia é nos colocarmos na pele deles e investigarmos o que estas redes têm em comum, como se estivéssemos vendo isso pela primeira vez. Creio que será um exercício valioso para entendermos melhor as propriedades de que tanto falamos, então vamos lá.

Para nosso estudo utilizaremos redes reais, que foram previamente apresentadas em trabalhos e livros científicos. Minha primeira intenção era estudar apenas redes utilizadas nos trabalhos seminais, e dessa forma repetir os resultados alcançados pelos autores - se você é pesquisador, já deve saber que repetir experimentos é parte importante da pesquisa. 

Contudo, várias das redes originais usadas nos trabalhos seminais são difíceis (para não dizer impossível) de achar publicamente. Assim, optamos por um caminho em que selecionamos redes cuja origem pudesse ser encontrada, mesmo que não tivessem sido usada nos trabalhos mais antigos. Tivemos o cuidado de selecionar redes com uma quantidade de nós parecida, advindas de diferentes domínios e que estivessem acessíveis publicamente. Assim, você poderá reproduzir as análises por si mesmo.

Todas as métricas que eu mostro aqui foram computadas a partir dos arquivos cujos ponteiros são mostrados abaixo. Para isso, criei um pequeno notebook usando a biblioteca NetworkX para Python. Se você tiver interesse neste código, deixe-me saber.

Faremos nosso estudo com quatro redes, são elas: 

  • Facebook (o link ao lado leve a um repositório com um grande número de redes complexas para estudo), esta é uma rede formada por perfis da famosa plataforma social e que foi utilizada em 2011 por Traud et al. para o estudo da estrutura de redes sociais de estudantes em cinco universidades americanas. Cada enlace nesta rede corresponde a uma relação de amizade na plataforma social na época de sua captura (setembro de 2005); 
  • Erdos (mesmo repositório da rede anterior), esta é a rede de colaboração de Paul Erdös, matemático que deu importante contribuição à Ciência das Redes e que é reconhecido por ter sido um prolífico escritor (mais de 1500 artigos científicos) e por ter colaborado com um grande número de pesquisadores diferentes. Os nós da rede são, além do próprio Erdös, pesquisadores que escreveram em co-autoria com ele e pesquisadores que foram co-autores destes. A rede foi publicada por Batagelj e Mrvar em 2000.
  • Energia, rede de transporte e distribuição de energia do oeste dos estados unidos, utilizada no famoso trabalho de Watts e Strogatz em 1999 e que pode ser encontrada no material suplementar do livro Network Science de A. Barabási. Cada nó é uma usina, transformador ou uma unidade de distribuição e os enlaces correspondem aos cabos elétricos físicos.
  • Proteína, rede representando as interações proteína-a-proteína na levedura Saccharomyces cerevisiae. Cada nó representa uma proteína que estará conectada a outra se elas interagem fisicamente dentro da célula. Esta rede foi apresentada originalmente por Yu et al. em 2008. A rede pode ser baixada também no material suplementar do livro do Barabási.

Abaixo apresentamos um quadro que mostra as características gerais destas redes em termos de número de nós, enlaces (todas as redes são não-direcionadas), densidade e o domínio a qual pertencem. Observe que procuramos trazer redes com uma quantidade de nós aproximadamente igual e, embora a diferença possa ser significativa (3076 nós entre a maior e a menor), ao menos conseguimos trazer redes cuja quantidade de nós têm a mesma ordem de magnitude (milhares de nós).

RedenmdensidadeDomínio
Facebook3.898137.5671,811%Rede Social Online
Erdos5.0947.5150,058%Rede Social de Autoria
Energia4.9416.5940,054%Rede de Transporte
Proteína2.0182.9300,144%Rede Biológica

Em termos de enlaces as redes se aproximam também, exceto pela rede do Facebook que possui 18 vezes mais enlaces do que a rede Erdos (que é a que tem mais enlaces dentre as outras três). Embora chame a atenção, esta quantidade de enlaces não é assim tão grande quando observamos a densidade desta rede, de menos de 2%. Lembre-se que a quantidade máxima de enlaces em uma rede é dada por $\frac{n(n-1)}{2}$, que no caso da rede Facebook são 7.595.253 enlaces.

Nas demais redes a densidade é ainda menor, mesmo naquelas - redes Erdos e Energia - cuja quantidade de nós é maior do que a rede Facebook.

Este resultado é bastante interessante porque ilustra uma primeira propriedade comum em redes complexas: elas tendem a ser esparsas. Em outras palavras, estas redes possuem um número de enlaces muito menor do que poderia haver. Esta observação é inclusive uma crítica à Lei de Metcalfe (nós falamos sobre ela aqui em outro contexto), pois na prática o número de enlaces da rede - que é o que dá valor a rede, segundo Metcalfe - tende a crescer linearmente com o número de nós (Metcalfe assume um crescimento quadrático), já que cada novo nó tende a se ligar a apenas uma fração muito pequena dos nós da rede, como demonstram as redes em estudo.

O principal motivo para o fato de serem esparsas é que o custo para manter conexões cresce com o número de nós (também vimos isso no artigo em que falamos sobre a Lei de Metcalfe). Saiamos dos modelos para os sistemas reais. Não posso falar muito a rede Proteína, já que não domino esta área e poderia acabar falando besteira. Se você souber explicar então deixa aí nos comentários.

Já na rede de energia, cada enlace é uma linha de transmissão cujo custo de criação e manutenção é alto. O mesmo acontece na rede de colaboração. Escrever artigos pressupõe atividade intelectual e inventiva complexa que não acontece todos os dias.

Permitam-me um breve parênteses. Como o ambiente de pesquisa no Brasil é desconhecido pela maioria da população, muitas pessoas, incluindo estudantes universitários, tem a noção de que escrever um artigo é meramente um ato de "sentar e escrever". Mas, não é bem assim. Um artigo científico é apenas o produto final (ou intermediário) de uma pesquisa que demanda um tempo muitas vezes incerto de meses (quiçá anos?) em que se cumprem diversas etapas prévias que vão desde a elaboração de uma hipótese de pesquisa, passando pelas etapas de validação desta hipótese até finalmente a submissão do artigo para revisão em uma conferência ou periódico. Em outras palavras, tudo isso leva tempo e requer atividade intelectual que é difícil de mecanizar.

Retomemos. Assim, na rede de autoria além do custo intelectual direto, os autores ainda precisam se conhecer e encontrar uma hipótese para pesquisar juntos. Com isso espero tê-lo convencido que o custo para criação de enlaces na rede de autoria é alto, assim como na rede de energia, embora não sejam medidos pela mesma unidade. 

Já na rede Facebook, o custo para criação e manutenção de enlaces é bem mais baixo, o que leva ao maior número de enlaces. Você provavelmente já aceitou amizade com alguém nesta plataforma social, ou em outra, mesmo sem conhecer muito bem a pessoa que fez o convite. Isso ocorre porque o custo de criação de um enlace na rede social online é a mera aceitação ou envio de um convite virtual, o que não toma alguns segundos do usuário. Enquanto que o custo de manutenção do enlace é a entrada de postagens novas em sua timeline, o que também não é tão impactante, já que a maioria das pessoas consegue administrar centenas de novas postagens sem maiores problemas. Contudo, quando o volume de mensagens cresce, a administração torna-se impraticável, aumentando o custo para a criação de novos enlaces (passamos a ser mais seletivos sobre quem aceitamos ou não). 

Note que não estamos dizendo que a criação de relações nas redes sociais depende exclusivamente do custo de manutenção do enlace, como se estivéssemos tendo apenas uma visão mecanicista. Claro que há diversos motivos sociais (como afinidade, parentesco etc) para a criação de uma relação na plataforma social. Contudo, este modelo de custo e valor nos ajuda a ter uma explicação global para o custo percebido pelo usuário.

Vamos encerrando este primeiro artigo por aqui, no próximo falaremos sobre outras propriedades destas redes.

Comentários