Maria de Fátima L. B. de Paiva Almeida
UERJ
Soraya Celeman
rede municipal e estadual do RJ



Considerações preliminares

Sabemos que hoje em dia a Internet é uma ferramenta poderosa para a obtenção de informações. Basta digitar uma palavra em um buscador e milhares de resultados são obtidos instantaneamente. Nos últimos anos, o Google tornou-se um dos buscadores mais populares do mundo. Neste artigo, discutiremos a contribuição da Matemática para tamanho sucesso.

Quando digitamos a palavra-chave de algo de que desejamos obter informações no Google, obtemos uma lista de sites que possuem alguma ligação com o que procuramos. Parece bastante simples, porém, que para a lista gerada estar na ordem que interessa ao usuário são necessários cálculos que remetem à Álgebra Linear. Neste artigo serão abordados os critérios utilizados pelo algoritmo PageRank, empregado na ordenação dos sites (ou ranqueamento) quando realizada uma busca, paralelamente à possibilidade de aplicação de atividades em turmas do ensino médio.

 

A ordenação dos sites

Segundo o algoritmo utilizado pelo Google, a importância de um site depende essencialmente da importância dos sites que possuem link para ele. Cabe ressaltar que o Google possui milhares de páginas cadastradas e que, certamente, o cálculo das importâncias se torna complexo. Sendo assim, utilizaremos um exemplo simples para ilustrar a importância dos sites de uma determinada rede da Internet, representada pelo grafo a seguir:

No exemplo ao lado, a rede é composta de apenas quatro sites. Cada flecha que sai de uma página e chega em uma outra indica que existe link da primeira para a segunda. Trata-se de uma Web admissível, isto é, cada página possui pelo menos um link para uma outra página.

Atualmente, há alguns fatores adicionais que influenciam na ordenação dos sites quando realizamos uma busca no Google, tais como a região onde o internauta se encontra, suas preferências pessoais, dentre outros. Porém, a essência da ordenação para qualquer usuário da ferramenta é a mesma. Vamos analisar como é o processo adotado pelo Google.

Seja xi o índice de importância do site i, xi 0 para qualquer página i. Muitos poderiam pensar que, para encontrar a importância do site 4, deveríamos somar as importâncias dos sites 1 e 2, ou seja, x4 = x1 + x2. Porém, notamos que o site 1 possui link para os sites 2, 3 e 4.

Sendo assim, a importância da página 1 deve ser dividida por 3. Analogamente para a importância da página 2: como esta página possui link para as páginas 3 e 4, a importância da página 2 deve ser dividida por 2. Portanto, x4 = x1/3 + x2/2. A importância dos outros sites obedecem a equações análogas. Dessa forma, chegamos ao sistema:

Esse sistema pode ser resolvido pelo método do escalonamento. A solução será {s(12,4,9,6), s }.

Para qualquer s positivo, observamos que x1 > x3 > x4 > x2. Assim o site 1 tem importância maior que os outros sites e o site 2 é o que tem a menor importância, segundo a ordenação do Google. Além disso, o sistema linear anterior pode ser escrito utilizando matrizes conduzindo a um problema de autovalores e autovetores, isto é, Av = v, com

A matriz A = (aij), chamada matriz de links, é tal que aij = 0 se não houver link de j para i e aij= 1/nj se houver link de j para i, sendo nj o número de links que partem de j.

O leitor pode se questionar sobre o valor de cada importância. Será que x1 = 12, x2 = 4, x3 = 9 e x4 = 6? Obviamente, essa afirmação seria o mesmo que assegurar que s = 1 e, no entanto, vimos que o sistema possui infinitas soluções. O que importa, porém, é a ordenação das importâncias, e não seu valor absoluto. É fácil verificar que, para valores positivos de s, a ordenação das importâncias sempre será a mesma. Então, para calcular cada importância, podemos impor a condição adicional:

x1 + x2 + ... xn = 1,

Neste exemplo teremos

x1 = 12/31, x2 = 4/31, x3 = 9/31, x4 = 6/31.

 

A matriz dos links

Qualquer que seja a matriz A, o sistema Av = v é um sistema homogêneo; logo, tem pelo menos uma solução, que é a solução nula. Além disso, pode-se mostrar que, quando A é uma matriz de links de uma web admissível (isto é, em que cada página aponta para pelo menos uma outra), ele tem uma solução não nula (a demonstração explora o fato de que todas as colunas de A têm soma igual a 1 e pode ser encontrada, por exemplo, em [1]).

Quando uma rede é fortemente conectada, isto é, quando podemos passar de um site arbitrário para outro qualquer apenas clicando nos links, o conjunto de soluções do sistema tem dimensão 1, como no exemplo acima (a prova pode ser encontrada em [1]). Portanto, obtemos uma solução única impondo a restrição adicional de que a soma das importâncias seja igual a 1. Entretanto, quando uma web admissível não é fortemente conectada, as soluções do sistema Av = v não são todas proporcionais entre si e, consequentemente, encontramos problemas na ordenação das importâncias.

Existe um “truque” que pode ser aplicado para qualquer Web admissível, bastante útil para o caso em que a Web não é fortemente conectada. É possível fazer uma pequena modificação na matriz de links A, substituindo-a por uma matriz M definida por M = (1 – m)A + mS, com 0 < m < 1 e Sij = 1/n, para todo i e j, sendo S uma matriz n × n. O valor utilizado pelo Google é m = 0,15. Na verdade, quanto menor o valor de m, mais peso se dá à matriz A e menos peso se dá à matriz S. Se relacionássemos S a um grafo direcionado, esse representaria uma Web onde todos os sites teriam links para todos os outros, inclusive para si mesmos; assim, S seria uma matriz “neutra” que estaria fazendo uma média ponderada com a matriz A. O ponto é que o conjunto de soluções de Mv = v tem dimensão 1 e, assim, é possível ranquear os sites. Devido à “neutralidade” de S, a mudança não afetaria a ordenação intuitiva da importância dos sites.

 

Exploração no ensino médio

É possível apresentar no ensino médio exemplos de Webs fortemente conectadas, nas quais, como vimos, a ordenação pode ser feita a partir da resolução de sistemas lineares homogêneos. A atualidade do tema e as questões que ele propicia estimulam o desenvolvimento do espírito investigativo do estudante e seu entendimento mais concreto dessa parte da Matemática. Após a familiarização com os conteúdos envolvidos, alguns softwares, como o Winmat, podem ser apresentados aos alunos para facilitar os cálculos mais trabalhosos.

Abaixo, damos exemplos de algumas atividades que acreditamos serem interessantes para a abordagem em sala de aula.

Atividade 1: Observe a matriz abaixo de links e faça os itens que seguem:

a) A rede tem quantos sites? Essa rede é admissível? Por quê? A rede é fortemente conectada? Sugestão: gere o grafo associado à Web representada pela matriz, a fim de visualizar o problema.

b) Existe link do site 4 para o site 1? E do site 1 para o site 4?

c) Estabeleça o ranking das páginas. Qual delas é a mais importante? E a menos importante?

Atividade 2: Considere a rede associada ao grafo abaixo:

a) A rede é admissível? É fortemente conectada? Determine a matriz de links, denotando-a por A. Proponha uma ordenação para os sites.

b) Utilize o “truque” da matriz do tipo M = (1 – m)A + mS para estabelecer o ranking das páginas dessa rede. Use m = 0,1.

Atividade 3: Suponha que os responsáveis pelo site 3 na Web da figura apresentada no texto ficaram chateados com o fato de o índice de importância do site 3 ter ficado menor do que o do site 1 e decidiram criar um site 5, com link para o site 3, colocando um link também de 3 para 5.

a) A rede continua sendo admissível? E fortemente conectada?

b) Isso torna a importância da página 3 maior do que a da página 1? Justifique.

 

Comentários sobre as atividades

As perguntas iniciais da primeira atividade exploram a definição de matriz, associada a um problema contextualizado. Mesmo que não seja formalizada a noção de grafo, acreditamos ser importante que o estudante transite entre a representação matricial e a interpretação geométrica da rede.

Na segunda atividade é posta a necessidade de utilizar uma “perturbação” na matriz A, para que as importâncias possam ser calculadas.

A última atividade ilustra como um gerenciador de sites pode utilizar esses conhecimentos para melhorar a posição de seu site no ranking.

 

Comentários finais

Em alguns livros, o tópico de matrizes é apresentado de maneira bem esquemática, enfatizando-se apenas os cálculos, que muitas vezes soam enfadonhos para os alunos. A proposta do presente artigo é apresentar uma aplicação atual envolvendo matrizes e resolução de sistemas lineares.

A abordagem suscita uma série de questões, que mesmo não sendo postas pelo professor, poderão surgir na mente dos alunos. Por exemplo: Por que a solução do sistema associado a uma rede fortemente conectada é sempre uma reta? O espírito investigativo do estudante pode ser estimulado para além das respostas possíveis de serem dadas no âmbito dos conteúdos normalmente tratados no ensino médio. Embora, sobretudo na escola básica, enfatizemos mais as respostas do que as perguntas, sabemos que perguntar e levantar conjecturas é algo fundamental na pesquisa Matemática, e na vida em geral. Assim, acreditamos que a proposta seja útil não só na perspectiva da formação geral, mas também em seu potencial de atrair o interesse dos estudantes para a Matemática. Convidamos os professores a experimentar as atividades propostas neste artigo em sala de aula.

 

Respostas das atividades

Atividade 1: A rede possui quatro sites, é admissível e fortemente conectada. Não existe link do site 4 para o site 1, mas existe link do site 1 para o site 4. Ranqueamento pelo método PageRank do mais importante para o menos importante: 1, 2, 4, 3.

Atividade 2: A rede é admissível, mas não é fortemente conectada. A matriz de links é dada por:

Usando o truque proposto no segundo item, o site 3 é o mais importante, seguido do 2. A seguir vêm os sites 4 e 5, ambos considerados igualmente importantes, e o menos importante é o site 1.

Atividade 3: A rede continua sendo admissível e fortemente conectada. A importância da página 3 torna-se maior do que a da página 1 com a nova configuração.

 

Bibliografia

[1]
Bryan, K., Leise, T. The $25,000,000,000 eingenvector: the Linear Algebra behind Google, SIAM Review (2006), vol. 48, no 3, 569-581.
Disponível em http://www.rose-hulman.edu/bryan/googleFinalVersionFixed.pdf
[2]
Celeman, Soraya. Cadeias de Markov e Google: Aplicações no ensino da Álgebra Linear. Monografia de Graduação: Universidade do Estado do Rio de Janeiro, Graduação em Licenciatura em Matemática. Orientadora: Almeida, M. F. L. B. P., 2010.