RESPONSÁVEL
Victor Giraldo
INSTITUTO DE MATEMÁTICA - UFRJ

 

ESTATÍSTICA DAS LETRAS, PALAVRAS E PERÍODOS

Humberto José Bortolossi
Universidade Federal Fluminense
http://www.professores.uff.br/hjbortol/

 

INTRODUÇÃO

Já são bem conhecidas no ensino básico aplicações da Matemática em áreas como Biologia, Química, Física e Geografia. Mas e Português? Ou Inglês, Francês, Espanhol, Alemão, etc.? Será que existem aplicações da Matemática no estudo de línguas que possam ser exploradas por alunos dos ensinos fundamental e médio? Neste artigo apresentamos um software gratuito (de nossa autoria) que, por meio de análises estatísticas, permite evidenciar características de uma determinada língua (entendida aqui, inclusive, como estilo de expressão particular a um grupo, a um escritor, um movimento, uma época, etc.). O objetivo principal do software é o de oferecer um ambiente interativo no qual aluno e professor possam experimentar, explorar e apreciar o uso da Estatística em Linguística e, a partir dessa articulação, aprender conceitos estatísticos no contexto linguístico, bem como também aprender conceitos linguísticos usando Estatística.

Outra característica importante de nossa proposta se refere à facilidade na coleta de dados. O esquema habitual de experimentos estatísticos em sala de aula (fazer medições, digitar os resultados, para depois processá-los) pode tomar um tempo considerável. Em nossa proposta, os dados para serem analisados estão prontamente disponíveis nos vários repositórios de domínio público na Internet (basta copiar e colar o texto para a área de entrada de dados do programa).

O software, dividido em cinco módulos principais, pode ser executado no modo on-line ou baixado para uso off-line através dos endereços    http://www.uff.br/cdme/lpp/   e   http://www.cdme.im-uff.mat.br/lpp/

Para isso, basta ter os navegadores Firefox ou Google Chrome com a linguagem Java instalada e habilitada nos sistemas operacionais Windows, Linux ou Mac OS.

 

Estatística das letras, dígitos, acentos e sinais de pontuação

A figura 1 exibe a interface gráfica do Módulo 2 (o módulo principal da proposta). A entrada de dados se dá pela área de texto na parte superior da interface. Na figura 1, essa área encontra-se com a letra do Hino Nacional Brasileiro (para ver o texto completo, é preciso usar a barra de rolagem à direita). O usuário pode digitar um texto diretamente, abrir um arquivo de texto de seu computador ou usar a técnica de “copiar e colar” (ctrl+c/ctrl+v). Ao pressionar o botão “Processar!”, o texto será então processado e os resultados da análise disponibilizados nas várias guias (abas) do programa.


figura 1: Interface gráfica do Módulo 2

Na guia “Letras” são informados: o número total de letras, o número total de letras vogais (isto é, as letras  aeio  e  u), o número total de letras consoantes e, no formato de uma tabela, a distribuição de frequência (absoluta e relativa) das letras do texto. As informações da tabela podem ser reordenadas clicando-se várias vezes no cabeçalho da coluna correspondente. Como exercício, sugerimos aos alunos que investiguem a distribuição de frequência das letras em textos de tamanhos, narrativas e idiomas diferentes. O objetivo é fazer com que eles percebam que essa distribuição pode ser usada para identificar o idioma do texto e que, nesse processo, o tamanho da amostra é importante.

Essa questão é levada mais adiante: uma vez que a distribuição de frequência das letras é uma característica estatística do idioma, segue-se que ela é invariante por permutações das letras. Portanto, essa propriedade pode ser usada para decodificar um texto criptografado com a Cifra de César cujo princípio de codificação é justamente a permutação das letras. Assim, se um texto tem  n  letras  “a”  e a letra  “a”  é codificada na letra  “x”,  então o texto codificado terá n  letras  “x”.  O Módulo 1 de nossa proposta é uma adaptação do módulo principal orientado para o estudo específico da Cifra de César (figura 2). Exercícios para o módulo 1 incluem, além de Estatística, questões de Combinatória: (1) Quantas chaves de codificação/decodificação diferentes é possível definir com o aplicativo do módulo 1? (2) Ao se aplicar a permutação pré-definida REVERSO a um texto já codificado com essa mesma permutação, obtém-se o texto original. Dê outro exemplo de permutação com essa propriedade. Alguma permutação circular possui essa propriedade?


figura 2: Interface gráfica do Módulo 1
(para o estudo de criptografia)

Ainda com relação à distribuição de frequência das letras, um exercício adicional que pode ser desenvolvido consiste em investigar como as proporções de vogais e consoantes variam de acordo com o idioma do texto. Por exemplo, em inglês, a palavra rhythms, com sete letras, não possui vogais. E em português? Existe alguma palavra com três ou mais letras cujo número de consoantes seja igual ou superior a 70%? E superior a 90%?

A guia “Letras” também pode ser usada para estudar textos com restrições linguísticas. Por exemplo, um lipograma é uma composição literária que se caracteriza pela omissão deliberada de determinadas letras do alfabeto em seu texto (isto é, essas letras têm frequência zero no texto). O desafio aqui (linguístico e de vocabulário!) é o de criar textos onde as letras mais frequentes de um determinado idioma não são usadas. É fácil escrever um texto longo em português sem as letras  kw  e  y,  mas é difícil escrever um texto longo em português sem a letra  a.  Como um ótimo exercício (que pode ser conduzido em parceria com o professor de Português), propomos aos alunos que tentem escrever textos na forma de lipogramas, usando então o programa do módulo para conferir a resposta. Também propomos que os alunos analisem os lipogramas clássicos em vários idiomas disponíveis na Internet. Existem outros estilos de composição que podem ser explorados: pangramas (períodos em que aparecem todas as letras do alfabeto de uma determinada língua, normalmente usados para testar fontes de computador e letreiros luminosos) e univocalismo (textos que só usam uma única vogal).

Na guia “Dígitos” são informados o número total e a distribuição de frequência (absoluta e relativa) dos dígitos  (0,  1,  2,  3,  4,  5,  6,  7,  8  e  9)  do texto. Apesar de o Módulo 2 ter sido idealizado para a análise de textos, é possível usá-lo para estudar as frequências dos dígitos nas primeiras casas da representação decimal de um número real e investigar questões de normalidade: um número real é normal na base 10 se, em sua representação decimal, qualquer dígito ocorre com frequência  1/10  e qualquer agrupamento de k dígitos ocorre com frequência  1/10k.  Para mais detalhes sobre o assunto, incluindo questões em aberto, recomendamos a dissertação de mestrado (MENGUE, 2008).

Na guia “Acentos” são informados o número total e a distribuição de frequência (absoluta e relativa) dos acentos e, na guia “Sinais”, o número total e a distribuição de frequência (absoluta e relativa) dos sinais de pontuação usados no texto. Essas guias podem ser usadas para realizar uma “análise de discurso”. Calcular a frequência dos pontos de interrogação, dos pontos de exclamação, dos pontos finais e das vírgulas pode ajudar na análise de construções ideológicas presentes em um texto. Por exemplo, a letra do Hino Nacional Brasileiro não possui pontos de interrogação (afinal, em princípio, hinos cívicos devem transmitir confiança e não dúvidas).

 

Estatística dos períodos

Nas guias “Períodos 1” e “Períodos 2” são informados o número total de períodos, os períodos mais longos e os períodos mais curtos, além da distribuição de frequência e das medidas de posição e dispersão do número de palavras por período. Sugestões de atividades usando essas guias incluem o estudo comparativo do número de palavras por período em textos originais e suas traduções e a elaboração de textos cujos períodos possuem o mesmo número de palavras (um exercício de restrição linguística, similar à construção de períodos isocólons).

 

Estatística das palavras

Nas guias “Palavras 1” e “Palavras 2” são informados o número total de palavras, o número total de palavras diferentes, as palavras mais longas e as palavras mais curtas, além da distribuição de frequência e das medidas de posição e dispersão do número de letras por palavra. Já a guia “Palavras 3”, por sua vez, apresenta, em forma de tabela, a distribuição de frequência de cada palavra diferente do texto (lembramos que as informações desta e de todas as tabelas do módulo podem ser reordenadas clicando-se várias vezes no cabeçalho da coluna correspondente).

figura: Distribuição de dígitos na 10000 primeiras casas das representações decimais dos números p e 1/17

Várias atividades podem ser desenvolvidas com essas três guias. Um exercício interessante consiste em calcular o vocabulário de um livro (isto é, quantas palavras diferentes são aprendidas ao lê-lo). Por exemplo, o romance Memorial de Aires, de Machado de Assis, tem 50 254 palavras, sendo 6 692 delas diferentes. Por sua vez, o romance Senhora, de José de Alencar, tem 75961 palavras e 12088 palavras diferentes. Criar um banco de dados descrevendo o número total de palavras e o número de palavras diferentes de obras clássicas da literatura é uma tarefa que pode ser dividida entre os alunos de uma turma e que, certamente, resultará em um produto útil para a comunidade escolar (o Módulo 4 do software faz uma análise mais refinada, exibindo o crescimento do vocabulário em um texto, isto é, exibindo, por meio de um gráfico, o número de palavras diferentes em função do número de palavras lidas do início até uma determinada palavra do texto). Outra proposta de exercício consiste em desafiar os alunos a escreverem redações com um número total de palavras e um número total de palavras diferentes pré-estabelecidos (por exemplo, uma redação com no máximo 210 palavras e com pelo menos 170 palavras diferentes).

A ideia de se usar a distribuição de frequência do número de letras por palavra como um mecanismo para se identificar a autoria de um texto veio à luz no século XIX, com o matemático inglês Augustus De Morgan. De fato, De Morgan sugeriu que alguém poderia, por exemplo, descobrir se as Epístolas de São Paulo foram realmente escritas por uma única pessoa, estudando-se a média desse tipo de distribuição (Grzybek, 2007). Esse método foi posteriormente desenvolvido e refinado por outros acadêmicos e novas técnicas foram propostas (incluindo análises feitas usando-se sílabas como indicadores). Nessa linha, um excelente trabalho de pesquisa que pode ser conduzido com os alunos é o de se comparar a distribuição de frequência do número de letras por palavra em livros de um mesmo autor e em livros de autores diferentes (por exemplo, fazendo experiências com o software, os alunos poderão descobrir que Euclides da Cunha gostava de usar palavras mais longas: a média e a mediana do  número de letras por palavra em seus livros são maiores do que outros escritores brasileiros de sua época).

Outra proposta de trabalho de pesquisa com os alunos se refere à surpreendente Lei de Zipf: conte quantas vezes cada palavra aparece em um determinado texto. Existem palavras que aparecerão mais vezes do que outras. Crie então uma tabela, ordenando as palavras por sua frequência. A Tabela 1 apresenta o resultado desse processo para as palavras do romance Memórias póstumas de Brás Cubas de Machado de Assis. Em seguida, em vez de analisar  r  (a posição da palavra) e  f  (a sua frequência), estude  x = log(r)  e  y = log(f),  cujos valores são apresentados na Tabela 2. Marque então os pontos  (x, y)  em um mesmo sistema de eixos coordenados. O resultado é a figura 4.

Tabela 1

Posição (r) Frequência (f) Palavra
1 2489 a
2 2203 que
3 2112 de
4 1949 e
5 1711 o
6 1164 não
... ... ...
178 37 Brás
... ... ...
10447 1 zelo
10448 1 Zenon
10449 1 Zeus

 


figura 4: A Lei de Zipf para o romance Memórias póstumas de Bás Cubas

Tabela 2

x = log(r) y = log(f) Palavra
0,00000,... 3,39602 a
0,30102,... 3,34301 que
0,47712,... 3,32469 de
0,60205,... 3,28981 e
0,69897,... 3,23325 o
0,77815... 3,06596 não
... ... ...
2,25042... 1,56820 Brás
... ... ...
4,01899,... 0,00000 zelo
4,01903,... 0,00000 Zenon
4,01907,... 0,00000  

Note que os pontos (x, y) parecem se alinhar principalmente para os valores de  x  (logaritmo da posição) entre  1,5  e  3,0.  Como achar uma reta representativa para esses dados? Uma técnica estatística padrão é o método dos Mínimos Quadrados (SIMON & BLUME, 2004), que obtém a equação de uma reta minimizando a soma dos quadrados das diferenças entre as ordenadas dos dados e os valores previstos pela equação da reta. O uso desse método para todos os pontos  (x, y)  da Tabela 2 produz a reta azul da figura 4, cuja equação é  y = 3,567 – 0,925x.

Segue-se daí que

log(f) = 3,567 – 0,925 log(r)  e, portanto,

f = 103,567–0,925 log(r) = 3689,775/r0.925,

isto é, de forma aproximada, a frequência f e a posição  r  das palavras estão relacionadas por uma função potência da forma  f = C/ra,  onde  C  e  a  são constantes, com o valor de a próximo do número  1.  Essa lei empírica é hoje conhecida como a Lei de Zipf, em homenagem ao professor de linguística da Universidade de Harvard, George Kingsley Zipf (1902-1950), o primeiro a investigar de forma sistemática fenômenos da estrutura estatística em conjuntos de dados linguísticos e demográficos. O processo que acabamos de descrever está automatizado no Módulo 3 de nossa proposta, uma adaptação do Módulo 2 orientado para o estudo específico da Lei de Zipf.  Em geral, a reta obtida pelo método dos mínimos quadrados (a reta azul na figura 4) não acomoda muito bem os dados para os valores iniciais e finais de  x  (o logaritmo da posição). Vários autores têm sugerido adaptações para a Lei de Zipf a fim de obter um modelo mais adequado. Outros autores simplesmente consideram que a Lei de Zipf é válida apenas para valores de  x  em um determinado intervalo. Para mais detalhes e referências, recomendamos o artigo (Clauset, Shalizi & Newman, 2009). A Lei de Zipf tem sido verificada para vários outros idiomas: inglês, francês, árabe, grego moderno, etc. Línguas artificiais construídas a priori, como Klingon de Jornada nas estrelas ou as línguas dos elfos do Senhor dos anéis, não satisfazem a Lei de Zipf (Ballesteros, 2010). Acreditamos que, ao verificar a Lei de Zipf em vários textos, os alunos poderão perceber e apreciar o poder da Estatística como ferramenta de investigação de padrões.

 

Breves observações finais

Os enunciados dos exercícios que sugerimos anteriormente e outros mais estão disponíveis como um arquivo RTF do Word através do ícone azul (Formulário de Acompanhamento do Aluno) no topo da página web principal do software (sendo um arquivo Word, você, professor, poderá remover, adaptar ou incluir novos exercícios).

Ao realizar as atividades propostas, os alunos poderão, por meio de experimentações, perceber como a Estatística se constitui em uma ferramenta útil e poderosa para identificar padrões e variações em textos, isto é, como as distribuições de frequência das letras, dígitos, sinais de pontuação, palavras e períodos e suas medidas de posição e dispersão, representadas numericamente e graficamente, podem ajudar a identificar propriedades que caracterizam um determinado idioma, um autor, um estilo literário, uma língua artificial, uma ideologia, etc. (um prelúdio às áreas modernas de linguística computacional e mineração de texto). Por outro lado, empregar conceitos estatísticos em um contexto diferente (no caso, o contexto linguístico) promove uma melhor compreensão desses conceitos (por exemplo, o que significa dizer que o número de letras de um determinado período tem média quatro e desvio padrão zero?).

Cabe ressaltar aqui o papel fundamental do computador no processo: deixando os cálculos e as representações gráficas a cargo da máquina, os alunos poderão processar dados reais (livros inteiros, por exemplo) e se concentrar mais nos conceitos e na análise dos resultados (Franklin et al., 2007).

Por fim, professor, nos colocamos à sua disposição, caso tenha algum questionamento de qualquer natureza ou sugestões relacionadas com o software e as atividades sugeridas.

 

 

REFERÊNCIAS

Ballesteros, F. J. E. T. Talk: How Will We Communicate with Intelligent Life on Other Worlds?        Astronomers’ Universe. Springer-Verlag, 2010.
Baroni, M. Distributions in Text. In: Lüdeling, A.; Kytö, M. (Eds.), Corpus Linguistics: An        International Handbook, vol. 2, p. 803-821, Berlin: Mouton de Gruyter, 2009.
Clauset, A.; Shalizi, C. R.; Newman, M. E. J. Power-
       Law Distributions in Empirical Data. SIAM Review, v. 51, n. 4, p. 661-703, 2009.
Franklin, C. et al. Guidelines for Assessment and Instruction in Statistics Education (GAISE) Report.        A Pre-K-12 Curriculum Framework. American Statistical Association, 2007.
Grzybek, P. History and Methodology of Word Length Studies. The State of Art. In: Grzybek, P.        (Ed.), Contributions to the Science of Text and Language – Word Length Studies and Related        Issues, p. 15-90, Dordrecht: Springer-Verlag, 2007.
Mengue, J. K. Uma Coleção de resultados sobre números normais. Dissertação de mestrado, Instituto        de Matemática, Universidade Federal do Rio Grande do Sul, 2008.
Simon, C. P.; Blume, L. Matemática para economistas. Bookman, 2004.