Márcio Andrade Monteiro
Brasília, DF

 

INTRODUÇÃO

Conceitos básicos de Estatística Descritiva foram incluídos recentemente nos currículos da educação básica, proporcionando aos estudantes uma ampliação do conjunto de métodos e técnicas úteis para o tratamento de informações quantitativas. No ensino médio, usualmente, são estudadas medidas de posição: média, moda e mediana, e de dispersão: variância e desvio-padrão. Além disso, tais medidas fazem parte do programa de diversos processos seletivos para o ensino superior.

Na prática, geralmente, estão disponíveis os dados brutos para o cálculo dessas medidas; entretanto, é possível que esteja disponível apenas a distribuição de frequências da variável de interesse dividida em intervalos de números reais. O problema é: como calcular as medidas de posição nesse caso? Exceto sob algumas condições, não é possível calcular exatamente tais medidas, mas é possível obter valores aproximados. O exemplo a seguir mostra essa situação.

Uma empresa apresentou a um consultor, para um determinado estudo, a tabela 1, com a distribuição salarial de seus funcionários em que a notação a |---- b significa que a pertence e b não pertence ao intervalo.

A pergunta é: Sem conhecer os dados brutos dos salários de cada funcionário, como o consultor calcularia, mesmo que aproximadamente, o salário médio, mediano e modal?

Considerando a importância de valorizar os conteúdos significativos de Matemática e Estatística no ensino médio, acredito que a ampliação dos conteúdos de Estatística Descritiva seja importante e motivador para os jovens, considerando que nem todos os concluintes do ensino médio continuarão seus estudos na educação superior ou farão cursos superiores que possuem Estatística em seus currículos.

CÁLCULO DA MÉDIA

Chamando de Si, o salário do i-ésimo funcionário, a média aritmética simples dos salários é

Como não estão disponíveis os dados brutos, a partir da distribuição de frequências, pode-se obter um valor aproximado da média. Primeiro, tomemos o ponto médio de cada intervalo de classe, denominado Si e seja fi a frequência de funcionários no intervalo i (ver tabela 2).

Supondo que os salários dos funcionários em cada classe se distribuem uniformemente de maneira que a média desses salários por classe seja igual ao ponto médio de cada intervalo, o salário médio seria a média ponderada de Si cujos pesos são as frequências fi. A prova desse fato é imediata. Assim,

De maneira geral, se a variável de interesse x está dividida em k classes e xi e fi são, respectivamente, ponto médio e frequência da classe i, a média aritmética aproximada x é:

É interessante explorar com os estudantes o quanto a média verdadeira se afastaria da média aproximada conforme os valores estão, por exemplo, concentrados em uma das extremidades dos intervalos, tornando o ponto médio de classe um “candidato” ruim para representar a classe. É necessário ir além do simples cálculo e incentivar as reflexões sobre o tema.

CÁLCULO DA MODA

Moda é o valor mais frequente de um conjunto de dados. Quando os dados estão agrupados em classes, não é possível identificar a moda da distribuição; entretanto, pode-se definir a classe modal, que é a classe de maior frequência. No exemplo da distribuição de salários, a classe modal é o intervalo [4000, 5000). É interessante observar que a moda pode não pertencer à classe modal. Consideremos, por exemplo, a situação em que há:

5 funcionários com salário R$ 4100,00; 5 funcionários com salário R$ 4300,00; 3 funcionários com salário R$ 4800,00; 5 funcionários com salário R$ 5500,00; 6 funcionários com salário R$ 5800,00 e 9 funcionários com salário R$ 6500,00. O salário mais frequente é R$ 6500,00 e essa seria a moda que, obviamente, está fora do intervalo [4000,5000).

Outro aspecto importante é que a escolha dos intervalos de classe é arbitrária; logo, a moda pode mudar também em função dessa escolha.

Mas o que nos interessa é escolher um método para calcular a moda quando os dados estão agrupados em classes. Um método simples seria considerar o ponto médio da classe modal, porém, se pensarmos no máximo de uma função real contínua, talvez essa não seja a melhor escolha. O método mais usual é chamado de método de Czuber.

Considere o histograma a seguir da variável de interesse x, no qual C1, C2, ..., Ck são os intervalos de valores assumidos pela variável x, que estamos chamando de classes; f1, f2, ..., fk são as frequências dessas classes e Cm é a classe modal, ou seja, a classe com a maior frequência de ocorrências. Denotaremos por li e ls os extremos inferior e superior do intervalo Cm.

Vamos mostrar, então, o método de Czuber que determina, nessa situação do histograma, um valor que chamaremos de moda de Czuber.

Traçam-se os segmentos AC e BD que se cortam em O. A moda de Czuber é a soma

li + MO.

Observe que a forma como o segmento MO foi construído faz a moda de Czuber se aproximar da classe com maior frequência adjacente à modal.

Para calcular o valor da moda de Czuber, vamos observar algumas notações na figura acima:

fmod é a frequência da classe modal;
fant é a frequência da classe imediatamente anterior à classe modal;
fpost a frequência da classe imediatamente posterior à classe modal;
hmod a amplitude da classe modal (medida do segmento EF).

Observamos que a dedução da fórmula que determina a moda de Czuber pode ser feita pelos alunos, o que torna o tema mais motivador. Vejamos:

Os triângulos AOB e COD são semelhantes, logo

Mas AB = fmodfant e CD = fmodfpos, logo

Assim, a moda de Czuber, Mo, será

Calculemos a moda de Czuber para o exemplo da distribuição salarial da tabela 1. A classe modal é o intervalo [4000,5000). Logo

CÁLCULO DA MEDIANA

A mediana é definida como a medida estatística em que 50% ou mais dos valores dos dados são menores que ou iguais a ela e 50% ou mais dos valores dos dados são maiores que ou iguais a ela. Em outras palavras, é a medida que divide a distribuição de dados em duas partes iguais.

Dessa forma, se dispomos dos dados brutos, podemos considerar os dados ordenados de forma crescente. Seja x(i) o valor da variável que ocupa a i-ésima posição e n o número de elementos do conjunto; então:

Se n é ímpar, a mediana é

 

Se n é par, a mediana é

É fácil ver que, no primeiro caso, teremos valores menores que a mediana e valores maiores que ela. Já no segundo caso, teremos valores menores que a mediana e valores maiores que ela.

Quando os dados estão agrupados, é possível saber exatamente em que classe está a mediana. Vejamos o exemplo da distribuição salarial. Na 3° coluna da tabela 3, colocamos a frequência acumulada Fi (soma das frequências anteriores) até a classe i. Dessa forma, os valores e pertencem à classe [5000,6000).

Como não dispomos dos dados brutos, apresentaremos um método para obter uma aproximação da mediana.

Vamos estabelecer algumas notações. Sejam:

n o número de elementos do conjunto de dados;
Fant a frequência acumulada até a classe anteriorà classe que contém a mediana;
fmd a frequência da classe que contém a mediana;
md a mediana;
li o extremo inferior da classe que contém a mediana;
ls o extremo superior da classe que contém a mediana;
hmd a amplitude da classe que contém a mediana.

Considere no histograma a seguir a classe que contém a mediana Cm. Se a frequência acumulada até a classe Cm é maior do que 50% de n, então a mediana será um ponto entre li e ls.

Para obter um valor aproximado, um método é considerar que a variável se distribua uniformemente na classe Cm. Dessa forma, a medida AB = mdli, que determinará a mediana, será obtida de

que significa considerar a proporcionalidade entre as frequências e as áreas dos retângulos ABCD e AEFD.

A partir das considerações anteriores, tem-se que

Logo,

Como exemplo, apliquemos a fórmula para calcular o valor aproximado da mediana da distribuição salarial da tabela 1.

A classe mediana é o intervalo [5000,6000). Assim, a mediana será:

COMENTÁRIOS FINAIS

Devido à importância da Estatística no tratamento da informação, num mundo cercado por tantos dados quantitativos presentes nos meios de comunicação, acredito que seja bastante importante na formação dos indivíduos para a vida adulta a ampliação dos conteúdos escolares dessa área do conhecimento na educação básica. Além da introdução de outros conceitos totalmente acessíveis a estudantes do ensino médio, trabalhar as análises e interpretações das medidas estatísticas também é de extrema importância para a formação desses estudantes.