Embrapa Monitoramento por Satélite


ANÁLISE ESTATÍSTICA



9.5.2 Seleção das principais componentes para a análise de cluster

A primeira análise efetuada para seleção das principais componentes, que seriam utilizadas na análise de cluster, considerou os valores absolutos e acumulados das respectivas porcentagens de variação dos dados explicados para cada novo vetor incorporado na análise (Tabela 25).


Tabela 25: Auto-valores da matriz de correlação e porcentagens da variabilidade total dos dados explicada.

Principal Componente

Auto-valores

Porcentagem

Porcentagem acumulada

1 a

4,7683

0,3179

0,3179

2 a

3,4721

0,2315

0,5494

3 a

1,5843

0,1056

0,6550

4 a

1,1001

0,0733

0,7283

5 a

0,9711

0,0648

0,7931

6 a

0,7063

0,0471

0,8402

7 a

0,6334

0,0422

0,8824

8 a

0,4897

0,0326

0,9150

9 a

0,3215

0,0214

0,9364

10 a

0,2611

0,0174

0,9538

11 a

0,2239

0,0149

0,9687

12 a

0,1060

0,0131

0,9818

13 a

0,1798

0,0120

0,9938

14 a

0,0910

0,0061

0,9999

15 a

0,0013

0,0001

1,0000


Essa decisão considerou, além da tabela das porcentagens de contribuições de cada PC e de seus respectivos valores acumulados, os conjuntos de variáveis e seus respectivos pesos na constituição de cada um dos vetores (Tabela 26).


Tabela 26: Auto-vetores e os respectivos pesos de cada variável para sua constituição.


O primeiro vetor (Principal Componente 1) explicou 31,79% da variabilidade total dos dados e as variáveis que tiveram maior peso na sua constituição foram, em ordem decrescente, as variáveis "área de lavoura temporária em 2001", "número de tratores", área de soja em 2001", "área desmatada até 2000", área de milho em 2001", "área de algodão em 2001" etc. Ou seja, como entre os valores mais altos obtidos estão as variáveis de "área de lavoura temporária" e "número de tratores", essa componente principal explicou bem, ou diferenciou bem, os agrupamentos em função de características relacionadas à presença ou ausência de uma agricultura temporária mecanizada.

O segundo vetor (Principal Componente 2) explicou 23,15% da variabilidade dos dados e foi definido pelas variáveis de "área do município", "área desmatada em 2000", "fator 1 de queimadas", "rebanho bovino", "produção de madeira em tora" etc., e por valores negativos pelas variáveis "porcentagem desmatada até 2000", "área de algodão em 2001" etc. Juntas, as duas principais componentes explicaram 54,94% da variabilidade total dos dados. Como nesse caso, os valores mais altos (positivos) foram obtidos com as variáveis de "área", "F1 de queimadas", "área desmatada em 2000" e (negativos) com a "porcentagem desmatada até 2000", essa componente diferenciou bem os agrupamentos em função da intensidade das atividades relacionadas à expansão da fronteira agrícola.

O terceiro vetor (Principal Componente 3) explicou 10,56% da variabilidade dos dados e foi definido pelas variáveis "rebanho bovino", "Fundo Centro Oeste", "desmatamento total até 2000", "porcentagem desmatada até 2000", "produção de madeira em tora 1999", "número de famílias assentadas pelo INCRA em 2000", variáveis de área agrícola etc. Juntas, as três principais componentes explicaram 65,50% da variabilidade total dos dados. Como nesse caso os valores mais altos (positivos) foram obtidos com as variáveis "rebanho bovino", Fundo Centro Oeste" e duas variáveis relacionadas à área total ocupada e os valores mais altos (negativos) foram obtidos com as variáveis "extração de madeira em tora" e três outras de agricultura, essa componente diferenciou os municípios em relação à presença da atividade de pecuária em contraposição às variáveis agrícolas e à atividade de extrativismo madeireiro.

O quarto vetor (Principal Componente 4) explicou 7,33% da variabilidade dos dados e foi definido pelas variáveis "número de famílias assentadas pelo INCRA em 2000", "produção de madeira em tora 1999", "área de cana-de-açúcar em 2001", "fundo Centro Oeste", "F1 de queimadas", "área desmatada em 2000" etc. Juntas, as quatro principais componentes explicaram 72,83% da variabilidade total dos dados. Nesse caso, não ficou muito claro qual o tipo de atividade seria explicada pela principal componente, mas aparentemente ela sugere a diferenciação dos grupos segundo a presença de assentamentos do INCRA e a atividade extrativista de madeira em tora, em contraposição à freqüência de queimadas.

A decisão da não inclusão dos demais vetores, Prin5 até Prin15, foi baseada na relação custo benefício imposta pelas novas inclusões, onde o benefício foi representado pela porcentagem adicional da variabilidade de dados explicados pela nova componente e o custo foi avaliado através da complexidade da interpretação preliminar do resultado dessas inclusões na formação e composição dos agrupamentos.


back previous next