Embrapa Monitoramento por Satélite


ANÁLISE ESTATÍSTICA DOS DADOS



8.12.2 Processamento estatístico com o SAS

Após a migração dos dados selecionados para o pacote estatístico SAS, foi definida a seguinte seqüência de processamentos: seleção do conjunto de variáveis, dentre todas as apresentadas; análise de componentes principais-ACP, com as variáveis selecionadas; análise de cluster, para definição dos agrupamentos de municípios em função de similaridades do comportamento das variáveis elencadas.

  1. Seleção do conjunto de variáveis:
  2. A seleção criteriosa das variáveis explicativas constitui uma decisão importante no estabelecimento de um modelo multilinear. Para a construção do melhor modelo representativo desse conjunto de variáveis foi executada uma regressão múltipla multivariada (multivariate multiple regression – MMR), através do método denominado "passo a passo" ou stepwise procedure, adotando-se a variável F1 como dependente e aceitando a seleção das variáveis independentes apresentadas pelo modelo, em um nível de significância menor ou igual a 20%.

    Inicialmente, a variável explicativa mais fortemente correlata com a variável dependente é selecionada. Em seguida, são incorporadas as variáveis com maior coeficiente de correlação parcial com a dependente. Porém, antes de cada introdução de uma nova variável explicativa, é verificada a correlação parcial da variável dependente com as variáveis anteriormente introduzidas para que as variáveis, cujo coeficiente deixar de ser significativo sejam retiradas do modelo (Valentin, 2000, p. 48; Stevenson, 1981 , p.367). Trata-se portanto, de uma ferramenta dinâmica de elaboração, avaliação e consolidação do melhor agrupamento, onde as variáveis devem possuir forte correlação mútua.

  3. Análise de Componentes Principais–ACP:
  4. A análise de componentes principais–ACP é utilizada em muitos casos como uma forma de reduzir o volume de dados, buscando uma representação mais simples através das principais componentes - PCs (Manly, 1994, p. 134). Como nesse caso era esperado que a uma única componente principal não fosse suficiente para representar uma significativa porcentagem da variação dos dados, foi necessário selecionar uma maior quantidade de PCs para compor a análise de cluster, de tal forma que a variação total dos dados fosse representada pelos PCs no limite próximo de 75%.

    Essa análise é baseada na consolidação de uma matriz de correlação, e em uma eigenanalysis (Gauch, 1982, p. 141; Manly, 1994, p. 81) constituída por uma análise dos "autovalores", para avaliação da variância total dos dados explicada por cada um dos eixos das Principais Componentes constituídas e por uma análise dos "autovetores", onde se identifica o peso de cada variável na constituição de cada um dos vetores (Principais Componentes).

  5. Análise de cluster:
  6. Após a seleção do conjunto de PCs originados no processamento anterior, a análise de cluster teve como principal objetivo formatar agrupamentos de municípios com características "semelhantes", em relação às variáveis selecionadas.

    O método adotado para a definição dos agrupamentos foi o método da mínima variância (Wards), no qual um grupo é reunido a outro grupo se essa união proporcionar o menor aumento das variância intragrupo. Com a adoção desse método a variância intragrupo é calculada para todas as possibilidades de aglomeração, optando-se pelo arranjo que proporcione a menor variância (SAS Institute, 1999, p. 861). Segundo Valentin (2000, p. 59) o método é considerado altamente eficiente e indicado para a formação de agrupamentos.

    Durante o processo de seleção de variáveis e identificação das redundâncias foram aplicados vários processamentos do protocolo definido pelo SAS para formação dos clusters. A observação dos resultados obtidos em cada processamento permitiu a análise e reformulação do grupo de variáveis, submetido ao protocolo, até a obtenção de um resultado que expressou a relação existente entre a dinâmica de queimadas e as demais variáveis selecionadas.

    Logicamente, essa dinâmica de inclusão e exclusão de variáveis independentes não procurou atender ou favorecer nenhuma hipótese ou expectativa em relação ao conjunto de dados, mas procurou incluir a variável de queimadas (dependente) com uma contribuição significativa no processo de decisão e definição dos agrupamentos.

    Como resultado da análise de cluster, além da hierarquia, listagem e relação dos agrupamentos formados, foi elaborado um dendrograma (Anexo 5) que ilustra graficamente as posições de cada objeto (município) em relação ao conjunto todo.


back previous next