segunda-feira, 4 de junho de 2012

Relações entre variáveis: biogeografia de ilhas, marés, assassinos chocólatras e tudo o mais



Mateava eu enquanto caía uma garoa despacita no entardecer. Um aguaceiro veio em seguida. Dali a pouco findou. Começou o reboliço da passarada – e eu mateando – e o entrevero e a cantoria dos bichos aumentou de vez. Aí pensei comigo, (1) será que existe, de fato, um aumento na atividade da passarada depois dum aguaceiro? E (2) se existir, que tipo de relação é essa? Daí me veio na cabeça o tal termo “correlação espúria”.

Dada a introdução, comecemos.

Pra quem queria reposta à pergunta (1), fico devendo. Pra isso precisaríamos de investigação empírica (experimentação ou observação com bom delineamento amostral), tal como fazem as ciências factuais. Minha proposta aqui é de análise conceitual. Pretendo problematizar a pergunta (2), ao axiomatizar os possíveis tipos de relações, exemplificá-los e clarear o conceito de correlação espúria, no qual o exemplo acima provavelmente não se encaixa. Veremos por quê.

1. Correlação linear

Operacionalmente, as condições necessárias para se atribuir correlação linear a duas variáveis são as seguintes:

(a) o valor de p deve ser baixo (normalmente definido como < 0,05 ou < 0,01);
(b) o valor de r (coeficiente de correlação de Pearson) deve ser diferente de zero.



Contrariamente ao que podemos pensar, não precisamos de um r próximo a 1 ou -1. Podemos atribuir correlação linear a qualquer valor de r diferente de zero em que esteja associado um p baixo; embora, é claro, tal correlação possa ser irrelevante nas ciências factuais. Quando aplicamos tais análises a dados reais, junto com um p baixo, esperamos um módulo de r alto. Tratei (a) e (b) como condições necessárias mas não suficientes, porque a correlação, além de ser sensível a uma amostra pequena, parece ser sensível também a uma amostra muito grande, de maneira que podemos ter um valor de p baixo gerado por um artefato, uma sensibilidade demasiada do coeficiente que gera correlação linear (rSxy/Sx.Sy) [para o significado da equação, veja 1 no fim da página].

2. Relação espúria: definição

Uma relação espúria normalmente é definida como uma correlação estatística existente entre duas variáveis em que não existe relação de causa e efeito entre elas (Michael K. Le Roy, 2008) ou, em outras palavras, quando estas variáveis não estão causalmente conectadas (Legendre & Legendre, 1998). Isso pode ocorrer por mera coincidência ou devido a uma terceira variável, como mostra a figura:


3. Relações causais e espúrias: distinções

Podemos distinguir duas grandes relações, cada qual com dois subtipos, que geram correlação entre as variáveis X e Y:

        1) Relação causal
            (a) direta: X causa Y diretamente (X -> Y);
            (b) indireta: X causa Z que causa Y (X -> Z -> Y).

        2) Relação espúria
            (a) esperada: Z causa X e causa Y, mas X e Y não possuem
                    relação causal (Z -> X e Z -> Y);
            (b) não-esperada (coincidência): X e Y possuem cadeias
                   causais independentes e paralelas.

4. Exemplos para os tipos de relações

4.1 Relação causal direta (1a): A Teoria de Biogeografia de Ilhas (TBI)

Baseado na TBI (MacArthur & Wilson, 1967), (1) ao compararmos o número de espécies em diferentes tamanhos de manchas, é esperado que manchas maiores proporcionem a coexistência de um número maior de espécies (considerando eqüidistância entre as manchas); e (2) ao compararmos o número de espécies em manchas de diferentes distâncias entre si, é esperado um número maior de espécies naquelas menos isoladas (considerando manchas de mesmo tamanho). Para (1) a explicação é que a taxa de extinção de espécies diminui com o aumento da mancha, porque manchas maiores possibilitam populações maiores, o que faz diminuir a estocasticidade demográfica. Para (2) a explicação é que a taxa de imigração aumenta com a diminuição da distância entre as manchas [mais sobre a TBI, veja 2 no fim da página].

Variável X= área da mancha
Variável Y= número de espécies

Variável X’= distância entre as manchas
Variável Y’= número de espécies

Podemos dizer que a relação entre a variável X e Y, e entre a variável X’ e Y’, é causal. Neste caso podemos facilmente descobrir o sentido da relação causal: não esperamos que o nº de espécies cause a área da mancha ou a distância entre estas, mas que a área e a distância das manchas sejam responsáveis (pelo menos em parte) pelo nº de espécies, ou seja, (X -> Y).

4.2 Relação causal indireta (1b): Aves, chuva e invertebrados

Este é o exemplo que me fez escrever este texto.
Suponhamos que aves invertívoras ficam mais ativas após a chuva porque os invertebrados de solo ficam mais expostos, o que aumenta a probabilidade de detecção da ave e, portanto, diminui sua relação custo/benefício (gasto de energia no forrageamento/ganho de energia na nutrição).

Variável X= mm de chuva
Variável Z= nº de invertebrados expostos
Variável Y= nº de aves ativas

Podemos dizer que a relação entre a variável X e Y é causal, embora não diretamente. Porque a quantidade de chuva causa (pelo menos em parte) o número de invertebrados expostos e o número de invertebrados expostos causa (pelo menos em parte) o número de aves ativas. Assim, afirmamos que a quantidade de chuva causa (pelo menos em parte) o número de aves ativas. Existe uma relação de causa e efeito entre a variável X e Y, ela apenas é indireta. Esse exemplo segue a estrutura (X -> Z -> Y).
Não existe uma linha demarcatória rígida para distinguirmos relação causal direta (1a) de indireta (1b): teoricamente sempre podemos tratar uma relação causal direta como indireta, basta entrarmos em um nível mais detalhado de análise. Por exemplo, poderíamos ter tratado o caso da TBI como um tipo de relação causal indireta, onde:

Variável X= área da mancha
Variável Z= taxa de extinção
Variável Y= número de espécies

Variável X’= distância entre as manchas
Variável Z’= taxa de imigração
Variável Y’= número de espécies

Ou, ainda mais detalhadamente (X -> W -> Z -> Y):

Variável X= área da mancha
Variável W= estocasticidade demográfica
Variável Z= taxa de extinção
Variável Y= número de espécies

Entraremos agora no âmbito das relações espúrias. Deve ficar clara a diferença entre este tipo de relação e as relações causais, porque embora a distinção entre (1a) e (1b) seja devido ao grau de complexidade ou nível hierárquico de organização que estamos estudando, esse não é o caso para distinguirmos relações causais de espúrias. Para (1b) tínhamos que X causa Z que causa Y. Poderíamos simplesmente dizer que X causa Y, apenas estaríamos omitindo (ou desconhecemos) parte do processo, mas não estaríamos cometendo erro algum. Foi exatamente o que fizemos quando tomamos a TBI como um caso de relações causais diretas. Uma relação espúria entre X e Y se dá quando obtemos correlação mas X não causa Y, nem Y causa X.

4.3 Relação espúria esperada (2a): Lua, mamíferos e marés

Existe um grande conjunto de evidências de que espécies noturnas, tais como pequenos mamíferos (um exemplo bem estudado é o coelho-europeu), podem ter seu padrão de atividade influenciado pelas fases da lua (leia aqui). Há mais tempo reconhecido pela ciência é a influência da lua sobre as marés (leia aqui) [para os mecanismos responsáveis, veja 3 no fim da página]. Temos, então, as seguintes variáveis:

Variável X: atividade do coelho-europeu
Variável Z: fase da lua
Variável Y: nível da maré

É provável que o padrão de atividade do coelho-europeu esteja correlacionado com o movimento de subida e descida do nível do mar. Ou seja, espera-se correlação entre X e Y. No entanto, a explicação (em parte) tanto para X como para Y se deve à Z. X não causa Y, nem Y causa X. Trata-se, pois, de uma relação espúria:


Outro exemplo para relação espúria esperada é a correlação negativa existente entre aquecimento global e nº de piratas. Segue a figura abaixo:


Conclusão:

 4.4 Relação espúria não-esperada (coincidência) (2b): Assassinos comedores de doce

Em 2009 foi publicado um artigo no jornal britânico de psiquiatria intitulado “Consumo de doces na infância e violência de adultos” (baixe-o aqui). O autor encontra correlação fraca associada a um valor de p baixo para 6942 observações. Provavelmente um artefato gerado pela sensibilidade do índice, como eu comentei no início do texto. O autor não afirmou relação de causa e efeito entre as variáveis, embora pareça ter sugerido, ao afirmar, em sua última frase, que melhorar a dieta das crianças pode reduzir o comportamento agressivo. Mas, sem dúvida, a publicidade sugeriu tal relação (veja aqui).
Nas relações espúrias não-esperadas nós não sabemos o mecanismo responsável por tal relação e, portanto, não podemos inferir relação de causa e efeito entre as variáveis. É um posicionamento cético necessário para o aprimoramento científico. Normalmente tais relações não são tomadas como cientificamente sólidas, até que se desvende o mecanismo. Uma relação espúria não-esperada pode diferir da esperada apenas pelo grau de conhecimento que possuímos, ou que a ciência possui. Normalmente sistemas mais complexos são mais difíceis de prever e teremos relações não-esperadas. Mas tais relações espúrias também podem aparecer simplesmente por um artefato inerente à estatística do teste e, assim, não haveria qualquer causa ligando as variáveis. Embora, filosoficamente, essa minha última consideração dê pano pra manga, porque um determinista stricto sensu questionaria a inexistência de uma causa que em algum momento une as duas variáveis.
=============================================

[1]. Coeficiente de correlação momento-produto= r= (Sxy/Sx.Sy), em que Sxy é a covariância das variáveis X e Y; Sx é o desvio-padrão da variável X; Sy é o desvio-padrão da variável Y.  r varia de -1 a 1, sendo que seu sinal é dado pela inclinação da reta
(B1, em Y= f(X)= B0 + B1.X).

[2]. Por que a Teoria de Biogeografia de Ilhas prevê taxas de imigração e extinção que variam conforme aumenta a riqueza na ilha (mancha)? É esperado que (1) a taxa de imigração diminua com o aumento da riqueza na área, (a') porque a competição com as espécies residentes reduziria o sucesso de colonização e (a'') porque o indivíduo imigrante deve pertencer a uma espécie nova para aumentar a riqueza da área, e quanto maior a riqueza menor a probabilidade de um imigrante ser de uma espécie diferente. É esperado também que (2) a taxa de extinção aumente conforme aumenta a riqueza na área, (b') porque aumentaria o número de potenciais interações competitivas e (b'') porque se mais espécies estão coexistindo na mesma área o tamanho médio das populações deve diminuir, favorecendo a extinção. A partir disso, chegamos ao principal padrão predito pela teoria: (3) tomando a taxa de imigração e a taxa de extinção como função do número de espécies na mancha podemos prever a riqueza quando as taxas se igualam, ou seja, predizer o número de espécies esperado para o local. Assim, a teoria prediz um equilíbrio dinâmico, onde a riqueza se mantém aproximadamente constante mesmo havendo mudança na composição de espécies. 
É o que mostra a figura abaixo:

[3]. Um estudo mostrou (Artois, 1979que o coelho-europeu aumenta sua atividade no período de lua nova, quando a noite é mais escura. Este comportamento foi interpretado como uma estratégia para reduzir o risco de predação por rapozas e doninhas na Escócia. A explicação para a alteração no nível da maré conforme a fase da lua é devida às forças gravitacionais da lua e do sol na terra, uma vez que o sol também atrai nosso planeta. Se tomarmos lua, sol e terra como vértices de um triângulo, a lua estaria num ângulo de 90º com o sol nas fases conhecidas como quarto crescente e quarto minguante: é quando a resultante das forças sobre a terra é mínima, o que faz com que as marés deste período sejam conhecidas como marés mortas. Na fase de lua nova e de lua cheia, o sol e a lua entram em conjunção e oposição, respectivamente (ficam alinhados, se vistos da terra): é quando a atração gravitacional é máxima, originando as marés vivas.
É o que mostra a figura abaixo:

4 comentários:

  1. Muito legal o texto Cláudio. E dá vontade de testar a hipótese sobre as aves ficarem mais ativas devido a exposição acentuada dos insetos. Abraços.

    ResponderExcluir
  2. Pois é, Ronaldo!
    Deve ter algum artigo avaliando isso.
    De qualquer forma, perguntei pra uns ornitólogos e, por experiência própria, eles falaram que é comum mesmo a passarada ficar mais ativa depois da chuva.

    O Cristian Joenck (ornitólogo) respondeu por correio-eletrônico uma pergunta que o pessoal do COA-POA (Clube de Observação de Aves de Porto Alegre) fez.

    Lê até o fim, porque tem bastante a ver com essa questão. Segue abaixo:

    "Prezados curiosos e interessados na barata-d‘água e aves.

    O fato aqui comentado recordou minha infância quanto deparei com um indivíduo grande desta espécie, no início de uma noite que caiu na piscina, vazia, da casa dos meus pais.

    Naquela época tomei uma "ferroada" ao pegar o inseto que doeu muito, mas logo curiosos como vocês mantive o inseto num aquário e alimentava-o com pequenos peixes de um lago próximo. Para quem nunca viu esse inseto se alimentar, vale a pena, saibam que literalmente sugam os fluidos do peixe, respiram através de um "tubo" possibilitando o inseto ficar submerso com o "tubo" para fora da água e espreitar suas presas, larvas, girinos e pequenos peixes dentro da água, carregam seus os ovos no dorso e são realmente agressivos dentro e fora da água (meu dedo que diga).

    O que é recorrente e em comum com os fatos de vocês em verem esses bichos aquáticos em locais aparentemente incomuns é a alta sensibilidade desses insetos. Como a maioria dos insetos, esses animais percebem a variação de mudanças de pressão e outras variáveis climáticas mais que outros animais, como nós.

    Com a proximidade de chuvas e a capacidade de perceber essa condição (chuva) esses insetos, como cupins (isopteras) aproveitam dessa proximidade da chuva para colonizar e explorar outros locais com a “garantia” que não ficaram longe da água, que está por vir ou já ocorrendo (em algum lugar, fora de seus abrigos).

    A presença da chuva é importante para manter água em certos locais possíveis de presença ou passagem como no caso dessas “baratas”. No caso dos cupins (isoptera) eles copulam no ar e por isso as revoadas antes da chuva para não molhar suas asas e não atrapalhar na árdua tarefa da cópula. Logo após a cópula os cupins descem ao solo e perdem as asas e, com a chegada chuva antes previstas e esperada, sabem que logo poderão se infiltrarem no solos para ovopositar e constituírem novas colônias. Por isso as revoadas das andorinhas que são anunciadas no dito popular como "certeza" de chuva.

    Diante da chegada da chuva na capital anunciada pelos centros de pesquisas climáticas, não é de estranhar essas aparições que normalmente promovem boas observações de aves em busca de insetos. Resta aproveitar essas aparições esquisitas para saber que a chuva está próxima, logo se molharem ou observar as aves antes e depois da chuva.

    O fato da chuva nas aves apenas atrapalha o voo pelas penas molhadas (além de aumentar a perda de calor) e consequentemente suas atividades, que diminuem sua conspicuidade. Porém até as penas se molharem muitas aves se arriscam na chuva e vale a pena arriscar nas observações de aves, devidamente protegido e com equipamento apropriado.

    Particularmente eu adoro sair a campo para observar aves após períodos logos de chuvas, onde os "desavisados" insetos são surpreendidos pelas aves famintas, ou após os curtos períodos no verão para também se refrescar."

    ResponderExcluir