Como calcular R-quadrado em R
R-quadrado (R2) nada mais é que uma métrica estatística de erro usada para mensurar a proporção de variância de regressões lineares, ou seja, a qualidade de modelos de regressão. Usuários da linguagem de programação R podem escrever uma fórmula simples para calcular esse valor.
Importância de R-quadrado em R
R-quadrado, também chamado de R-square e geralmente representado por “R2”, é uma medida estatística que mensura quão bem uma regressão linear se ajusta aos dados. Ele pode apresentar valores entre 0 e 1, e é considerado uma medida-chave para determinar a qualidade de um modelo de regressão.
Ao interpretar o valor de R-quadrado, você obtém informações sobre a proximidade dos dados em relação à linha de regressão calculada. Entenda-se: quanto maior for o valor do R-quadrado, melhor o modelo explicará os dados. Da mesma forma, um R-quadrado de valor baixo indica que o modelo não está bem ajustado.
A linguagem de programação R possibilita o desenvolvimento de uma ampla gama de aplicações, que podem ser hospedadas em um espaço web próprio. Conheça diferentes planos de webspace da IONOS e escolha o que melhor atender às suas necessidades.
R-quadrado em R com regressão linear
R-quadrado em R (R-squared in R) costuma ser usado na linguagem de programação R, no contexto de regressões lineares. Como R é uma linguagem de programação bastante utilizada na área de estatística, não é surpresa que diversas funções R ajudam usuários a realizarem cálculos, como o exibido pelo exemplo abaixo:
x <- c(1, 2, 3, 4, 5)
y <- c(2, 4, 5, 4, 5)
model <- lm(y ~ x)
RNo exemplo de código acima, criamos dois vetores R, que chamamos de x e y. Esses vetores contêm conjuntos de dados com os quais uma regressão linear pode ser realizada. Nesse caso, a variável dependente é a variável y. Por sua vez, o modelo de regressão é calculado pela função R lm()
e armazenado na variável model.
Como calcular R-quadrado em R
Você pode calcular o valor de R2 em R fazendo uso de uma função para a escrita de uma fórmula (r square formula). Não se preocupe, nenhum conhecimento matemático mais profundo é necessário. Tudo que você precisa saber é como montar essa fórmula, considerada simples até mesmo por aqueles que começaram há pouco a aprender programação.
A função que permite a realização do cálculo de R2 se chama summary()
. Ela exibe um resumo da análise da regressão, que inclui o valor de R-quadrado. O código abaixo, que toma como base a regressão linear já calculada no exemplo anterior, mostra a função summary()
em ação:
# Valor de R-quadrado
summary(model)$r.squared
RVocê pode usar esse código para extrair o valor de R-quadrado do modelo de regressão linear lm_model
. Ele indica quão bem o modelo se aproxima da variação na variável dependente y, tomando como base a variável independente x.
No nosso exemplo de código, a função summary()
é aplicada a um modelo de regressão que já foi calculado. Simultaneamente, o operador R $
exibe o valor de R-quadrado a partir dos valores retornados pela escrita da função. No nosso exemplo, ele é de 0,6.
Se você quer se aprofundar na linguagem de programação R, não deixe de explorar outros artigos do nosso Digital Guide:
- Loop while em R
- Comandos em R
- Tipos de dados em R
- Strings em R
Como interpretar R-quadrado
Após descobrir o valor de R-square, você precisará interpretar o resultado apresentado. Nesse momento, atente-se ao intervalo que R2 assumirá. Como já mencionamos, um valor de R-quadrado sempre será exibido dentro do intervalo de 0 e 1:
- 0 (sem ajuste): Um valor de R-quadrado igual a 0 significa que o modelo não corresponde aos dados. Nesse caso, não existe nenhuma relação linear entre as variáveis.
- 1 (ajuste perfeito): Um valor de R-quadrado igual a 1 indica que o modelo se ajusta perfeitamente aos dados observados, sem erro residual. Ele é extremamente raro, por isso pode indicar ruídos nos dados.
- 0,7 a 0,9 (ajuste bom): Um valor de R-quadrado nesse intervalo indica que o modelo descreve os dados suficientemente bem.
- 0,5 a 0,7 (ajuste aceitável): Um valor de R-quadrado no intervalo entre 0,5 e 0,7 é aceitável, mas indica que ainda há espaço para melhorias.
- Menos que 0,5 (ajuste ruim): Um valor de R-quadrado abaixo de 0,5 indica que o modelo calculado não descreve os dados com precisão suficiente. Nesse caso, o modelo deve ser readaptado para conseguir alcançar resultados mais significativos.
Obter um valor alto de R-quadrado não é suficiente para determinar terminantemente a qualidade de um modelo. Para chegar a essa conclusão e atestar a qualidade de ajuste de um modelo de regressão, você deverá analisar outros fatores, como a validação do modelo, a análise de resíduos e a adaptação aos requisitos especificados. A função summary()
, apresentada por este artigo, suporta números adicionais, que podem ser usados para refinar esse tipo de avaliação.