O que é e como usar a função R substring()?

A função R substring() é um recurso útil para a preparação de dados para análises. Por exemplo, ela pode ser usada para converter dados de texto em formatos mais bem estruturados. A função substring() em R também é eficaz para ajustar informações e padronizar dados antes da realização de análises estatísticas.

Para que é usada a função R substring()?

R substring() é uma função integrada dessa linguagem de programação, que seleciona parte de uma string existente. Ela possibilita definir índices iniciais e finais com precisão para isolar a parte que você quiser de uma string. A função apresenta diversas possibilidades de uso, que variam desde limpeza de dados até extração de informações específicas de textos não estruturados. Por exemplo, você pode usá-la para extrair códigos postais de endereços ou datas de timestamps.

A função substring() em R é flexível, sendo ideal para situações que exigem controle refinado da posição e do comprimento das substrings selecionadas. Ela é frequentemente usada na realização de análise de dados e na preparação de dados de texto para processamento.

Sintaxe da função substring() em R

A função R substring() retorna a parte extraída de uma string, levando em consideração os seguintes parâmetros:

substring(x, primeiro, último)
R
  • x: A string da qual a substring será extraída
  • primeiro: O índice inicial (primeiro caractere) da substring que você deseja extrair
  • último: O índice final (último caractere) da substring que você deseja extrair

Agora, vamos analisar o exemplo abaixo.

string_original <- "dados de análise"
resultado <- substring(string_original, 1, 5)
print(resultado)
R

Nesse exemplo de código, selecionamos uma substring dos índices 1 a 5 da string "dados de análise" e a salvamos na variável resultado. O resultado obtido é "dados".

Exemplos de uso da função R substring()

Ao processar conjuntos de dados, é comum que você precise selecionar, manipular ou extrair determinadas partes de strings. Com a função substring() em R, é possível fazer isso de diferentes formas.

Extrair caracteres com a função R substring()

Você pode salvar índices em variáveis e inseri-los como argumentos da função substring(). Observe:

# String original
string_original <- "Dados científicos"
# Índices de extração
indice_inicial <- 7
indice_final <- 17
# Uso de substring() para extração
substring_criada <- substring(string_original, indice_inicial, indice_final)
print(substring_criada)
# Resultado: científicos
R

O exemplo de código acima mostra a função R substring() em ação. Selecionamos uma substring entre as posições 7 a 17 da string original "Dados científicos". Definimos as variáveis indice_inicial como ponto inicial e indice_final como ponto final. O resultado mostra a substring extraída (nesse caso, "científicos"). O valor 17 no índice final é inclusivo, o que significa que o caractere que ocupa a posição 17 também faz parte da substring.

Manipular strings com a função substring() em R

Primeiro, vamos criar o data frame df composto por IDs, idades e profissões. Em seguida, usaremos a função R substring() para inserir um espaço na segunda posição de cada string da coluna ID. Veja:

# Criação de data frame de exemplo
df <- data.frame(
    ID = c("01235", "02345", "04531"),
    Idade = c(25, 30, 22),
    Profissão = c("Engenheiro", "Médico", "Professor")
)
# Inserção de espaço na segunda posição da coluna "ID"
df$ID <- paste(substring(df$ID, 1, 1), " ", substring(df$ID, 2))
# Exibição do data frame modificado
print("Data frame modificado:")
print(df)
R

No exemplo acima, a função substring() extrai o primeiro dígito de cada número (substring(df$ID, 1, 1), enquanto o restante da sequência numérica começa a partir da segunda posição (substring(df$ID, 2)). O espaço é inserido entre essas duas substrings por meio da função R paste. O resultado aparece na coluna “ID” do data frame.

Este será o resultado apresentado:

Data frame modificado:
    ID         Idade  Profissão
1  0 1235  25     Engenheiro
2  0 2345  30     Médico
3  0 4531  22     Professor
R
Dica

Se você quer aprimorar os seus conhecimentos sobre strings em R, confira este tutorial sobre R gsub() e sub() do nosso Digital Guide.

Hospedagem web com consultor pessoal

Rápido e escalável, confie na hospedagem da IONOS, que inclui domínio grátis no primeiro ano e endereço de e-mail!

  • Domínio
  • SSL Wildcard
  • Suporte 24 horas
Este artigo foi útil?
Para melhorar a sua experiência, este site usa cookies. Ao acessar o nosso site, você concorda com nosso uso de cookies. Mais informações
Page top