Semi-Supervised Learning: O que é aprendizado semissupervisionado

No aprendizado semissupervisionado (Semi-Supervised Learning), um modelo é treinado tanto com dados rotulados quanto com dados não rotulados. O algoritmo aprende a reconhecer padrões nas instâncias de dados sem a necessidade de uma variável-alvo conhecida, usando poucos pontos de dados rotulados. O processo resulta na formação de modelos mais precisos e eficientes.

O que significa Semi-Supervised Learning?

Semi-Supervised Learning, em português aprendizado semissupervisionado, é uma abordagem híbrida do campo de machine learning que combina as vantagens do aprendizado supervisionado com as do aprendizado não supervisionado. O método utiliza uma pequena quantidade de dados rotulados junto com uma grande quantidade de dados não rotulados para treinar modelos de inteligência artificial (IA). Dessa forma, o algoritmo é capaz de identificar padrões nos conjuntos de dados não rotulados, apoiado pelos dados rotulados. Esse processo combinado de aprendizado permite que o modelo compreenda melhor a estrutura dos dados não rotulados, resultando em previsões mais precisas.

Premissas do Semi-Supervised Learning

Algoritmos projetados para o aprendizado semissupervisionado partem de diferentes premissas sobre o conjunto de dados:

  1. Premissa de continuidade: Pontos mais próximos têm maior probabilidade de compartilhar o mesmo rótulo de saída.
  2. Premissa de agrupamento (cluster): Os dados podem ser divididos em clusters distintos, e pontos dentro do mesmo cluster têm uma chance maior de possuir o mesmo rótulo de saída.
  3. Premissa da variedade (manifold): Os dados estão aproximadamente em uma variedade (um conjunto de pontos inter-relacionados) com uma dimensão menor que o espaço de entrada. Essa premissa permite o uso de distâncias e densidades para a análise dos dados.

Qual é a diferença entre Supervised e Unsupervised Learning?

Supervised, Unsupervised e Semi-Supervised Learning são abordagens fundamentais de machine learning. Contudo, cada método utiliza uma abordagem própria para treinar modelos de IA. A seguir, uma visão geral das principais diferenças entre Semi-Supervised Learning e os métodos tradicionais:

  • Supervised Learning (aprendizado supervisionado) utiliza apenas dados rotulados. Isso significa que cada exemplo de dado possui uma variável-alvo ou solução conhecida, que o algoritmo deve prever. Essa abordagem de Machine Learning é muito precisa, mas requer grandes quantidades de dados rotulados, cuja obtenção pode ser cara e demorada.
  • Unsupervised Learning (aprendizado não supervisionado) trabalha exclusivamente com dados não rotulados. O algoritmo tenta identificar padrões ou estruturas nos dados sem uma solução previamente definida. Unsupervised Learning é útil quando não há dados rotulados disponíveis, mas, devido à ausência de pontos de referência externos, pode ter limitações em termos de precisão e capacidade preditiva.
  • O Semi-Supervised Learning combina ambos os métodos ao usar uma pequena quantidade de dados rotulados para compreender a estrutura de um grande conjunto de dados não rotulados. Técnicas de aprendizado semissupervisionado adaptam um algoritmo supervisionado para utilizar dados não rotulados, permitindo previsões precisas com um esforço reduzido de rotulagem.

Um exemplo prático pode ilustrar melhor as diferenças entre cada método de machine learning. Em relação a crianças na escola, podemos fazer a seguinte analogia: aprendizado supervisionado é quando as crianças têm orientação tanto na escola quanto em casa. Se elas adquirem conhecimento de forma independente, isso representa aprendizado não supervisionado. No caso do aprendizado semissupervisionado, os alunos recebem algumas explicações em aula, mas precisam descobrir novas informações sozinhos com base no que já aprenderam.

Nota

Entenda o que é IA generativa com este artigo especializado do nosso Digital Guide.

Como funciona o Semi-Supervised Learning?

O aprendizado semissupervisionado é um processo em várias etapas que inclui:

  1. Definição do objetivo ou problema: Primeiramente, é necessário definir claramente os objetivos ou a finalidade do modelo de Machine Learning, com foco em quais otimizações serão buscadas por meio do aprendizado de máquina.
  2. Rotulagem de dados: Alguns dos dados não rotulados são rotulados para orientar o algoritmo de aprendizado. Para que o Semi-Supervised Learning funcione, é essencial utilizar dados relevantes para o treinamento do modelo. Por exemplo, se o objetivo é treinar um classificador de imagens para diferenciar cães de gatos, imagens de carros e trens não seriam úteis.
  3. Treinamento do modelo: Em seguida, os dados rotulados são usados para ensinar o modelo sobre sua tarefa e os resultados esperados.
  4. Treinamento com dados não rotulados: Após o treino inicial com dados rotulados, o modelo integra dados não rotulados.
  5. Avaliação e refinamento do modelo: Para garantir que o modelo criado funcione corretamente, são necessárias avaliações e ajustes contínuos. Esse processo de treinamento contribui para melhorias constantes, sendo repetido até que o algoritmo atinja a qualidade de resultado desejada.
Gráfico explica o funcionamento do processo de Semi-Supervised Learning
O gráfico mostra um exemplo simples de como funciona o aprendizado semissupervisionado: com base nos dados já rotulados, o modelo de IA faz a previsão correta.

Quais são as vantagens do Semi-Supervised Learning?

O aprendizado semissupervisionado é especialmente útil quando há muitos dados não rotulados disponíveis e marcar todos ou a maior parte deles se mostra caro ou difícil. Isso é relevante, pois o treinamento de modelos de IA normalmente exige grandes quantidades de dados rotulados, que fornecem o contexto necessário. Para que um modelo de classificação de imagens consiga distinguir dois objetos – como uma mesa e uma cadeira – são necessárias centenas ou até milhares de imagens rotuladas para o treinamento. Além disso, a rotulagem de dados – como na área de sequenciamento genético – exige conhecimento especializado.

Com o Semi-Supervised Learning, é possível obter alta precisão apesar da baixa quantidade de dados rotulados, pois os conjuntos de dados rotulados valorizam os dados não rotulados. Os dados rotulados servem como ponto de partida, o que pode acelerar o aprendizado e melhorar a precisão. Esse método permite aproveitar ao máximo um número limitado de dados rotulados enquanto utiliza uma grande quantidade de dados não rotulados, contribuindo para maior eficiência de custos.

Nota

O Semi-Supervised Learning também traz desafios e limitações: por exemplo, se os dados inicialmente rotulados contiverem erros, isso pode levar a conclusões erradas e afetar negativamente a qualidade do modelo. Além disso, o modelo pode se tornar tendencioso rapidamente se os dados rotulados e não rotulados não forem representativos da distribuição geral.

Quais são as principais áreas de aplicação do Semi-Supervised Learning?

Atualmente, o aprendizado semissupervisionado é utilizado em diferentes contextos, mas as tarefas de classificação ainda são consideradas um clássico. A seguir, um resumo das principais áreas de aplicação:

  • Classificação de conteúdo da web: Motores de busca como o Google utilizam aprendizado semissupervisionado para avaliar a relevância de páginas da web para determinadas consultas.
  • Classificação de texto e imagem: O objetivo aqui é classificar textos ou imagens em uma ou mais categorias predefinidas. O Semi-Supervised Learning é muito eficaz para isso, pois há uma grande quantidade de dados não rotulados, e rotular todos os conjuntos de dados seria muito demorado e caro.
  • Análise de linguagem: A rotulagem de arquivos de áudio também é um processo trabalhoso. O Semi-Supervised Learning oferece uma abordagem natural para resolver esse problema.
  • Análise de sequências de proteínas: Devido ao tamanho das cadeias de DNA, o aprendizado semissupervisionado é ideal para a análise de sequências de proteínas.
  • Detecção de anomalias: Com o Semi-Supervised Learning, é possível identificar padrões incomuns que não seguem a norma.
Este artigo foi útil?
Para melhorar a sua experiência, este site usa cookies. Ao acessar o nosso site, você concorda com nosso uso de cookies. Mais informações
Page top