toco 10 melhores algoritmos de aprendizado de máquina (2024) - Unite.AI
Entre em contato

Melhor de

10 melhores algoritmos de aprendizado de máquina

mm
Atualização do on

Embora estejamos vivendo uma época de extraordinária inovação no aprendizado de máquina acelerado por GPU, os artigos de pesquisa mais recentes frequentemente (e com destaque) apresentam algoritmos que têm décadas, em certos casos, 70 anos.

Alguns podem argumentar que muitos desses métodos mais antigos caem no campo da 'análise estatística' em vez do aprendizado de máquina, e preferem datar o advento do setor apenas até 1957, com o invenção do Perceptron.

Dada a extensão em que esses algoritmos mais antigos suportam e estão enredados nas últimas tendências e desenvolvimentos de manchete em aprendizado de máquina, é uma posição contestável. Então, vamos dar uma olhada em alguns dos blocos de construção 'clássicos' que sustentam as inovações mais recentes, bem como algumas entradas mais recentes que estão fazendo uma oferta inicial para o hall da fama da IA.

1: Transformadores

Em 2017, o Google Research liderou uma colaboração de pesquisa que culminou no papel Atenção É Tudo Que Você Precisa. A obra delineou uma arquitetura inovadora que promoveu mecanismos de atenção de 'piping' em codificador/decodificador e modelos de rede recorrentes para uma tecnologia transformacional central por direito próprio.

A abordagem foi batizada transformador, e desde então se tornou uma metodologia revolucionária em Processamento de Linguagem Natural (PNL), alimentando, entre muitos outros exemplos, o modelo de linguagem autorregressivo e o modelo de IA GPT-3.

Os transformadores resolveram elegantemente o problema de transdução de sequência, também chamada de 'transformação', que se ocupa do processamento de sequências de entrada em sequências de saída. Um transformador também recebe e gerencia dados de maneira contínua, ao invés de lotes sequenciais, permitindo uma 'persistência de memória' que as arquiteturas RNN não foram projetadas para obter. Para uma visão geral mais detalhada dos transformadores, dê uma olhada em nosso artigo de referência.

Em contraste com as Redes Neurais Recorrentes (RNNs) que começaram a dominar a pesquisa de ML na era CUDA, a arquitetura do Transformer também poderia ser facilmente paralelizado, abrindo caminho para abordar produtivamente um corpo de dados muito maior do que RNNs.

Uso popular

Transformers capturou a imaginação do público em 2020 com o lançamento do GPT-3 da OpenAI, que ostentava um recorde 175 bilhões de parâmetros. Essa conquista aparentemente impressionante acabou sendo ofuscada por projetos posteriores, como o 2021 liberar do Megatron-Turing NLG 530B da Microsoft, que (como o nome sugere) apresenta mais de 530 bilhões de parâmetros.

Uma linha do tempo de projetos de NLP Transformer em hiperescala. Fonte: Microsoft

Uma linha do tempo de projetos de NLP Transformer em hiperescala. Fonte: Microsoft

A arquitetura do Transformer também passou da PNL para a visão computacional, alimentando um nova geração de estruturas de síntese de imagem, como OpenAI CLIP e DALL-E, que usam mapeamento de domínio de texto>imagem para finalizar imagens incompletas e sintetizar novas imagens de domínios treinados, entre um número crescente de aplicativos relacionados.

DALL-E tenta completar uma imagem parcial de um busto de Platão. Fonte: https://openai.com/blog/dall-e/

DALL-E tenta completar uma imagem parcial de um busto de Platão. Fonte: https://openai.com/blog/dall-e/

2: Redes Geradoras Adversariais (GANs)

Embora os transformadores tenham ganhado uma cobertura extraordinária da mídia com o lançamento e adoção do GPT-3, o Rede Adversarial Geradora (GAN) tornou-se uma marca reconhecível por direito próprio e pode, eventualmente, juntar-se deepfake como verbo.

Primeiro proposto em 2014 e usado principalmente para síntese de imagem, uma rede adversária generativa arquitetura é composto por um Gerador e de um Discriminador. O Gerador percorre milhares de imagens em um conjunto de dados, tentando reconstruí-las iterativamente. Para cada tentativa, o Discriminador classifica o trabalho do Gerador e envia o Gerador de volta para fazer melhor, mas sem nenhuma percepção sobre o erro da reconstrução anterior.

Fonte: https://developers.google.com/machine-learning/gan/gan_structure

Fonte: https://developers.google.com/machine-learning/gan/gan_structure

Isso força o Gerador a explorar uma multiplicidade de caminhos, em vez de seguir os possíveis becos sem saída que resultariam se o Discriminador tivesse dito onde estava errado (veja #8 abaixo). Quando o treinamento terminar, o Generator terá um mapa detalhado e abrangente das relações entre os pontos no conjunto de dados.

Um trecho do vídeo que acompanha os pesquisadores (veja a incorporação no final do artigo). Observe que o usuário está manipulando as transformações com um cursor 'pegar' (canto superior esquerdo). Fonte: https://www.youtube.com/watch?v=k7sG4XY5rIc

Do papel Melhorando o equilíbrio de GAN aumentando a consciência espacial: uma nova estrutura percorre o espaço latente às vezes misterioso de uma GAN, fornecendo instrumentalidade responsiva para uma arquitetura de síntese de imagem. Fonte: https://genforce.github.io/eqgan/

Por analogia, esta é a diferença entre aprender um único trajeto monótono para o centro de Londres ou adquirir meticulosamente O conhecimento.

O resultado é uma coleção de recursos de alto nível no espaço latente do modelo treinado. O indicador semântico para um traço de alto nível pode ser 'pessoa', enquanto uma descida através da especificidade relacionada ao traço pode revelar outras características aprendidas, como 'masculino' e 'feminino'. Em níveis mais baixos, as subcaracterísticas podem ser divididas em 'loira', 'caucasiana', et al.

Emaranhamento é um problema notável no espaço latente de GANs e estruturas de codificador/decodificador: o sorriso em um rosto feminino gerado por GAN é uma característica emaranhada de sua 'identidade' no espaço latente ou é um ramo paralelo?

Os rostos gerados por GAN dessa pessoa não existem. Fonte: https://this-person-does-not-exist.com/en

Os rostos gerados por GAN dessa pessoa não existem. Fonte: https://this-person-does-not-exist.com/en

Os últimos dois anos trouxeram à tona um número crescente de novas iniciativas de pesquisa a esse respeito, talvez abrindo caminho para a edição em nível de recurso, estilo Photoshop para o espaço latente de um GAN, mas, no momento, muitas transformações são efetivamente ' pacotes de tudo ou nada. Notavelmente, o lançamento do EditGAN da NVIDIA no final de 2021 atinge um alto nível de interpretabilidade no espaço latente usando máscaras de segmentação semântica.

Uso popular

Além de seu envolvimento (na verdade bastante limitado) em vídeos deepfake populares, os GANs centrados em imagens/vídeos proliferaram nos últimos quatro anos, cativando pesquisadores e o público. Acompanhar a vertiginosa taxa e frequência de novos lançamentos é um desafio, embora o repositório do GitHub Aplicativos GAN impressionantes visa fornecer uma lista abrangente.

Redes Adversariais Generativas podem, em teoria, derivar características de qualquer domínio bem enquadrado, incluindo texto.

3: SVM

Originado em 1963, Máquina de vetores de suporte (SVM) é um algoritmo central que surge frequentemente em novas pesquisas. No SVM, os vetores mapeiam a disposição relativa dos pontos de dados em um conjunto de dados, enquanto ajuda os vetores delineiam os limites entre diferentes grupos, recursos ou características.

Os vetores de suporte definem os limites entre os grupos. Fonte: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

Os vetores de suporte definem os limites entre os grupos. Fonte: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

A fronteira derivada é chamada de hiperplano.

Em níveis de recursos baixos, o SVM é bidimensional (imagem acima), mas onde há um número maior de grupos ou tipos reconhecidos, torna-se tridimensional.

Uma matriz mais profunda de pontos e grupos necessita de um SVM tridimensional. Fonte: https://cml.rhul.ac.uk/svm.html

Uma matriz mais profunda de pontos e grupos necessita de um SVM tridimensional. Fonte: https://cml.rhul.ac.uk/svm.html

Uso popular

Como as máquinas de vetores de suporte podem abordar de forma eficaz e agnóstica dados de alta dimensão de vários tipos, elas surgem amplamente em uma variedade de setores de aprendizado de máquina, incluindo detecção de deepfake, classificação de imagem, classificação do discurso de ódio, Análise de DNA e previsão da estrutura da população, Entre muitos outros.

4: Agrupamento de K-Means

Agrupamento em geral é uma aprendizado não supervisionado abordagem que procura categorizar pontos de dados por meio de estimativa de densidade, criando um mapa da distribuição dos dados que estão sendo estudados.

O agrupamento de K-Means revela segmentos, grupos e comunidades em dados. Fonte: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

O agrupamento de K-Means revela segmentos, grupos e comunidades em dados. Fonte: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

K-significa clusters tornou-se a implementação mais popular dessa abordagem, reunindo pontos de dados em 'Grupos K' distintos, que podem indicar setores demográficos, comunidades on-line ou qualquer outra possível agregação secreta esperando para ser descoberta em dados estatísticos brutos.

Clusters se formam na análise K-Means. Fonte: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

Clusters se formam na análise K-Means. Fonte: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

O próprio valor de K é o fator determinante na utilidade do processo e no estabelecimento de um valor ótimo para um cluster. Inicialmente, o valor de K é atribuído aleatoriamente e seus recursos e características do vetor são comparados com seus vizinhos. Os vizinhos que mais se assemelham ao ponto de dados com o valor atribuído aleatoriamente são atribuídos ao seu cluster iterativamente até que os dados tenham gerado todos os agrupamentos permitidos pelo processo.

O gráfico para o erro quadrado, ou 'custo' de valores diferentes entre os clusters, revelará uma ponto do cotovelo para os dados:

O 'ponto do cotovelo' em um gráfico de cluster. Fonte: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

O 'ponto do cotovelo' em um gráfico de cluster. Fonte: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

O ponto de cotovelo é semelhante em conceito à maneira como a perda se reduz a retornos decrescentes no final de uma sessão de treinamento para um conjunto de dados. Ele representa o ponto em que nenhuma outra distinção entre os grupos se tornará aparente, indicando o momento de passar para as fases subsequentes no pipeline de dados ou então relatar as descobertas.

Uso popular

K-Means Clustering, por razões óbvias, é uma tecnologia primária na análise de clientes, pois oferece uma metodologia clara e explicável para traduzir grandes quantidades de registros comerciais em insights demográficos e 'leads'.

Fora desta aplicação, K-Means Clustering também é empregado para previsão de deslizamento de terra, segmentação de imagens médicas, síntese de imagem com GANs, classificação de documentos e planejamento urbano, entre muitos outros usos potenciais e reais.

5: Floresta Aleatória

Random Forest é um aprendizagem em conjunto método que calcula a média do resultado de uma matriz de Árvores de decisão para estabelecer uma previsão geral para o resultado.

Fonte: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

Fonte: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

Se você pesquisou tão pouco como assistir ao Volta para o Futuro trilogia, uma árvore de decisão em si é bastante fácil de conceituar: vários caminhos estão diante de você, e cada caminho se ramifica para um novo resultado que, por sua vez, contém outros caminhos possíveis.

In aprendizagem de reforço, você pode recuar de um caminho e começar novamente a partir de uma postura anterior, enquanto as árvores de decisão se comprometem com suas jornadas.

Assim, o algoritmo Random Forest é essencialmente um spread-betting para decisões. O algoritmo é chamado de 'aleatório' porque faz ad hoc seleções e observações, a fim de compreender o mediana soma dos resultados da matriz da árvore de decisão.

Uma vez que leva em conta uma multiplicidade de fatores, uma abordagem de Random Forest pode ser mais difícil de converter em gráficos significativos do que uma árvore de decisão, mas provavelmente será notavelmente mais produtiva.

As árvores de decisão estão sujeitas a overfitting, onde os resultados obtidos são específicos dos dados e não são passíveis de generalização. A seleção arbitrária de pontos de dados da Random Forest combate essa tendência, explorando tendências representativas significativas e úteis nos dados.

Regressão de árvore de decisão. Fonte: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

Regressão de árvore de decisão. Fonte: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

Uso popular

Tal como acontece com muitos dos algoritmos nesta lista, o Random Forest normalmente opera como um classificador e filtro de dados 'iniciais' e, como tal, surge consistentemente em novos trabalhos de pesquisa. Alguns exemplos de uso da Random Forest incluem Síntese de Imagens de Ressonância Magnética, Previsão de preços Bitcoin, segmentação do censo, classificação de texto e detecção de fraude de cartão de crédito.

Como Random Forest é um algoritmo de baixo nível em arquiteturas de aprendizado de máquina, ele também pode contribuir para o desempenho de outros métodos de baixo nível, bem como algoritmos de visualização, incluindo Agrupamento Indutivo, Transformações de recursos, classificação de documentos de texto usando recursos esparsos e exibindo pipelines.

6: Bayes ingênuo

Juntamente com a estimativa de densidade (ver 4, Acima de um Baías ingénuas O classificador é um algoritmo poderoso, mas relativamente leve, capaz de estimar probabilidades com base nos recursos calculados dos dados.

Relacionamentos de recursos em um classificador ingênuo de Bayes. Fonte: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

Relacionamentos de recursos em um classificador ingênuo de Bayes. Fonte: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

O termo 'ingênuo' refere-se à suposição em teorema de bayes que os recursos não estão relacionados, conhecidos como independência condicional. Se você adotar esse ponto de vista, andar e falar como um pato não são suficientes para estabelecer que estamos lidando com um pato, e nenhuma suposição 'óbvia' é adotada prematuramente.

Esse nível de rigor acadêmico e investigativo seria um exagero quando o "senso comum" estiver disponível, mas é um padrão valioso ao atravessar as muitas ambiguidades e correlações potencialmente não relacionadas que podem existir em um conjunto de dados de aprendizado de máquina.

Em uma rede bayesiana original, os recursos estão sujeitos a funções de pontuação, incluindo o tamanho mínimo da descrição e pontuação bayesiana, que pode impor restrições aos dados em termos das conexões estimadas encontradas entre os pontos de dados e a direção na qual essas conexões fluem.

Um classificador ingênuo de Bayes, por outro lado, opera assumindo que as características de um determinado objeto são independentes, posteriormente usando o teorema de Bayes para calcular a probabilidade de um determinado objeto, com base em suas características.

Uso popular

Os filtros Naive Bayes estão bem representados em previsão de doenças e categorização de documentos, filtragem de spam, classificação de sentimento, sistemas de recomendação e detecção de fraude, entre outras aplicações.

7: K- Vizinhos mais próximos (KNN)

Proposto pela primeira vez pela Escola de Medicina de Aviação da Força Aérea dos EUA em 1951, e tendo que se acomodar ao hardware de computação de última geração de meados do século 20, Vizinhos mais próximos (KNN) é um algoritmo enxuto que ainda aparece com destaque em trabalhos acadêmicos e iniciativas de pesquisa de aprendizado de máquina do setor privado.

O KNN tem sido chamado de 'o aprendiz preguiçoso', uma vez que examina exaustivamente um conjunto de dados para avaliar as relações entre os pontos de dados, em vez de exigir o treinamento de um modelo de aprendizado de máquina completo.

Um agrupamento KNN. Fonte: https://scikit-learn.org/stable/modules/neighbors.html

Um agrupamento KNN. Fonte: https://scikit-learn.org/stable/modules/neighbors.html

Embora o KNN seja arquitetonicamente esbelto, sua abordagem sistemática coloca uma demanda notável em operações de leitura/gravação, e seu uso em conjuntos de dados muito grandes pode ser problemático sem tecnologias adjuntas, como a Análise de Componentes Principais (PCA), que pode transformar conjuntos de dados complexos e de alto volume em agrupamentos representativos que KNN pode percorrer com menos esforço.

A estudo recente avaliou a eficácia e a economia de vários algoritmos encarregados de prever se um funcionário deixará uma empresa, descobrindo que o septuagenário KNN permaneceu superior aos concorrentes mais modernos em termos de precisão e eficácia preditiva.

Uso popular

Apesar de toda a sua popular simplicidade de conceito e execução, KNN não está preso na década de 1950 - foi adaptado para uma abordagem mais focada em DNN em uma proposta de 2018 da Universidade Estadual da Pensilvânia e continua sendo um processo central de estágio inicial (ou ferramenta analítica de pós-processamento) em muitas estruturas de aprendizado de máquina muito mais complexas.

Em várias configurações, KNN tem sido usado ou para verificação de assinatura online, classificação de imagem, mineração de texto, previsão de safra e reconhecimento facial, além de outras aplicações e incorporações.

Um sistema de reconhecimento facial baseado em KNN em treinamento. Fonte: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

Um sistema de reconhecimento facial baseado em KNN em treinamento. Source: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

8: Processo de Decisão de Markov (MDP)

Uma estrutura matemática introduzida pelo matemático americano Richard Bellman em 1957, O Processo de Decisão de Markov (MDP) é um dos blocos mais básicos de aprendizagem de reforço arquiteturas. Um algoritmo conceitual por si só, ele foi adaptado a um grande número de outros algoritmos e é recorrente na atual safra de pesquisa de IA/ML.

O MDP explora um ambiente de dados usando sua avaliação de seu estado atual (ou seja, 'onde' ele está nos dados) para decidir qual nó dos dados explorar em seguida.

Fonte: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

Fonte: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

Um Processo de Decisão de Markov básico priorizará a vantagem de curto prazo sobre os objetivos de longo prazo mais desejáveis. Por esse motivo, geralmente está inserido no contexto de uma arquitetura de política mais abrangente no aprendizado por reforço e geralmente está sujeito a fatores limitantes, como recompensa com desconto, e outras variáveis ​​ambientais modificadoras que o impedirão de correr para um objetivo imediato sem levar em consideração o resultado desejado mais amplo.

Uso popular

O conceito de baixo nível do MDP é difundido tanto em pesquisas quanto em implantações ativas de aprendizado de máquina. Tem sido proposto para Sistemas de defesa de segurança IoT, colheita de peixe e previsão de mercado.

Além de aplicabilidade óbvia ao xadrez e outros jogos estritamente sequenciais, o MDP também é um candidato natural ao treinamento processual de sistemas robóticos, como podemos ver no vídeo abaixo.

Planejador Global usando um Processo de Decisão de Markov - Robótica Industrial Móvel

 

9: Frequência Termo-Frequência Inversa do Documento

Frequência do Termo (TF) divide o número de vezes que uma palavra aparece em um documento pelo número total de palavras nesse documento. Assim a palavra selar aparecendo uma vez em um artigo de mil palavras tem uma frequência de termo de 0.001. Por si só, TF é amplamente inútil como um indicador de importância do termo, devido ao fato de que artigos sem sentido (como a, e, que o e it) predominam.

Para obter um valor significativo para um termo, o Inverse Document Frequency (IDF) calcula o TF de uma palavra em vários documentos em um conjunto de dados, atribuindo uma classificação baixa a uma frequência muito alta palavras irrelevantes, como artigos. Os vetores de recursos resultantes são normalizados para valores inteiros, com cada palavra atribuída a um peso apropriado.

O TF-IDF pondera a relevância dos termos com base na frequência em vários documentos, sendo a ocorrência mais rara um indicador de relevância. Fonte: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

O TF-IDF pondera a relevância dos termos com base na frequência em vários documentos, sendo a ocorrência mais rara um indicador de relevância. Fonte: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

Embora essa abordagem evite que palavras semanticamente importantes sejam perdidas como discrepantes, inverter o peso da frequência não significa automaticamente que um termo de baixa frequência é não um outlier, porque algumas coisas são raras e inútil. Portanto, um termo de baixa frequência precisará provar seu valor no contexto arquitetônico mais amplo, apresentando (mesmo com baixa frequência por documento) em vários documentos no conjunto de dados.

Apesar de sua idade, TF-IDF é um método poderoso e popular para passagens iniciais de filtragem em estruturas de processamento de linguagem natural.

Uso popular

Como o TF-IDF desempenhou pelo menos alguma parte no desenvolvimento do algoritmo amplamente oculto do PageRank do Google nos últimos vinte anos, tornou-se amplamente adotado como uma tática de SEO manipuladora, apesar do anúncio de John Mueller em 2019 negação de sua importância para os resultados da pesquisa.

Devido ao sigilo em torno do PageRank, não há evidências claras de que o TF-IDF seja não atualmente uma tática eficaz para subir nos rankings do Google. Incendiário discussão entre os profissionais de TI ultimamente indica um entendimento popular, correto ou não, de que o abuso de termos ainda pode resultar em posicionamento de SEO aprimorado (embora acusações de abuso de monopólio e publicidade excessiva borrar os limites desta teoria).

10: Descida Gradiente Estocástica

Descida gradiente estocástico (SGD) é um método cada vez mais popular para otimizar o treinamento de modelos de aprendizado de máquina.

O próprio Gradient Descent é um método de otimização e subsequente quantificação da melhoria que um modelo está fazendo durante o treinamento.

Nesse sentido, 'gradiente' indica uma inclinação para baixo (em vez de uma gradação baseada em cores, veja a imagem abaixo), onde o ponto mais alto da 'colina', à esquerda, representa o início do processo de treinamento. Nesse estágio, o modelo ainda não viu a totalidade dos dados nem uma vez e não aprendeu o suficiente sobre os relacionamentos entre os dados para produzir transformações efetivas.

Uma descida de gradiente em uma sessão de treinamento FaceSwap. Podemos ver que o treinamento estagnou por algum tempo no segundo tempo, mas eventualmente recuperou seu caminho em direção a uma convergência aceitável.

Uma descida de gradiente em uma sessão de treinamento FaceSwap. Podemos ver que o treinamento estagnou por algum tempo no segundo tempo, mas eventualmente recuperou seu caminho em direção a uma convergência aceitável.

O ponto mais baixo, à direita, representa a convergência (o ponto em que o modelo é o mais eficaz possível sob as restrições e configurações impostas).

O gradiente atua como um registro e preditor da disparidade entre a taxa de erro (com que precisão o modelo mapeou atualmente os relacionamentos de dados) e os pesos (as configurações que influenciam a maneira como o modelo aprenderá).

Este registro de progresso pode ser usado para informar um cronograma de taxa de aprendizado, um processo automático que diz à arquitetura para se tornar mais granular e precisa à medida que os primeiros detalhes vagos se transformam em relacionamentos e mapeamentos claros. Com efeito, a perda de gradiente fornece um mapa just-in-time de onde o treinamento deve ir em seguida e como ele deve prosseguir.

A inovação do Stochastic Gradient Descent é que ele atualiza os parâmetros do modelo em cada exemplo de treinamento por iteração, o que geralmente acelera a jornada para a convergência. Devido ao advento de conjuntos de dados em hiperescala nos últimos anos, o SGD cresceu em popularidade como um método possível para resolver os problemas logísticos resultantes.

Por outro lado, o SGD implicações negativas para dimensionamento de recursos e pode exigir mais iterações para obter o mesmo resultado, exigindo planejamento adicional e parâmetros adicionais, em comparação com o Gradient Descent regular.

Uso popular

Devido à sua configurabilidade e apesar de suas deficiências, o SGD tornou-se o algoritmo de otimização mais popular para o ajuste de redes neurais. Uma configuração de SGD que está se tornando dominante em novos trabalhos de pesquisa de IA/ML é a escolha da Estimativa de Momento Adaptativo (ADAM, introduzido em 2015) otimizador.

O ADAM adapta a taxa de aprendizado para cada parâmetro dinamicamente ('taxa de aprendizado adaptativo'), bem como incorpora resultados de atualizações anteriores na configuração subsequente ('momentum'). Além disso, pode ser configurado para usar inovações posteriores, como Momento Nesterov.

No entanto, alguns sustentam que o uso de impulso também pode acelerar ADAM (e algoritmos semelhantes) para um conclusão abaixo do ideal. Assim como a maior parte do setor de pesquisa de aprendizado de máquina, o SGD é um trabalho em andamento.

 

Publicado pela primeira vez em 10 de fevereiro de 2022. Alterado em 10 de fevereiro às 20.05hXNUMX EET – formatação.