Conheça o Camaleão: Um Plugue | Grupo de patch cords Jilin

Os recentes modelos de linguagem grande (LLMs) para diversas tarefas de NLP fizeram progressos notáveis, com exemplos notáveis sendo GPT-3, PaLM, LLaMA, ChatGPT e o mais recentemente proposto GPT-4. Esses modelos têm uma enorme promessa de planejamento e tomada de decisões semelhantes aos humanos, pois podem resolver várias tarefas em situações de tiro zero ou com a ajuda de algumas instâncias. Habilidades emergentes, incluindo aprendizado no contexto, raciocínio matemático e pensamento de senso comum, são mostradas pelos LLMs. No entanto, os LLMs têm restrições internas, como a incapacidade de usar ferramentas externas, acessar informações atuais ou raciocinar matematicamente com precisão.

Uma área de pesquisa em andamento se concentra no aprimoramento de modelos de linguagem com acesso a ferramentas e recursos externos e na investigação da integração de ferramentas externas e estratégias modulares plug-and-play para resolver essas restrições dos LLMs. Pesquisas recentes usam LLMs para construir programas complicados que concluem problemas de raciocínio lógico com mais eficiência e aproveitam recursos de computador fortes para melhorar as habilidades de raciocínio matemático. Por exemplo, com a ajuda de fontes externas de conhecimento e mecanismos de pesquisa on-line, os LLMs podem adquirir informações em tempo real e usar o conhecimento específico do domínio. Outra linha de pesquisa atual, incluindo ViperGPT, Visual ChatGPT, VisProg e HuggingGPT, integra vários modelos básicos de visão computacional para fornecer aos LLMs as habilidades necessárias para lidar com problemas de raciocínio visual.

Apesar dos avanços substanciais, os LLMs com ferramentas aprimoradas de hoje ainda encontram grandes obstáculos ao responder a consultas do mundo real. A maioria das técnicas atuais está restrita a um conjunto restrito de ferramentas ou depende de dispositivos específicos para um determinado domínio, dificultando sua generalização para diferentes investigações. A Figura 1 ilustra isso: "Qual é o principal apelo persuasivo usado neste anúncio?" 1) Assuma que uma imagem de anúncio tem contexto de texto e chame um decodificador de texto para compreender a semântica para responder a esta consulta; 2) encontrar informações básicas para explicar o que é "apelo persuasivo" e como os diferentes tipos diferem; 3) chegar a uma solução usando as dicas da pergunta de entrada e os resultados provisórios das fases anteriores; e 4) finalmente, apresentar a resposta de maneira específica para a tarefa.

Por outro lado, ao responder à pergunta "Qual pele de animal é adaptada para sobreviver em locais frios", pode ser necessário contatar módulos adicionais, como um legendador de imagens para analisar as informações da imagem e um mecanismo de pesquisa na Web para coletar conhecimento de domínio para compreender a terminologia científica. Pesquisadores da UCLA e da Microsoft Research fornecem o Chameleon, uma estrutura de raciocínio de composição plug-and-play que usa enormes modelos de linguagem para resolver esses problemas. O Chameleon pode sintetizar programas para criar várias ferramentas para responder a várias perguntas.

Chameleon é um planejador de linguagem natural que se baseia em um LLM. Ao contrário dos métodos convencionais, ele usa várias ferramentas, como LLMs, modelos de visão computacional pré-construídos, mecanismos de pesquisa online, funções Python e módulos baseados em regras projetados para um objetivo específico. O Chameleon gera esses programas usando os recursos de aprendizado em contexto dos LLMs e não precisa de nenhum treinamento. O planejador pode deduzir a ordem adequada de ferramentas para compor e executar para fornecer a resposta final a uma consulta do usuário, solicitada pelas descrições de cada ferramenta e exemplos de uso da ferramenta.

O Chameleon cria programas que se assemelham à linguagem natural, ao contrário dos esforços anteriores que criavam programas específicos de domínio. Esses programas são menos propensos a erros, mais simples de depurar, mais amigáveis para indivíduos com pouco conhecimento de programação e expansíveis para incluir novos módulos. Cada módulo no programa executa, processa e armazena em cache a consulta e o contexto, retorna uma resposta escolhida pelo módulo e modifica a consulta e o contexto armazenado para as próximas execuções do módulo. Ao compor os módulos como um programa sequencial, as consultas atualizadas e o contexto previamente armazenado em cache podem ser usados durante a execução dos próximos módulos. Em duas tarefas — ScienceQA e TabMWP — eles demonstram a flexibilidade e a potência do Chameleon.