OpenAI Apresenta Novo Modelo de IA para Identificar Erros em Códigos
OpenAI apresenta CriticGPT, um novo modelo de IA para identificar erros em códigos gerados por ChatGPT
No dia 27 de junho de 2024, pesquisadores da OpenAI revelaram o CriticGPT, um novo modelo de IA projetado para identificar erros em códigos gerados pelo ChatGPT. O objetivo é aprimorar o processo de fazer com que sistemas de IA se comportem da maneira desejada pelos humanos, conhecido como “alinhamento”.
Reforço no Aprendizado por Feedback Humano
O CriticGPT utiliza o Reinforcement Learning from Human Feedback (RLHF) para ajudar revisores humanos a tornar as saídas de grandes modelos de linguagem (LLM) mais precisas. Com base na família GPT-4 de LLMs, o CriticGPT analisa o código e aponta potenciais erros, facilitando a identificação de falhas que poderiam passar despercebidas.
Resultados Promissores
Em experimentos, o CriticGPT demonstrou sua capacidade de identificar tanto erros inseridos quanto erros naturais nas saídas do ChatGPT. As críticas do novo modelo foram preferidas pelos treinadores em 63% dos casos envolvendo bugs naturais, devido à sua capacidade de produzir menos “picuinhas” e gerar menos falsos positivos.
Ampliando as Capacidades
Além da revisão de código, o CriticGPT mostrou-se capaz de identificar erros em tarefas não relacionadas ao código. Em testes, o modelo identificou erros em 24% dos casos em que as saídas do ChatGPT foram consideradas impecáveis por humanos, destacando sua capacidade de generalização e detecção de falhas sutis.
Limitações e Futuro
Apesar dos resultados promissores, o CriticGPT possui limitações, como a preparação limitada para avaliar tarefas mais complexas. A OpenAI planeja integrar modelos semelhantes ao CriticGPT em seu pipeline de rotulagem RLHF, fornecendo assistência de IA aos treinadores para avaliar saídas de sistemas LLM.
Referências
Referência: OpenAI’s CriticGPT outperforms humans in catching AI-generated code bugs