VALIDAÇÃO DE CHATBOTS DE MODELOS DE LINGUAGEM DE GRANDE ESCALA (LLM) NO CURSO DE ADMINISTRAÇÃO
INTRODUÇÃO: O avanço e a crescente presença da Inteligência Artificial (IA) no ensino superior, especialmente das ferramentas de IA generativa, como ChatGPT e Gemini, oferecem potencial para personalizar o aprendizado, otimizar tarefas e apoiar a gestão acadêmica. Apesar de seus benefícios, há preocupações sobre ética, integridade acadêmica, vieses e uso responsável. A adoção dessas tecnologias deve equilibrar inovação e responsabilidade, garantindo que sirvam como apoio ao desenvolvimento do pensamento crítico e das habilidades humanas. OBJETIVOS: O objetivo deste estudo foi avaliar o desempenho de chatbots com IA generativa em provas do ENADE do curso de Administração. MATERIAIS E MÉTODO: O estudo foi conduzido em duas etapas principais. Na primeira, realizou-se uma revisão sistemática de literatura na base Scopus, utilizando a string “education AND (IA OR ‘Artificial Intelligence’)”, filtrando publicações dos anos de 2023 e 2024 na área de Negócios, Gerenciamento e Contabilidade. Após aplicar filtros por tipo de documento (apenas artigos) e por palavras-chave (ChatGPT, Chatbots), selecionaram-se 64 estudos para análise, classificados nos eixos educação, ética e gestão educacional.Na segunda etapa, desenvolveu-se um instrumento com base nas provas objetivas do ENADE de Administração (2006 a 2022), categorizadas por áreas como Estratégia, Finanças, Marketing, Gestão de Pessoas, Operações, Sistemas de Informação, Ética e Teoria Geral da Administração. Nove ferramentas de IA generativa (incluindo ChatGPT, Claude, Gemini, Grok, Perplexity, Maritaca, Humata, ChatPDF e YOU) foram testadas, registrando-se os percentuais de acertos totais e por área. RESULTADOS: Os resultados indicaram que a IA generativa pode personalizar o aprendizado, otimizar processos de ensino e apoiar a gestão acadêmica, mas também apresenta desafios éticos, como integridade acadêmica, vieses e uso responsável. No teste com nove ferramentas de IA, o ChatGPT e o Claude obtiveram melhor desempenho geral (80% de acertos), enquanto o Humata apresentou o pior resultado (33%). Questões de áreas humanas tiveram maior acurácia do que as de exatas, especialmente quando envolviam interpretação de imagens. CONSIDERAÇÕES FINAIS: O estudo conclui que a adoção da IA na educação deve equilibrar inovação tecnológica e responsabilidade ética, reforçando o papel do pensamento crítico e da interação humana.
PALAVRAS-CHAVE: ChatGPT; Claude; ENADE; LLM.
Para validarmos seu voto, por favor, preencha os campos abaixo. Alertamos que votos duplicados ou com CPF inválido não serão considerados.