Featured Faculty
Assistant Professor of Management and Organizations; Assistant Professor in the Department of Computer Science (CS), McCormick School of Engineering (Courtesy)

Jesús Escudero
Um dos principais fatores responsáveis pelo entusiasmo atual relacionado com a inteligência artificial é sua incrível capacidade de agir de forma quase humana. Diferente dos chatbots rígidos do passado, os novos modelos conseguem responder às emoções do usuário com nuances e entendimento. O efeito é tão convincente que algumas pessoas atribuem habilidades humanas complexas, como a empatia, a esses companheiros computadorizados.
Algumas empresas já aproveitam desse avanço para implantar chatbots de IA em áreas sensíveis, como aconselhamento médico, terapia e coaching de vida ou carreira, tarefas tradicionalmente realizadas por profissionais treinados. Mas será que a IA apenas fornece respostas úteis determinadas estatisticamente ou ela consegue de fato reconhecer quando uma resposta expressa empatia?
“Há muita evidência de que os computadores podem dizer ou escrever respostas que faça alguém se sentir validado, acolhido e ouvido”, diz Matthew Groh , professor assistente de gestão e organizações na Kellogg School. “O que não é muito certo é se conseguem reconhecer a comunicação empática quando se deparam com ela”.
Em uma nova pesquisa, Groh e uma equipe de pesquisadores avaliaram o desempenho da IA comparada com seres humanos no reconhecimento do tipo de comunicação empática importante para o tipo de trabalho de alto risco. Mais especificamente, eles compararam três grandes modelos de linguagem (LLMs), Gemini 2.5 Pro, ChatGPT 4o e Claude3.7 Sonnet, com pessoas experientes e inexperientes, quanto à sua capacidade de julgar nuances da empatia em conversas por texto.
Usando diversas estruturas para medir a comunicação empática, os pesquisadores descobriram que os LLMs se saíam quase tão bem quanto os especialistas em reconhecer a empatia, e muito mais confiáveis do que os não especialistas.
A equipe, que inclui a autora principal Aakriti Kumar, Nalin Poungpeth e Bruce Lambert da Northwestern, Diyi Yang de Stanford e Erina Farrell da Penn State, também descobriu que essa forma de avaliar modelos de IA tem o potencial de ensinar aos seres humanos algo novo sobre empatia: como a medimos e como a aplicamos.
“Estudar a forma como especialistas e IA avaliam a comunicação empática nos força a ser precisos sobre como as respostas empáticas eficazes se parecem na prática”, diz Kumar, pesquisador de pós-doutorado na Kellogg e no Instituto Northwestern de Sistemas Complexos (NICO). “Se fosse possível decompor a empatia em componentes confiáveis, podemos fornecer aos humanos e à IA um feedback mais claro sobre como fazer com que as pessoas se sintam ouvidas e compreendidas”.
Para avaliar a comunicação empática, os pesquisadores agruparam 200 conversas de texto entre uma pessoa que compartilhava um problema pessoal e outra que oferecia apoio. Em seguida, pediram a três especialistas em linguagem, três especialistas em psicologia e centenas de trabalhadores remotos que codificassem essas conversas com base em quatro estruturas distintas usadas em psicologia e pesquisa de processamento de linguagem natural: Diálogos empáticos, Empatia percebida, EPITOME e uma nova estrutura que desenvolveram chamada Projeto piloto "Lend-an-Ear”.
Cada estrutura pede aos observadores que avaliem uma conversa com base em características como "incentivar a elaboração" e "demonstrar compreensão", ou em perguntas como "A resposta tenta explorar as experiências e os sentimentos de quem busca a informação?"
No total, os pesquisadores coletaram 3.150 codificações de LLM, 3.150 codificações de especialistas e 2.844 codificações de colaboradores externos.
“Analisamos quatro [estruturas] diferentes, ou seja, de que forma quatro grupos independentes optaram por avaliar a comunicação empática, a fim de avaliar a comunicação empática sob diversas perspectivas”, diz Groh.
Sem uma resposta “certa” objetiva sobre o nível de empatia presente em uma série de comunicação, os pesquisadores estamos interessados na confiabilidade entre avaliadores, ou seja, na variação das pontuações de diferentes observadores. Para especialistas em comunicação altamente treinados, esperava-se uma variação baixa, o que foi observado pela equipe. As anotações dos avaliadores amadores, por outro lado, deveriam ser bastante discrepantes; outra previsão confirmada.
Ao comparar os julgamentos dos três modelos de IA com os de ambos os grupos, eles se mostraram muito mais semelhantes às avaliações dos especialistas do que às dos trabalhadores remotos. Em outras palavras, os modelos de aprendizagem baseada em linguagem (LLMs) foram capazes de reconhecer as nuances da comunicação empática de forma confiável, quase tão bem quanto os especialistas e com muito mais coerência do que os não especialistas.
“O fato de os LLMs conseguirem avaliar a comunicação empática em um nível próximo ao de especialistas sugere oportunidades promissoras quanto a ampliar o treinamento dos modelos para aplicações como terapia ou atendimento ao cliente, onde as habilidades empáticas são essenciais”, diz Kumar.
No entanto, os estudos também descobriram que as estruturas em si eram importantes. A confiabilidade entre avaliadores, mesmo levando em consideração apenas os especialistas, variou bastante entre as quatro estruturas e para diferentes perguntas ou medidas dentro dessas estruturas.
De acordo com Groh, quanto mais abrangente e confiável a estrutura, mais confiáveis seriam as codificações, tanto para os modelos de aprendizagem baseada em linguagem quanto para os especialistas.
“A qualidade da estrutura é realmente importante”, diz Groh. “Quando os especialistas concordam a respeito do que representa comunicação empática, os LLMs também podem concordar. Mas quando os especialistas são inconsistentes entre si, os modelos também têm a mesma dificuldade . Os LLMs, como avaliadores, são tão confiáveis quanto a estrutura que os sustenta”.
Os resultados sugerem que o que constitui comunicação empática ainda não é um tópico inteiramente definido. Por meio de avaliação e otimização rigorosas, tanto de avaliadores humanos quanto de IA, os cientistas podem criar estruturas mais robustas para identificar a empatia em conversas e ajudar as pessoas a melhor expressá-la.
“Ao caracterizarmos a comunicação empática com maior precisão podemos transformar o que antes era uma 'habilidade interpessoal' em uma habilidade essencial”, afirma Groh.
Segundo Groh, pesquisadores e profissionais de empresas importantes não têm dado a devida atenção à criação de estruturas adequadas para habilidades interpessoais como a empatia. Isso se dá, em parte, porque as pessoas não percebiam que tais habilidades poderiam ser avaliadas de forma rigorosa e em grande escala. Os avanços na tecnologia de IA podem ajudar a mudar essa forma de pensar.
“Os LLMs têm o potencial de nos ensinar sobre as nuances da comunicação empática e nos ajudar, como seres humanos, a nos comunicarmos de forma a fazer com que os outros se sintam ouvidos e valorizados”, diz Groh.
Por exemplo, os terapeutas poderiam se apoiar nas LLMs durante seu estágio para aprimorar sua capacidade de demonstrar empatia e, em última análise, prestar maior apoio aos seus pacientes. Também as equipes de atendimento ao cliente poderiam realizar simulações com LLMs como parte do treinamento, utilizando estruturas aprimoradas de comunicação empática para avaliar as respostas.
A melhoria dessas habilidades será tão crucial para os líderes quanto para qualquer outro grupo, senão até mais importante, porque "os líderes lidam com tomada de decisões e a empatia é fundamental para isso", afirma Groh.
“Como todo líder sabe, muitas vezes é preciso tomar decisões com as quais nem todos concordam”, diz Groh. “Se conseguir demonstrar que está ouvindo as pessoas, respondendo com empatia, terá mais chances de convencê-las, mesmo que discordem da sua decisão”, completa Groh.
Embora a pesquisa mostre que os LLMs já estejam quase no mesmo nível de especialistas em termos de avaliação da empatia, isso não significa que os modelos têm sentimentos, o que significa que, pelo menos por enquanto, os terapeutas não precisam se preocupar em serem substituídos pela IA.
“Só por a IA conseguir dar conselhos e, às vezes, com orientações até melhores do que algumas pessoas, não significa que o papel do ser humano desapareça”, diz Groh. “O contato humano continua sendo especial”.
Andrew Lee is a freelance writer based in Chicago.
Kumar, Aakriti, Nalin Poungpeth, Diyi Yang, Erina Farrell, Bruce Lambert, and Matthew Groh. 2025. “When Large Language Models Are Reliable for Judging Empathic Communication.”