Qual a melhor IA do momento? Competição tem vencedor que não é ChatGPT, nem Gemini!

Nos últimos anos, os chatbots ganharam destaque como ferramentas úteis para diversas tarefas, incluindo a leitura e resumo de documentos. No entanto, a eficácia dessas inteligências artificiais (IAs) ainda é motivo de debate. Recentemente, o Washington Post conduziu um teste com cinco dos chatbots mais populares: ChatGPT, Claude, Copilot, Meta AI e Gemini. O objetivo era avaliar a capacidade dessas IAs em compreender textos de diferentes áreas, como literatura, direito, medicina e política.

Os chatbots foram desafiados a ler e interpretar quatro tipos de textos distintos, abrangendo desde romances até discursos políticos. Um painel de especialistas, incluindo autores e pesquisadores, foi responsável por avaliar as respostas dos chatbots. O teste revelou tanto acertos quanto falhas, com algumas IAs apresentando desinformação em suas respostas.

Como os Chatbots se Saíram na Literatura?

No campo da literatura, os chatbots enfrentaram dificuldades significativas. O romance “A Amante do Chacal”, de Chris Bohjalian, foi utilizado como base para o teste. Apenas o Claude conseguiu identificar corretamente todos os fatos do livro. O ChatGPT, apesar de fornecer um bom resumo, deixou de fora detalhes importantes sobre personagens centrais. Já o Gemini foi criticado por fornecer respostas curtas e imprecisas.

Os Chatbots Entendem Contratos Jurídicos?

Quando se tratou de contratos jurídicos, as IAs também tiveram um desempenho misto. Sterling Miller, um advogado corporativo, avaliou a capacidade dos chatbots em resumir e analisar contratos. Enquanto o Claude se destacou ao sugerir alterações em um contrato de locação, outras IAs, como o Meta AI e o ChatGPT, foram criticadas por simplificar excessivamente os contratos, omitindo detalhes cruciais.

Qual foi o Desempenho em Pesquisas Médicas?

Na área médica, os chatbots se saíram melhor. O Claude recebeu a nota máxima ao resumir um artigo sobre covid longa, enquanto o Gemini foi criticado por omitir informações importantes em um estudo sobre a doença de Parkinson. O acesso a uma vasta quantidade de artigos científicos pode ter contribuído para o desempenho superior das IAs nesse campo.

Os Chatbots Conseguem Analisar Discursos Políticos?

Na análise de discursos políticos, o ChatGPT se destacou ao identificar corretamente as alegações falsas nos discursos do ex-presidente Donald Trump. No entanto, capturar o tom dos discursos foi um desafio para as IAs. O Copilot, por exemplo, não conseguiu transmitir a natureza explosiva das falas de Trump, apesar de não ter alucinado fatos.

Quem Foi o Vencedor Geral?

No resultado geral, o Claude foi eleito o melhor chatbot, sendo o único a não apresentar alucinações durante o teste. Com uma pontuação de 69.9, superou o ChatGPT, que obteve 68.4. Os outros chatbots ficaram significativamente atrás, com o Meta AI marcando apenas 45.0. Apesar de alguns resultados impressionantes, as limitações das IAs ficaram evidentes, destacando a necessidade de cautela ao utilizar essas ferramentas em áreas que exigem precisão e análise crítica.

O post Qual a melhor IA do momento? Competição tem vencedor que não é ChatGPT, nem Gemini! apareceu primeiro em BM&C NEWS.

Como os Chatbots se Saíram na Literatura?

Os Chatbots Entendem Contratos Jurídicos?

Qual foi o Desempenho em Pesquisas Médicas?

Os Chatbots Conseguem Analisar Discursos Políticos?

Quem Foi o Vencedor Geral?

Newsletter

Obrigado

Posts recentes