Journal article
Assessing the accuracy of ChatGPT responses to guideline-based inquiries: A cross-sectional study
Abstract
Introduction: Physicians treating multisystem diseases face challenges in consulting expanding, complex clinical guidelines. Large language models like ChatGPT may help consolidate this information, providing quick access to guideline recommendations. The objective of this study was to assess the accuracy of ChatGPT 3.5 and 4o responses to questions based on specialist-level guideline recommendations. Methods: A framework was developed for authors to pose questions, based on a guideline recommendation, to ChatGPT. A validation tool graded responses as concordant, partially concordant, or discordant to the guideline recommendation. A total of 581 recommendations from three guidelines were analyzed. The primary outcome was overall accuracy. Subgroup analyses assessed accuracy based on number of criteria, strength of evidence, and type of recommendation. Results: For ChatGPT 3.5, 347 recommendations were concordant (59.72%), 128 partially concordant (22.03%), and 106 discordant (18.24%). Questions seeking a single response (Z = 5.289, p < .001) and questions based on recommendations with strong levels of evidence (OR 2.23, p = .001) generated higher levels of concordance. For ChatGPT 4o, 474 recommendations were concordant (81.6%), 82 partially concordant (14.1%), and 25 discordant (4.3%). Mean concordance ratings for single questions were significantly higher compared to multipart questions (Z = 3.08, p = .002). Mean concordance ratings for ChatGPT 4o were substantially higher compared to ChatGPT 3.5 (Z = 8.66, p < .00001). Discussion: ChatGPT 3.5 had a moderate level of accuracy. There remain weaknesses in its ability to answer multi-part questions or those backed by weaker evidence. ChatGPT 4o performed substantially better than ChatGPT 3.5, though both models were vulnerable to hallucination.
Résumé Introduction : Les médecins qui soignent les maladies multisystémiques éprouvent de la difficulté à faire le tour de directives cliniques complexes et de plus en plus nombreuses. Les grands modèles de langage comme ChatGPT peuvent contribuer à regrouper l'information et à fournir un accès rapide aux recommandations issues des directives. La présente étude visait à évaluer l'exactitude des réponses de ChatGPT 3.5 et 4o aux questions reposant sur des recommandations issues de directives spécialisées. Méthodologie : Un cadre a été créé pour que les auteurs puissent poser des questions à ChatGPT en fonction d'une recommandation issue de directives. Selon un outil de validation, les réponses étaient classées comme concordant à la recommandation issue des directives, y concordant partiellement ou n'y concordant pas. Au total, 581 recommandations ont été analysées, issues de trois directives. L'exactitude globale était le résultat primaire. Les analyses de sous-groupe ont évalué l'exactitude des réponses d'après le nombre de critères, la qualité des preuves et le type de recommandation. Résultats : Avec ChatGPT 3.5, 347 recommandations étaient concordantes (59,72 %), 128, partiellement concordantes (22,03 %), et 106, non concordantes (18,24 %). Les questions visant l'obtention d'une seule réponse (Z = 5,289, p < 0,001) et les questions reposant sur des recommandations associées à une solide qualité de preuve (RC 2,23, p = 0,001) ont produit de meilleurs taux de concordance. Avec ChatGPT 4o, 474 recommandations étaient concordantes (81,6 %), 82, partiellement concordantes (14,1 %), et 25, non concordantes (4,3 %). Les taux de concordance moyens relatifs aux questions visant une seule réponse étaient considérablement plus élevés que les questions exigeant une question en plusieurs volets (Z = 3,08, p = 0,002). Les taux de concordance moyens de ChatGPT 4o étaient considérablement plus élevés que ceux de ChatGPT 3.5 (Z = 8,66, p < 0,00001). Discussion : Le taux d'exactitude de ChatGPT 3.5 est modéré. Sa capacité à répondre à des questions en plusieurs volets ou liées à des preuves peu concluantes comporte des faiblesses. ChatGPT 4o a donné de bien meilleurs résultats que ChatGPT 3.5, mais les deux modèles étaient vulnérables aux hallucinations.
Authors
Xiang AJ; Zhou E; Moayad L; Crowther M; Eshaghpour A; Li PY; Javidan AP; Li A
Journal
Canadian Journal of General Internal Medicine, Vol. 20, No. 3, pp. 112–123
Publisher
University of Toronto Press
Publication Date
January 1, 2025
DOI
10.3138/cjgim.2024.0017
ISSN
1911-1606
Associated Experts
View published work (Non-McMaster Users)
Scholarly citations from Dimensions