DSpace logo
Please use this identifier to cite or link to this item: http://repositorio.ucsg.edu.ec/handle/3317/25195
Title: Exactitud y coherencia de las respuestas de diferentes plataformas de inteligencia artificial sobre el manejo de accidente de hipoclorito de sodio.
Authors: Albán Pastorelly, Meybol Stephanie
metadata.dc.contributor.advisor: Miranda Robles, Kristel Lídice
Keywords: ENDODONCIA;ACCIDENTE QUÍMICO;INTELIGENCIA ARTIFICIAL EN LA SALUD;SEGURIDAD QUÍMICA
Issue Date: 31-Jul-2025
Publisher: Universidad Católica de Santiago de Guayaquil
Abstract: Problem: Large language models (LLMs) are emerging as complementary tools in endodontics, but their reliability in handling certain topics has not been thoroughly evaluated. Objective.- To assess the accuracy and consistency of artificial intelligence responses regarding the management of sodium hypochlorite accidents in endodontics. Methodology.- A quantitative, crosssectional study evaluated ChatGPT- 4, ChatGPT-4o mini, DeepSeek AI (V3), Google Gemini (Flash 2.5), and Perplexity AI by submitting 33 questions on sodium hypochlorite accidents, repeated three times per day over seven days. The questionnaire included 11 multiple-choice items, 11 fill-in-the-blank items, and 11 true/false items. Results.- A total of 3,465 responses were recorded and coded as correct or incorrect. Data were analyzed using intraclass correlation coefficients and chi-square tests (α = 0.05). All LLMs showed high repeatability (ICC 0.857–0.966; p < 0.001). Overall accuracy did not differ significantly across platforms (χ²(4) = 62.942; p < 0.001), but varied by question format (p < 0.05), with lower accuracy observed in true/false and fill- in-theblank items. Google Gemini achieved approximately 80% accuracy, while ChatGPT-4o mini and Perplexity AI exceeded 90% in multiple-choice questions. Gemini's explanations contained errors, and its references lacked evidentiary value. Conclusion: Although LLMs show potential as auxiliary tools, human oversight remains necessary.
Description: Problema.- Los modelos de lenguaje (LLM) de gran tamaño se están posicionando como herramientas complementarias en endodoncia, pero su fiabilidad en el manejo de algunos temas no ha sido evaluada a fondo. Objetivo.- Evaluar la exactitud y coherencia en las respuestas de la inteligencia artificial sobre el manejo de accidentes causados por hipoclorito de sodio en endodoncia. Metodología.- investigación de enfoque cuantitativo y tipo transversal, en la que se evaluó a ChatGPT-4, ChatGPT-4o mini, DeepSeek AI (V3), Google Gemini (Flash 2.5) y Perplexity AI, respondiendo 33 preguntas sobre accidentes con hipoclorito de sodio, repetidas tres veces al día durante siete días. Se incluyeron 11 preguntas de opción múltiple, 11 de completar espacios y 11 de verdadero/falso. Resultados.- Se registraron 3,465 respuestas codificadas como correctas o incorrectas y se analizaron mediante coeficientes de correlación intraclase y pruebas de chi-cuadrado (α=0,05). Todos los LLM mostraron alta repetibilidad (CCI 0,857–0,966; p<0,001). La precisión global no difirió significativamente entre plataformas (x2(4)=62,942; p<0,001), pero varió según el formato de pregunta (p<0,05), con menores tasas de acierto en ítems de verdadero/falso y completar espacios. Google Gemini obtuvo alrededor del 80% de aciertos, mientras que ChatGPT-4o mini y Perplexity AI superaron el 90% en opción múltiple. Las explicaciones de Gemini adolecieron de errores y sus referencias carecieron de valor probatorio. Conclusión.- Aunque los LLM ofrecen potencial como herramientas auxiliares, es necesaria la supervisión humana.
URI: http://repositorio.ucsg.edu.ec/handle/3317/25195
Appears in Collections:Trabajos de Grado - Especialización en Endodoncia

Files in This Item:
File Description SizeFormat 
UCSG-C441-24713.pdf1,67 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons