مكشوف دراسة حديثة أجراه باحثون من كلية الطب بجامعة هارفارد وجامعة ستانفورد، وقد يتفوق نموذج O1 AI الخاص بـ OpenAI على الأطباء في تشخيص الحالات الطبية المعقدة.
وخلال الدراسة، خضع النموذج لسلسلة شاملة من الاختبارات التشخيصية الطبية، وأظهرت النتائج أنه حقق قفزات نوعية مقارنة بالإصدارات السابقة. كان نموذج المعاينة o1 قادرًا على تشخيص 78.3% من الحالات التي تم تحليلها بدقة. وفي مقارنة مباشرة لـ 70 حالة محددة، ارتفعت دقة النظام إلى 88.6%، وهو ما يفوق بكثير أداء نظام GPT-4 السابق البالغ 72.9%.
وأثبت النظام كفاءته العالية في مجال الاستدلال الطبي، حيث حصل على درجات عالية في 78 من أصل 80 حالة وفق مقياس R-IDEA المستخدم لتقييم جودة الاستدلال. وللمقارنة، حقق الأطباء ذوو الخبرة درجات عالية في 28 حالة فقط، في حين لم يتمكن الأطباء المقيمون (المتدربون) من تحقيق درجات عالية إلا في 16 حالة.
وأشار الباحثون إلى أن بيانات التدريب الخاصة بالنموذج قد تشمل بعض الحالات المستخدمة في الدراسة، إلا أن أداء النموذج بقي مرتفعاً عند اختباره على حالات جديدة لم يتعامل معها سابقاً، مع انخفاض طفيف في الأداء.
وأعرب في تعليقه عن: منصة Xوقال الدكتور آدم رودمان، أحد الباحثين: “هذه هي المرة الأولى التي أقوم فيها بالترويج لمسودة دراسة قبل أن تتم مراجعتها بالكامل، لكنني أعتقد أن النتائج التي توصلنا إليها لها آثار كبيرة على الممارسة السريرية، لذلك كان من الضروري نشرها بسرعة”. المشاركين في الدراسة.
وقد برز نموذج المعاينة o1 بشكل خاص في إدارة الحالات الطبية المعقدة، والتي صممها 25 متخصصًا لتشكل تحديًا للنموذج والأطباء. وعلق رودمان قائلاً: “واجه البشر صعوبات يمكن التنبؤ بها، في حين أظهر النموذج أداءً مذهلاً لدرجة أنه لم يكن بحاجة إلى إحصائيات لإثبات تفوقه”.
وفي هذه الحالات، سجل النموذج 86% من النقاط المحتملة، أي أكثر من ضعف ما حققه الأطباء باستخدام نموذج GPT-4 أو الأدوات التقليدية الأخرى.
ومع ذلك، يواجه النظام مشاكل في تقدير الاحتمالات، مما يظهر تحسنًا طفيفًا مقارنة بالنماذج السابقة. على سبيل المثال: قدر النموذج احتمالية الإصابة بالالتهاب الرئوي بنسبة 70% في الحالات، وهو أعلى بكثير من النطاق العلمي المقبول عمومًا (25-42%).
وأوضح مؤسسو OpenAI أن الأنظمة الحالية لا تزال “غير مدربة بشكل كبير”، وتحتاج إلى تدريب بما يتراوح بين 100 إلى 1000 ضعف ما يتم تدريبه حاليًا.
يُظهر نموذج المعاينة o1 التفوق في مهام التفكير النقدي، مثل التشخيص وتقديم توصيات العلاج، ولكنه يواجه صعوبات في المهام المجردة، مثل تقدير الاحتمالات.
وأشار الباحثون إلى أن الإجابات التفصيلية للنظام ساهمت في رفع تصنيفه، مؤكدين أن الدراسة اقتصرت على أدائه وحده دون دراسة كيفية تعاونه مع الأطباء.
أعلنت شركة OpenAI مؤخرًا عن إطلاق النسخة الكاملة النهائية، O1، بالإضافة إلى الإصدار الجديد، O3، الذي أظهر تحسينات كبيرة في التفكير التحليلي، لكن لا تزال هناك انتقادات للنموذج فيما يتعلق بالتكلفة العالية للاختبارات التي يقترحها، والتكلفة العالية للاختبارات التي يقترحها. صعوبة تطبيقها في بيئات الرعاية الصحية الفعلية.
وحذر رودمان من المبالغة في المبالغة في هذه الدراسة، قائلًا: “إنها دراسة معيارية”. فهو يستخدم معايير “ذهبية” لتقييم الأطباء البشريين، لكنه لا يعكس واقع الرعاية الطبية. “لا تتخلى عن أطبائك من أجل o1.”
ودعا الباحثون إلى تطوير أساليب تقييم أفضل لأنظمة الذكاء الاصطناعي في المجال الطبي، بما في ذلك التجارب السريرية الواقعية والبنية التحتية التقنية المتقدمة لتعزيز التعاون بين الأطباء والذكاء الاصطناعي، بهدف تحقيق استخدام أكثر فعالية في بيئات الرعاية الصحية.
مكشوف دراسة حديثة أجراه باحثون من كلية الطب بجامعة هارفارد وجامعة ستانفورد، وقد يتفوق نموذج O1 AI الخاص بـ OpenAI على الأطباء في تشخيص الحالات الطبية المعقدة.
وخلال الدراسة، خضع النموذج لسلسلة شاملة من الاختبارات التشخيصية الطبية، وأظهرت النتائج أنه حقق قفزات نوعية مقارنة بالإصدارات السابقة. كان نموذج المعاينة o1 قادرًا على تشخيص 78.3% من الحالات التي تم تحليلها بدقة. وفي مقارنة مباشرة لـ 70 حالة محددة، ارتفعت دقة النظام إلى 88.6%، وهو ما يفوق بكثير أداء نظام GPT-4 السابق البالغ 72.9%.
وأثبت النظام كفاءته العالية في مجال الاستدلال الطبي، حيث حصل على درجات عالية في 78 من أصل 80 حالة وفق مقياس R-IDEA المستخدم لتقييم جودة الاستدلال. وللمقارنة، حقق الأطباء ذوو الخبرة درجات عالية في 28 حالة فقط، في حين لم يتمكن الأطباء المقيمون (المتدربون) من تحقيق درجات عالية إلا في 16 حالة.
وأشار الباحثون إلى أن بيانات التدريب الخاصة بالنموذج قد تشمل بعض الحالات المستخدمة في الدراسة، إلا أن أداء النموذج بقي مرتفعاً عند اختباره على حالات جديدة لم يتعامل معها سابقاً، مع انخفاض طفيف في الأداء.
وأعرب في تعليقه عن: منصة Xوقال الدكتور آدم رودمان، أحد الباحثين: “هذه هي المرة الأولى التي أقوم فيها بالترويج لمسودة دراسة قبل أن تتم مراجعتها بالكامل، لكنني أعتقد أن النتائج التي توصلنا إليها لها آثار كبيرة على الممارسة السريرية، لذلك كان من الضروري نشرها بسرعة”. المشاركين في الدراسة.
وقد برز نموذج المعاينة o1 بشكل خاص في إدارة الحالات الطبية المعقدة، والتي صممها 25 متخصصًا لتشكل تحديًا للنموذج والأطباء. وعلق رودمان قائلاً: “واجه البشر صعوبات يمكن التنبؤ بها، في حين أظهر النموذج أداءً مذهلاً لدرجة أنه لم يكن بحاجة إلى إحصائيات لإثبات تفوقه”.
وفي هذه الحالات، سجل النموذج 86% من النقاط المحتملة، أي أكثر من ضعف ما حققه الأطباء باستخدام نموذج GPT-4 أو الأدوات التقليدية الأخرى.
ومع ذلك، يواجه النظام مشاكل في تقدير الاحتمالات، مما يظهر تحسنًا طفيفًا مقارنة بالنماذج السابقة. على سبيل المثال: قدر النموذج احتمالية الإصابة بالالتهاب الرئوي بنسبة 70% في الحالات، وهو أعلى بكثير من النطاق العلمي المقبول عمومًا (25-42%).
وأوضح مؤسسو OpenAI أن الأنظمة الحالية لا تزال “غير مدربة بشكل كبير”، وتحتاج إلى تدريب بما يتراوح بين 100 إلى 1000 ضعف ما يتم تدريبه حاليًا.
يُظهر نموذج المعاينة o1 التفوق في مهام التفكير النقدي، مثل التشخيص وتقديم توصيات العلاج، ولكنه يواجه صعوبات في المهام المجردة، مثل تقدير الاحتمالات.
وأشار الباحثون إلى أن الإجابات التفصيلية للنظام ساهمت في رفع تصنيفه، مؤكدين أن الدراسة اقتصرت على أدائه وحده دون دراسة كيفية تعاونه مع الأطباء.
أعلنت شركة OpenAI مؤخرًا عن إطلاق النسخة الكاملة النهائية، O1، بالإضافة إلى الإصدار الجديد، O3، الذي أظهر تحسينات كبيرة في التفكير التحليلي، لكن لا تزال هناك انتقادات للنموذج فيما يتعلق بالتكلفة العالية للاختبارات التي يقترحها، والتكلفة العالية للاختبارات التي يقترحها. صعوبة تطبيقها في بيئات الرعاية الصحية الفعلية.
وحذر رودمان من المبالغة في المبالغة في هذه الدراسة، قائلًا: “إنها دراسة معيارية”. فهو يستخدم معايير “ذهبية” لتقييم الأطباء البشريين، لكنه لا يعكس واقع الرعاية الطبية. “لا تتخلى عن أطبائك من أجل o1.”
ودعا الباحثون إلى تطوير أساليب تقييم أفضل لأنظمة الذكاء الاصطناعي في المجال الطبي، بما في ذلك التجارب السريرية الواقعية والبنية التحتية التقنية المتقدمة لتعزيز التعاون بين الأطباء والذكاء الاصطناعي، بهدف تحقيق استخدام أكثر فعالية في بيئات الرعاية الصحية.