فصل چهارم

 

ارزيابي صحت و قابليت اعتماد پذيري آزمونهاي تشخيصي و غربالگري

 

براي درک و فهم چگونگي انتقال و گسترش بيماري و بمنظورفراهم نمودن مراقبتهاي بهداشتي مناسب و موثر لازم است تشخيص دهيم در بين افراد يک جمعيت، چه کساني بيمار بوده و چه کساني مبتلا نيستند. اين مسئله هم در عرصه باليني يعني جايي که بيمار موضوع اصلي است وهم در حيطه سلامت عمومي جامه که برنامه هاي پيشگيري ثانويه شامل تشخيص سريع بيماري و اقدامات لازم مد نظر بوده و علاوه بر اين مطالعاتي روي علل بيماريها با هدف تهيه مبنائي براي پيشگيري اوليه در حال انجام است، از اهميت بسزائي برخوردار است از اين رو بحث کيفيت آزمونهاي تشخيصي و غربالگري يک موضوع بسيار حياتي است.
صرفنظر از اينکه آزمون انجام شده چه باشد، خواه معاينه فيزيکي، راديو گرافي قفسه سينه ، الکتروکارديوگرام و يا آزمايش خون و ادرار، هميشه يک سئوال مطرح است: يک آزمايش تا چه حد به خوبي ميتوانددر يک جمعيت افراد بيمار را ازغير بيمار تشخيص دهد ، اين بخش ما را بسوي سنجش کيفيت آزمون هاي تشخيصي و غربالگري جديد و در دسترس رهنمون مي سازدتا بتوان براي کاربرد و تفسير آنها دلايل منطقي و مستدل ارائه نمود.

تنوع بيولوژيک جمعيتهاي انساني       

 

به هنگام انجام يک آزمايش براي تمييز افراديکه داراي نتايج طبيعي و غير طبيعي هستند ، فهم چگونگي توزيع و پراکندگي شاخصه ها در جوامع انساني اهميت زيادي پيدا مي کند.
شکل ١-٤ پراکندگي نتايج تست توبرکولين را در يک جمعيت نشان ميدهد( ناحيه سفت شده در محل تزريق ). اندازه سفتي به mm روي محور افقي و تعداد افراد روي محور عمودي توصيف شده اند. در اين منحني تجمع افراد در دو ناحيه بيش از همه وجود دارد، اولي يک گروه بزرگ با اندازه سفتي صفر mm و دومي افراد داراي سفتي نزديک به ٢٠ mm . اين نوع پراکندگي که در آن دو ميزان حداکثر وجود دارد، منحني دوقله اي يا دو وجهي (bimodal curve ) ناميده مي شود. توزيع و پراکندگي دو وجهي اين امکان را مي دهد که افرادي که قبلا سل را تجربه نکرده اند( افرادي که در آنها سفتي در محل تزريق ديده نمي شود، سمت چپ) را از آنهائيکه قبلا تجربه قرار گرفتن در معرض باسيل کخ را داشته اند(سفتي حدود ٢٠ mm ، سمت راست) تشخيص دهيم.
 

 
شکل١-٤ : پراکندگي نتايج تست توبرکولين در يک جمعيت
تاثيرات سطوح مورد نظر مختلف براي يک تست مثبت (متن را مشاهده کنيد)
 
 
 
اگر چه تعدادي از افراد در ناحيه خاکستري (gray zone ) قرار مي گيرند ممکن است به هر يک از دو قله تعلق داشته باشند ، ليکن اکثر جمعيت را با استفاده از ٢ قله مي توان به راحتي تمييز داد. بنابراين هنگامي که يک شاخصه از پراکندگي دو وجهي برخوردار است ، جدا کردن اکثر جمعيت به ٢ گروه نسبتا آسان است(مثلا خوش و ناخوش ، افرادي که داراي شرايطي خاص و غير طبيعي هستند و آنهائيکه اين حالت را ندارند) .
البته عموما شاخصهاي انساني داراي توزيع و پراکندگي دو وجهي نمي باشند. شکل ٢-٤ پراکندگي فشار خون سيستوليک را در يک گروه خاص نشان مي دهد. در اين شکل اثري از منحني ٢ قله اي ديده نمي شود. آنچه ما مي بينيم منحني يک وجهي (Unimodal curve )ا ست يعني داراي يک قله . لذا اگر مي خواهيم افرادي را که داراي پرفشاري خون هستندرا از آنهائيکه فشار خون بالا ندارند جدا کنيم بايد سطحي از فشار خون را لحاظ کنيم که افرادي که در بالاي آن قرارمي گيرند داراي پرفشاري خون و آنهائيکه در زير قرار مي گيرند داراي فشارخون طبيعي محسوب گردند.

 
شکل٢-٤ : پراکندگي فشار خون سيستوليک در يک گروه خاص
 
 
    
هيچ سطح واضح وخاصي از فشار خون نمي تواند افراد پر فشار را از افرادبا فشار خون طبيعي تمييزدهد.اگرچه مي توان با ملاحظات آماري يک سطح را در نظر گرفت ولي بطور ايده آل مايل هستيم سطحي را براساس داده هاي بيولوژيک تنظيم کنيم : يعني مي خواهيم بدانيم که فشار خون بالاتر از سطح مورد نظر همراه با افزايش خطر بيماريهاي متعاقب آن نظير استروک (Stroke ) ، آنفارکتوس ميوکارد ويا مرگ و مير مي شود. متاسفانه براي بسياري از شاخصهاي انساني فاقد اطلاعاتي هستيم که بتوانند مارادر تعيين سطح خاص ياري دهند . در هردو نوع پراکندگي (يک وجهي و دو وجهي ) افتراق حداکثر ميزان طبيعي و غير طبيعي نسبتا آسان است. ما بقي که مبهم باقي مي ماند مربوط به مواردي است که در ناحيه خاکستري هر دو منحني قرار مي گيرند.

صحت تشخيص تستهاي غربالگري

 

     
بنا به تعريف، صحت تشخيص يک آزمايش (Validity ) عبارت است از قابليت آن تست براي افتراق افراد بيمار از غير بيمار. اعتباريک آزمايش داراي دو جز است : حساسيت (Sensitivity) و اختصاصي بودن (Specificity ).
حساسيت تست مطابق تعريف  ، قابليت آن در تشخيص صحيح افراد بيمار است . اختصاصي بودن آزمايش عبارتست از توانايي آن در تشخيص صحيح افراديکه بيمار نيستند.
 
 
آزمونهاي داراي نتايج دو گانه (مثبت يا منفي ) Tests with Dichotomous Results
 
يک جمعيت فرضي ١٠٠٠ نفره را در نظربگيريد که ١٠٠ نفرآنها مبتلا به يک بيماري خاص بوده و ٩٠٠ نفربقيه عاري از آن بيماري هستند. آزمايشي در دسترس است که مي تواند نتايج مثبت يا منفي به همراه داشته باشد. قصد ما اين است که بوسيله اين آزمايش سعي کنيم افراد بيمار را از غير بيمار تشخيص دهيم. نتايج اين آزمايش که براي جمعيت ١٠٠٠ نفره بکار رفته ، در جدول ١-٤ نشان داده شده است.
 

 
جدول١-٤ :مفهوم حساسيت و اختصاصي بودن آزمايشات در يک گروه خاص
 
 
تست تا چه اندازه خوب بود؟ اول اين که آزمايش تا چه حد در تشخيص صحيح افراد بيمار خوب بود؟ جدول ١-٤ به ما مي گويد که در بين ١٠٠ بيمار ، ٨٠ نفر بطور صحيح با تست مثبت تشخيص داده شدند و در بيمار ديگر اين آزمايش نتوانست نتيجه مثبت ببار آورد. از اينرو حساسيت اين آزمون که عبارتست از نسبت افرا د بيماري که به درستي با اين تست تشخيص داده مي شوند ١٠٠/٨٠ يا % ٨٠ است.    
دوم اينکه آزمايش تا چه حد در تشخيص صحيح افراد سالم خوب بود؟ با نگاه مجدد به جدول ١-٤ در مي يابيم از ٩٠٠ نفري که فاقد بيماري بودند ، در ٨٠٠ نفر نتيجه تست بدرستي منفي بود. ميزان اختصاصي بودن آزمون که عبارت است از نسبت افراد غير بيماري که تست بدرستي در آنها منفي است، ٩٠٠/٨٠٠ يا %٨٩ است.
 
توجه داشته باشيد که بهنگام محاسبه ميزان اختصاصي بودن و حساسيت يک تست ، بايد بوسيله منبعي غيراز آ زمايشي که در حال انجام آن هستيم ، بدانيم چه کسي واقعا بيمار و چه کسي سالم است. در حقيقت ما نتايج آزمايشمان را با يک استاندارد طلائي (Gold standard) مقايسه مي کنيم (منبع خارجي حقيقت ياب در ارتباط با وضعيت بيماري در تک تک افراد جمعيت ). گاهي ا وقات اين منبع خارجي ، نتيجه آزمايش ديگري است که انجام شده است و برخي مواقع ناشي از نتايج آزمونهاي دقيقتر و اغلب تهاجمي تر مي باشد(مثل کاتتريزاسيون قلبي و بيوپسي بافتي ).اما آنچه که در زندگي واقعي بهنگام انجام آزمايش براي تشخيص افراد بيمار از غير بيمار اتفاق مي افتد اين است که ما نمي دانيم چه کسي مبتلاست و چه کسي سالم (که اگر چنين بود ديگر آزمايش مفهومي نداشت). اما براي ارزيابي کمي درجه حساسيت واختصاصي بودن يک تست بايد منبع ديگر کشف حقيقت را براي مقايسه  نتايج آزمايش در اختيار داشته باشيم .
جدول ٢-٤ نتايج دوگانه آزمايش (مثبت يا منفي ) را همراه با وضعيت حقيقي بيماري نشان مي دهد.
 

 
جدول٢-٤ :نتايج دوگانه آزمايش (مثبت يا منفي) همراه با وضعيت حقيقي بيماري
 
 
 
براي ما قرار گرفتن افراد در خانه سمت چپ بالا و سمت راست پايين ايده آل است: افراد بيماريکه تست آنها بطور صحيح مثبت شده است (موارد مثبت حقيقي =True positives ) و افراد سالمي که تست آنها بطور صحيح منفي شده است(موارد منفي حقيقي =True negatives ) .متاسفانه چنين حالتي خيلي بندرت اتفاق مي افتد. بعضي از افراد سالم به اشتباه داراي تست مثبت مي شوند( موارد مثبت کاذب =False positives) و برخي بيماران به اشتباه داراي تست منفي مي گردند(موارد منفي کاذب = False negatives ) .چرا اين مطالب مهم است؟ هنگامي که يک برنامه غربالگري را انجام مي دهيم ، اغلب گروه بزرگي از مردم را داريم که د رغربال مثبت قرار مي گيرند. اينها هم شامل افراد واقعا بيمار هستند(مثبت حقيقي ) و هم افراد سالم (مثبت کاذب). موارد مثبت کاذب ازاين جهت حائز  اهميت است که تمام افراد غربال شده در اين گروه بايد آزمونهاي  پيچيده تر و پر هزينه تري را انجام دهند. يکي از مشکلات عديده اي که بوجود مي آيد تحميل بار اضافه به سيستم مراقبتهاي بهداشتي است. مشکل ديگر القا اضطراب و نگراني در افرادي است که به آنها گفته شده نتيجه آزمايشاتشان مثبت است. شواهد قابل ملاحظه حاکي از اين است بسياري از افرادي که انگ مثبت بودن غربالگري روي آنها زده مي شود ، حتي اگر نتيجه ارزيابي هاو آزمايشات بعدي منفي باشد، نمي توانند حس بيماربودن را بطور کامل در خود از بين ببرند. بعنوان مثال هنگاميکه در برنامه غربالگري کودکان از نظر بيماريهاي قلبي ، کودکي را مثبت تلقي مي کنند، والدين و کارکنان مدرسه با اين طفل رفتاري مشابه افراد معلول دارند حتي اگر به آنها گفته شود که نتيجه آزمايشات بعدي منفي بوده است. علاوه بر اين تفسير غلط آزمايشات غربالگري که نتيجه مثبت در پي دارند مي تواند مشکلاتي را از نظر استخدام و بيمه اين افراد بوجود آورد حتي اگر در تستهاي بعدي يافته مثبت قابل توجهي وجود نداشته باشد.
اما چرا موارد منفي کاذب مهم است؟ اگر فردي بيمار باشد ولي به اشتباه نتيجه آزمايش در وي منفي گردد ، خصوصا هنگاميکه پاي يک بيماري جدي و به تبع آن لزوم اقدامات درماني اساسي درميان است، مشکل واقعا بحراني است. بعنوان مثال اگر بيماري مورد نظر نوعي سرطان بوده که فقط در مراحل اوليه قابل علاج باشد ، نتيجه منفي کاذب مي تواند فرد را به مرگ محکوم نمايد. بنابراين اهميت نتايج منفي کاذب به ماهيت و شدت بيماري ، اثربخشي روشهاي درماني در دسترس و اين مطلب که اگر اقدامات درماني و مداخله جويانه درابتداي سير بيماري انجام گيرد، موثرتر است بستگي دارد.

آزمايشات مربوط به شاخصهاي دائما متغيرTests of Continuous Variables   

 

تا اينجا بحث زيادي راجع به آزمونهايي کرديم که تنها داراي ٢ نتيجه ممکن هستند: مثبت و منفي ، اما اغلب شاخصهايي را اندازه گيري مي کنيم که دائما در حال تغيير هستند نظير فشار خون و سطح خوني گلوکز . در اين گونه موارد ، نتايج مثبت و منفي وجود ندارد . بلکه بايد تصميم بگيريم سطحي را مشخص کنيم که نتايج بالاتر از آنرا مثبت وکمتر از آنرا منفي تلقي نمائيم. منحني شکل ٣-٤ را در نظر بگيريد .
 

 
شکل٣-٤ : غربالگري ديابت در يک جمعيت فرضي با ميزان شيوع ٥٠ درصدي .
 
 
 
 شکل A ٣-٤ جمعيتي را مشتمل بر ٢٠ فرد ديابتي و ٢٠ فرد غير ديابتي نشان مي دهد که بوسيله يک تست سنجش قند خون غربال شده اند. مقياس اين تست روي محور عمودي و بصورت ميزان بالا تا کم قند خون به نمايش در آمده است. افراد ديابتي با دايره هاي تو پر و غير ديابتي با دواير هاشور خورده مشخص شده اند . همانطور که مشاهده مي کنيم ، اگر چه سطح قند خون تمايل دارد که در افرا د ديابتي بيش از غير ديابتي ها باشد، ليکن هيچ حدي اين دو گروه را بطور واضح از هم جدا نمي کند. در هر ميزاني از سطح خوني گلو کز  مقداري هم پوشاني (Overlap ) بين افراد ديابتي وجود دارد.معهذا بايد يک سطح مشخص را در نظر بگيريم تا افرادي را که نتايج آزمايش آنها بالاتر از آن حد است مثبت تلقي کرده و بمنظور انجام آزمايشات بيشتر و تکميلي فرا بخوانيم وآندسته از افرادي که سطح خوني گلوکز آنها کمتر از حد تعيين شده است منفي در نظر گرفته و به آنها بگوئيم که نيازي به ارزيابي هاي بيشتر ندارند.
حال فرض کنيد اين سطح تعيين نسبتا بالا در نظر گرفته شده باشد(شکل ٣B -٤ ) در اين صورت واضح است که بگوئيم بسياري از افراد ديابتي ، مثبت تلقي نخواهند شد. از طرف ديگر اکثر افراد غير ديابتي بطور صحيح منفي تلقي خواهند شد، اگر اين نتايج را در يک جدول ٢ x ٢  پراکنده سازيم ميزان حساسيت تست، مطابق اين سطح تعيين % ٢٥ (٢٠/٥ ) و ميزان اختصاصي بودن آن%٩٠ (٢٠/١٨ )خواهد بود.
اما اگرسطح تعيين مورد نظر پائين باشدچه؟(شکل ٣C -٤ ) در اين حالت تعداد بسيار کمي از افراد ديابتي به اشتباه تشخيص داده مي شوند. پس مشکل چيست؟ نسبت بزرگي از افراد غير ديابتي اکنون داراي تست مثبت هستند. همانطور که در جدول ٢ x ٢ ديده مي شودميزان حساسيت تست در اين حالت % ٨٥ (٢٠ / ١٧ )بوده در حاليکه ميزان اختصاصي بودن تست تنها %٣٠ (٢٠ /٦ ) است.
مشکل اينجاست که درجهان واقعي هيچ خط عمودي نمي تواند افراد ديابتي را از غير ديابتي جدا کند و در حقيقت اين افراد با هم مخلوط هستند        (شکل ٣D -٤). در حقيقت حتي آنها را نمي توان بوسيله دايره هاي توپر و هاشور خورده ازهم تمييز داد(شکل ٣E -٤ )، بنابراين اگر ميزان سطح تعيين را بالا در نظر بگيريم (شکل ٣F -٤ ) تمام کسانيکه جواب تست آنها پائين تر از آن قرار گيرد مبتلا به بيماري نخواهند بود و نياز به بررسي بيشتر ندارند. اما اگر سطح مميز را پايين بگيريم (شکل٣G -٤ ) تمام آنهائيکه جواب آزمايششان بالاتر از آن باشد نياز به ارزيابي هاي بيشتر دارند.
شکل ٤-٤ داده هاي حقيقي را در ارتباط با توزيع سطح قند خون در افراد ديابتي و غير ديابتي نشان مي دهد. فرض کنيد که قرار بود اين جمعيت را غربا ل کنيم. اگر بخواهيم سطح مميز را چنان تعيين کنيم که تمام افرا د ديابتي را تشخيص دهيم (حساسيت %١٠٠ ) مي توانستيم آنرا در حد mg/d1  ٨٠ در نظر بگيريم .در اينصورت مشکلي که پيش مي آيد اين خواهد بود که خيلي از افراد غير ديابتي با تست مثبت هم به حساب خواهند آمد(اختصاصي بودن خيلي کم ) از سوي ديگر چنانچه سطح مميز را در حد mg/d1 ٢٠٠ قرار دهيم تمام افراد غير ديابتي با تست منفي (اختصاصي بودن %١٠٠) را در بر مي گيرد اما در عوض بسياري از افراد ديابتيک حقيقي را در محاسبه از دست مي دهيم ( حساسيت خيلي کم).
   
 
 
 

شکل٤-٤ : داده هاي حقيقي در ارتباط با توزيع سطح قند در افراد ديابتي و غير ديابتي
 
 
 
بنابراين يک تعادل پاياپاي بين ميزان حساسيت واختصاصي بودن وجود دارد، اگر ميزان حساسيت را با کاهش سطح مميز افزايش دهيم، ميزان اختصاصي بودن کم مي شود و اگر ميزان اختصاصي بودن را با افزايش سطح مميز زياد کنيم   ميزان حساسيت کم مي شود. به قول يک پير فرزانه :چيزي بعنوان غذاي آزاد نيست.
تصميم گيري در انتخاب يکي از دو حالت تعيين سطح مميزي بالا يا پايين ، همچنان بعنوان مشکلي در موارد مثبت و منفي کاذب ناشي از آزمايشات باقي مي ماند  
اين نکته مهم را بخاطر داشته باشيد که در غربالگري نهايتا گروههايي خواهيم داشت که مبناي طبقه بندي آنها نتايج آزمايش (مثبت و منفي ) مي باشد، ما هيچگونه اطلاعاتي در ارتباط با وضعيت حقيقي بيماري آنها نداريم. البته اين خود دليلي براي غربالگري است، عملا نتايج بدست آمده ، ٤ گروه را بوجود نمي آورد بلکه همانطور که در شکل  ٥-٤ ملاحظه مي کنيد ٢ گروه خواهيم داشت : يک گروه کسانيکه جواب تستشان مثبت بود و جهت آزمايشات اضافي و تکميلي بايد مراجعه کنند و يک گروه افراديکه جواب آزمايش آنها منفي بوده و نيازي به بررسيهاي بيشتر ندارند(شکل ٦-٤ ).
 
 
 

 
شکل٥-٤ : جعبه دياگرام نتايج ٤ گروه ممکن با بکاربردن غربالگري در يک آزمايش تقسيم بندي شده (دوگانه)
 
 

 
شکل٦-٤ : دياگرام گروه بندي همه افراد داراي نتايج مثبت آزمايش و همه افراد داراي نتايج منفي آزمايش در غربالگري
 
 
 
بنابراين انتخاب سطح مميزي بالا يا پايين براي غربالگري بستگي به ميزان اهميتي دارد که ما براي موارد مثبت کاذب و منفي کاذب قائل هستيم. موارد مثبت کاذب هزينه بر است (نگراني و مشکلات اقتصادي ) . ضمن اينکه متقاعد کردن افراديکه ابتدا به آنها گفته شده جواب آزمايششان مثبت است ولي بعدا معلوم گشته که جواب حقيقي آنها منفي است، بسيار مشکل مي باشد .علاوه بر اين موارد مثبت کاذب يک بار اضافي را به سيستم بهداشتي جامعه وارد مي کند اينگونه که گروه بزرگي ازمردم بايد جهت آزمايش مجدد، دوباره مراجعه کنند در حاليکه تعداد اندکي از آنها ممکن است بيمار باشند
از طرف ديگر افراديکه داراي جواب آزمايش منفي کاذب هستند، گفته مي شود که بيمار نبوده و نيازي به بررسي بيشتر ندارندو اين مسئله مي تواند منجر به چشم پوشي از بيماريهاي جد ي و خطرناک شودکه در مراحل اوليه قابل درمان هستند بنابراين انتخاب سطح مميزي به اهميت نسبي موارد کاذب مثبت و منفي کاذب دارد.

استفاده از آزمايشات چند گانه  Use  of  Multiple Tests  

 

غالبا ممکن است چندين تست غربالگري بطور متوالي يا همزمان مورد استفاده قرار گيرد ، نتايج حاصل از اين رويکرد به اختصار شرح داده مي شود.
آزمايش متوالي (دو مرحله اي) Sequential (two-stage) Testing :
در غربالگري از نوع متوالي يا دو مرحله اي ابتدا آزمايش کم هزينه تر ، کمتر تهاجمي و راحت تر را انجام مي دهند سپس آنهاييکه نتيجه آزمايششان مثبت باشدجهت تست پرهزينه تر ، تهاجمي و احتمالا سخت تر که ميزان حساسيت و درجه اختصاصي بالايي دارند ، مجددا فرا مي خوانند . اين کار بخاطر اين است که اميدوار باشيم با ارزيابي بيشتر افراد با جواب مثبت، مشکل موارد مثبت کاذب را کاهش دهيم، مثال فرضي  شکل ٧-٤ را در نظر بگيريد که در آن جمعيتي از نظر بيماري ديابت با آزمايشي که حساسيت آن %٧٠ و اختصاصي بودن آن %٨٠ است غربال مي شود.
 

 
شکل٧-٤ : نمونه فرضي از يک طرح غربالگري دو مرحله اي
 
 
 
داده هاي اين جدول چگونه بدست آمده اند؟ ميزان شيوع بيماري (Prevalence) در اين جمعيت %٥ است . بنابراين در جمعيت ١٠٠٠٠ نفري ، ٥٠٠ نفر مبتلا به بيماري هستند. با درجه حساسيت %٧٠ ، تست قادر خواهد بود ٣٥٠ نفراز ٥٠٠ نفري را  که بيمار هستند ، بدرستي تشخيص دهد. اختصاصي بودن ٨٠ درصدي آزمايش منجر به اين خواهد شد که ٧٦٠٠ نفر از ٩٥٠٠ نفري که سالم هستند بدرستي عاري ازديابت تشخيص داده شوند. با تمام اين اوصاف ١٩٠٠ نفر از ٩٥٠٠ نفر سالم داراي جواب مثبت مي باشند. نتيجه مي گيريم مجموعا ٢٢٥٠ نفر( ٣٥٠ + ١٩٠٠) که داراي جواب مثبت هستند بايد جهت آزمايش دوم فرا خوانده شوند.(بخاطر داشته باشيد که در زندگي واقعي خط عمودي در اختيار نداريم که افراد ديابتي را از غير ديابتي جدا کند لذا ما نمي دانيم ٣٥٠ نفر از ٢٢٥٠ نفر ديابت دارند).   
اکنون آن ٢٢٥٠ نفر را با تست دوم غربال مي کنيم (مثل تست تحمل گلوکز Glucose tolerance test ) که براي تحقق اهدافمان در اين مثال فرض مي کنيم که حساسيتي برابر %٩٠ و ويژگي معادل %٩٠ داشته باشدشکل ٨-٤ مجددا آزمايش ١و٢ را با هم نشان مي دهد که روي ٢٢٥٠ نفري که در اولين آزمون جواب مثبت داشتند و براي مرحله دوم فرا خوانده شده اند ، انجام شده است.
 

 
شکل٨-٤ : نمونه فرضي از يک طرح غربالگري دو مرحله اي
 
 
 
از آنجائيکه ٣٥٠ نفر (از ٢٢٥٠  نفر) بيماري را داشته و آزمايش حساسيتي معادل %٩٠ دارد، ٣١٥ نفر از ٣٥٠ نفر بدرستي بعنوان مورد مثبت تلقي مي شوندو چون ١٩٠٠ نفر (از ٢٢٥٠نفر) ديابت ندارندو تست ويژگي ٩٠ درصدي دارد، ١٧١٠ نفر از ١٩٠٠ نفر بدرستي بعنوان مورد منفي تلقي مي شوندو ١٩٠ نفر نيز داراي نتايج مثبت کاذب هستند.   
اکنون قادر خواهيم بود که با انجام ٢ آزمون بطور متوالي"حساسيت  خالص" (net  sensitivity ) و "ويژگي خالص" ( net  specificity ) را محاسبه نمائيم. بعداز خاتمه هر دو آزمايش ، ٣١٥ نفر از کل ٥٠٠ نفر اين جمعيت ١٠٠٠٠نفري بدرستي بعنوان مثبت در نظر گرفته شده اند.
حساسيت خالص = %٦٣=٥٠٠/٣١٥ ، همانطور که متوجه شديد با انجام هردو تست کاهشي در ميزان حساسيت خالص رخ داد. براي محاسبه ويژگي خالص ، در نظر داشته باشيد که ٧٦٠٠ نفر از ٩٥٠٠ نفر اين جمعيت که ديابت نداشتند ، بدرستي در مرحله اول غربالگري منفي بوده و ديگر مورد ارزيابي با آزمون دوم قرار نگرفتند. ١٧١٠ نفر اضافي از ٩٥٠٠ فرد غيرديابتي بدرستي در غربالگري مرحله دوم منفي تشخيص داده شدند. نتيجه مي گيريم ١٧١٠ + ٧٦٠٠ نفر از ٩٥٠٠ فرد غير ديابتي بدرستي منفي تلقي شدند، ويژگي خالص=%٩٨ =٩٥٠٠/٩٣١٠. پس در مي يابيم انجام هر دو تست منجر به افزايش ويژگي خالص شده است.
  

آزمايش همزمان Simultaneous  Testing

 

در عرصه باليني اغلب آزمونهاي چندگانه بطور همزمان مورد استفاده قرار مي گيرد. بعنوان مثال هنگامي که فردي در بيمارستان بستري مي شود ممکن است در بدو ورود فهرستي از آزمايشات براي وي انجام شود، هنگامي که آزمونهاي چند گانه بطور همزمان براي تشخيص يک بيماري خاص بکار برده مي شود، در صورتيکه جواب يکي يا تعداد بيشتري از آزمونها مثبت باشد ، عموما فرد مثبت تلقي  مي شودو اگر در تمام آزمونها جواب منفي بدست آمد، وي منفي در نظر گرفته مي شود. تاثير اين نوع رويکرد به ويژگي و حساسيت يک آزمون با آنچه در نوع متوالي گفته شد متفاوت است.در آزمون متوالي هنگامي که افراد مثبت درمرحله اول را مجددا آزمايش مي کنيم، کاهشي در حساسيت خالص و افزايشي در ويژگي خالص بوجود مي آيد. اما در آزمون همزمان ، از آنجا که تلقي فرد بعنوان مثبت منوط به جواب مثبت فرد در يک يا تعداد بيشتر و يا تمام تستهاست ، حساسيت خالص است که افزايش نشان مي دهد. از طرف ديگر چون در آزمون همزمان منفي در نظرگرفتن شخص در گرو منفي شدن تمام آزمايشات است ، اين ويژگي خالص است که کاهش نشان مي دهد.
با توجه به نتايج بدست آمده تصميم گيري در مورد انتخاب روش متوالي يا همزمان در غالب موارد به اهدافي بستگي دارد که منظور از انجام آزمايش ، نيل به آن مقاصد است.مثلا اينکه آيا هدف از تست غربالگري است يا مقاصد تشخيصي، همچنين ممکن است ملاحظات ديگري در بين باشد نظير طول مدت بستري در بيمارستان ، هزينه و درجه تهاجمي بودن آزمونهاو يا مسائلي نظيربيمه از کار افتادگي ونقص عضو.

ارزش پيش آگهي تست Predictive  Value of  a Test    

 

در خيلي ازموارد اين سئوال مطرح شده است که يک آزمايش تا چه اندازه به خوبي مي تواند افراد بيمار و غير بيمار را تشخيص دهد، اين مسئله خصوصا در غربالگري گروههاي جمعيتي با زندگي آزاد ، بسيار مهم است. در حقيقت پرسش ما اين است که اگر جمعيتي را غربال مي کنيم چه نسبتي از آنهائيکه بيمار هستند بدرستي تشخيص داده مي شوند؟مسلما اين بحث مهمي در حيطه سلامت عموم جامعه مي باشد. در عرصه باليني ، ممکن است سئوال متفاوتي براي پزشک مطرح شود : اگر جواب آزمايش فردي مثبت است، چقدر احتمال دارد که اين فرد بيمار باشد؟ پاسخ اين سئوال " ارزش پيش آگهي مثبت" (Positive Predictive Value ) ناميده مي شود. به بيان ديگر چه نسبتي از بيماران با تست مثبت واقعامبتلا به بيماري هستند؟ براي محاسبه ارزش پيش آگهي ، تعداد موارد مثبت حقيقي را به کل موارد مثبت (مثبت حقيقي + مثبت کاذب) بخش مي کنيم. اجازه دهيد باز گرديم به مثال جدول ١-٤ که درآن ١٠٠٠ نفر تحت غربالگري قرار گرفتند. همانگونه که در تابلوي ٣-٤ مشاهده مي کنيد ، يک جدول ٢ x ٢  ، نتايج تست غربالگري دو گانه (dichotomous  screening  test ) را در جمعيت نشان ميدهد.از اين ١٠٠٠ نفر ١٨٠ نفر تست مثبت دارند و از اين ١٨٠ نفر، ٨٠ نفر مبتلا به بيماري هستند، از اينرو  ارزش پيش آگهي مثبت ١٨٠/٨٠ يا %٤٤ است.
 
 

جدول٣-٤ : ارزش پيش آگهي يک آزمايش
 
 
سئوال مشابهي را مي توان در ارتباط با تستهاي منفي مطرح کرد، اگر نتيجه آزمايش منفي است، چقدر احتمال دارد که فرد مبتلا به بيماري نباشد ؟ پاسخ اين سئوال "ارزش پيش آگهي منفي " (negative  predictive  value ) ناميده مي شود که براي محاسبه آن تعداد موارد منفي حقيقي را به کل موارد منفي (منفي حقيقي + منفي کاذب ) تقسيم مي کنيم، باز هم به تابلوي ٣-٤ نگاه کنيد.  ٨٢٠ نفر داراي جواب تست منفي هستند. از اين تعداد ٨٠٠ نفر عاري از بيماريند ، بنابراين ارزش پيش آگهي منفي٨٢٠/٨٠٠ يا %٩٨ است، در ادامه بحث هر جا سخن از ارزش پيش آگهي به ميان مي آيد ، منظور همان ارزش پيش آگهي مثبت آزمايش است.
هر تستي که پزشک انجام مي دهد(گرفتن شرح حال ، معاينه فيزيکي ، تستهاي آزمايشگاهي ، X-Ray ، ECG و ساير آزمونها) روي توانائي وي در تشخيص صحيح موثر است ، جواب مثبت اين آزمايشات تا چه حد احتمال وجود بيماري در فرد را مطرح مي کند؟
بر خلاف حساسيت و ويژگي تست که مي توان آنها را بعنوان شاخصهاي آزمايش انجام شده در نظرگرفت، ارزش پيش آگهي تحت تاثير ٢ عامل است: يکي ميزان شيوع بيماري در جمعيتي که تحت آزمايش قرار گرفته اند و ديگري ويژگي تست در موارديکه بيماري غير شايع است. در ادامه به بحث پيرامون اين دو رابطه مي پردازيم.

رابطه ارزش پيش آگهي با ميزان شيوع بيماري  

 

رابطه ميان ارزش پيش آگهي با شيوع بيماري را مي توان درمثال موجود در جدول ٤-٤ مشاهده کرد. اول بياييد توجه خود را به قسمت بالاي جدول معطوف کنيم.فرض کنيد آزمايش بکار رفته داراي حساسيتي معادل %٩٩ وويژگيي برابر % ٩٥ باشد. جمعيت مورد نظر ١٠٠٠ نفر و ميزان شيوع بيماري در آن %١  است.چون شيوع بيماري %١  است، ١٠٠ نفر از١٠٠٠ نفر بيمارو ٩٩٠٠ نفر عاري از بيماري هستند. با حساسيت%٩٩ ، تست بکاررفته قادر به تشخيص صحيح ٩٩ نفر از يکصد بيمار مي باشدو با ويژگي %٩٥ تست قادر به تشخيص صحيح  ٩٤٠٥ نفرفرد سالم  از ٩٩٠٠ نفري که بيمارنيستند ، مي باشد .بنابراين در چنين جمعيتي با شيوع يک در صدي بيماري ٥٩٤ نفر بنا به آزمايش، مثبت تلقي مي شوند(٤٩٥ + ٩٩). اما از اين ٥٩٤ نفر، ٤٩٥ نفر(%٨٣) مثبت کاذب هستندوبه اين ترتيب ارزش پيش آگهي مثبت ٥٩٤/٩٩ يا تنها %١٧ است. 
 

 
جدول٤-٤ : رابطه ارزش پيش آگهي با ميزان شيوع بيماري
 
 
حال بيائيد همان آزمايش را (با همان ميزان حساسيت وويژگي ) براي جمعيتي به کار ببريم که ميزان شيوع بيماري درآن بالاتراست(%٥) . به قسمت پائيني جدول ٤-٤ نگاه کنيد. با انجام محاسباتي شبيه به بخش بالايي جدول، اکنون ارزش پيش آگهي مثبت %٥١ خواهد بود. از آنچه گفته شد نتيجه مي گيريم افزايش ميزان شيوع بيماري در جمعيت غربال شده منجربه افزايش چشمگير ارزش پيش آگهي مثبت با همان تست خواهد شد.
شکل ٩-٤ رابطه بين شيوع بيماري و ارزش پيش آگهي را به تصوير مي کشد: واضح است که بيشترين افزايش در ارزش پيش آگهي با افزايش ميزان شيوع در پائين ترين مقادير شيوع بيماري بوقوع مي پيوندد.
چرا بايد به رابطه ميان ارزش پيش آگهي و شيوع بيماري توجه داشته باشيم ؟همانطور که ديده ايم هرچه ميزان شيوع بالاتر باشدارزش پيش آگهي بيشتر است. بنابراين اگر هدف يک برنامه غربالگري معطوف به جمعيتي پر خطر باشد، راندمان و بهره وري بالاتري دارد. غربالگري کل يک جمعيت آنهم براي يک بيماري نسبتا نا شايع ضمن اينکه مي تواند باعث هدر رفتن زياد منابع شود ، در مقابل ميزان تلاشي که صورت مي  گيرد تنها ممکن است موجب کشف تعداد بسيار اندکي از موارد نا شناخته قبلي گردد.اما چنانچه بتوانيم يک مجموعه پر خطر را شناسائي و برنامه غربالگري را براي آن اجرا کنيم احتمالا راندمان و کارآيي برنامه نيز بيشتر خواهد بود. علاوه بر اين افراد يک جمعيت پر خطر ممکن است بيشتر راغب به شرکت در برنامه غربالگري باشندو خصوصا هنگاميکه جواب آزمايش آنها مثبت باشد بيشتر احتمال دارد به توصيه ها گوش فرا دهند.
 

 
شکل٩-٤ : رابطه شيوع بيماري و ارزش پيش آگهي
 
 
  
  همچنين رابطه ارزش پيش آگهي با شيوع بيماري نشان مي دهد که نتايج هر آزمايشي بايد در غالب شيوع بيماري در جمعيت هدف تفسير شود.
يک مثال جالب در اين زمينه تعيين ميزان پروتئين آلفاي جنيني (- Alfa  Fetoprotein = AFP ) در مايع آمنيوتيک به منظور تشخيص قبل از زايمان شکاف مهره اي (Spina bifida ) مي با شد.
شکل ١٠-٤ توزيع سطوح AFP ما يع جنيني را در حاملگي هاي طبيعي و حاملگي هايي که جنين داراي شکاف مهره اي است ( نقص لوله عصبي ) نشان مي دهد. اگر چه اين پراکندگي از نوع دو قله اي است، ليکن محدوده اي وجود دارد که منحني ها يکديگر را هم پوشاني مي کنند(Overlap ) ، در اين محدوده هميشه اين امکان وجود ندارد که بوضوح تشخيص دهيم  که منحني مادر جنين به کدام منحني تعلق دارند. 
 
 

 
شکل١٠-٤ : توزيع سطوح مايع جنيني در حاملگي هاي طبيعي و حاملگي هايي که جنين داراي شکاف مهره اي است.(نقص لوله عصبي )
 
 
شفيلد (Sheffield ) و همکارانش در نتايج غربالگري  يک جمعيت ١٠٠٠ نفره از خانمها را از نظر سطح AFP مايع آمنيوتيک براي تشخيص شکاف مهره اي جنين، در مقاله اي ارائه دادند ، آنها دو گروه جمعيتي ساختند : يکي با ميزان خطر بالا براي شکاف مهره اي و ديگري با ميزان خطر نرمال. جدول ٥-٤ محاسبات مربوط به هر دو گروه پر خطر و کم خطر را نشان مي دهد. چه زناني در معرض خطر زياد براي داشتن فرزندي مبتلا به شکاف مهره اي هستند ؟ مي دانيم خانمها يي که قبلا صاحب  فرزندي يا نقص لوله عصبي بوده اند بيشتر در معرض خطر هستند زيرا مشخص شده است که اين نقص در فرزندان بعدي تکرار مي شود. دراين محاسبات ارزش پيش آگهي مثبت %٩/٨٢ بدست آمد، چه خانمهائي در معرض خطر کم هستنداما همچنان نيازبه آمينو سنتز (Aminocentesis ) دارند؟ اينها زنان مسن تري هستند که انجام آمينو سنتزبراي آنها بخاطرنگراني ازاحتمال سندرم دان(Down Syndrome ) و برخي نقائص ديگر است که با حاملگي مادران در سن خيلي بالاهمراهي دارند. البته ميزان خطر پذيري شکاف مهره اي ربطي به سن مادر ندارد بنابراين اين زنان در معرض هيچ خطري نيستند. محاسبات نشان مي دهد با همان آزمايشي که براي سنجش AFP در زنان پر خطر بکار رفت ، ارزش پيش آگهي مثبت تنها % ٧/٤١ بود که بنحو چشمگيري کمتر از گروه پر خطر مي باشد.  
 
 

 
جدول٥-٤ : محاسبات ارزش پيش آگهي براي آزمايش نقوص لوله عصبي  و آزمايش تعيين ميزان پروتئين آلفاي جنيني  در زنان پرخطر و کم خطر
 
    
بنابراين مي بينيم که انجام يک تست براي گروه پر خطر (شيوع بالا) يا کم خطر (شيوع پائين ) مي تواند ارزش هاي پيش آگهي متفاوتي را به بار آورد. اين موضوع از نظر باليني بسيار مهم است: ممکن است خانمي بخاطر توصيه يک پزشک که برمبناي نتيجه آزمايش استوار است ، تصميم به خاتمه بارداري بگيرد، اما همين آزمايش ممکن است بر حسب اينکه اين زن از گروه پر خطر مي آيد يا کم خطر ( که خود انعکاسي از ارزش پيش آگهي مثبت تست است) به نحو ديگري تفسير شود، نتيجه اينکه خود يک آزمون به تنهائي ممکن است بعنوان راهنما کافي نباشد و در اين گذر بايد ملاحظات ديگري را که شرح داده شد در نظر گرفت.
مثال واقعي زيراهميت موضوع مورد بحث را بيش از پيش مشخص مي کند: 
رئيس يک مرکز آتش نشاني مشاوره اي با يک پزشک متخصص قلب از يکي از دانشگاهها بعمل آورد.اين مشاوره به اين علت انجام گرفت که پزشک مرکز آتش نشاني در مقاله اي از يک ژورنال پزشکي خوانده بود که يافته هاي  خاصي درنوار قلبي افرا د بشدت مويد بيماري جدي و عموما تشخيص داده نشده عروق کرونر قلب است. پزشک مرکز آتش نشاني بر همين اساس بسياري از آتش نشانان جوان را که داراي جثه مناسبي هم بودند ، فاقد صلاحيت انجام وظيفه در اين شغل تشخيص داد و آنها را مردود نمود ، هنگاميکه پزشک متخصص قلب مقاله را خواند در يافت که اين مطالعه در بين افراد بستري  در بيمارستان صورت گرفته است.
مشکل چه بود؟ از آنجائيکه شيوع بيماريهاي قلبي در افراد بستري در بيمارستان خيلي بيشتراز گروه آتش نشانان جوان است ، پزشک مرکز به اشتباه ا رزش پيش آگهي بالا را که نتيجه مطالعه روي يک گروه پر خطر (شيوع زياد) بود ، بطورنامناسب به آتش نشانان جوان و سالم تعميم داد که اين تست در آنها از ارزش پيش آگهي پائيني برخوردار است.
مثالي ديگر:
پزشکي به دکتر داخلي خود جهت معاينات پزشکي ساليانه مراجعه کرد. يکي از آزمايشات ، تست بررسي خون در مدفوع بود (Stool exam for occult blood ) . از ٣ نمونه مدفوعي که تحت آزمايش قرار گرفت، يکي مثبت بود، دکتر داخلي به بيمار پزشکش گفت که جواب مثبت ارزشي نداردزيرا وي در دوران حرفه پر مشغله اش با موارد مثبت کاذب بسياري مرتبا روبرو شده است، تست مجددا تکرار شد و جواب هر ٣ نمونه منفي گرديد، با اين وجود چون بيمار احساس نگراني مي کرد پزشک داخلي ترجيح داد که او را به يک متخصص دستگاه گوارش ارجاع دهد.پزشک متخصص گوارش گفت : تجربه من نشان مي دهد که جواب مثبت آزمايش خون مخفي مدفوع ، جدي است ، چينن يافته اي تقريبا هميشه همراه با اختلالات پاتولوژيکي دستگاه گوارش است ، جوابهاي منفي تست دوم ارزشي ندارد زيرا شما مي توانيد مبتلا به توموري باشيد که هر از گاهي خونريزي مي کند.
در اين بين چه کسي درست مي گفت ؟ پاسخ اين است که هم پزشک داخلي وهم پزشک گوارش حق داشتند.٠ تشخيص متخصص داخلي بر مبناي ارزش پيش آگهي اين تست حيطه طبابت عمومي يعني در جمعيتي بود که از ميزان شيوع کم بيماريهاي دستگاه گوارش برخوردار است . از سوي ديگر پزشک متخصص گوارش نظر خود را بر اساس ارزش پيش آگهي همين تست در جمعيتي که با آن سروکار داشت(بيماران ارجاعي که اکثرا مبتلا به بيماريهاي گوارشي بودند) و از ميزان شيوعي بالاي بيماري هاي گوارشي برخوردار بود ارائه داد.
 

  رابطه ميان ارزش پيش آگهي با ويژگي (اختصاصي بودن ) تست

 

عامل دومي که ارزش پيش آگهي يک آزمايش را تحت تاثير قرار مي دهد ، ويژگي آن تست است.مثالهاي اين قسمت ابتدا بصورت تصويري و سپس بصورت جدولي ارائه مي گردند. 
اشکال ١١-٤ از A تا D نتايج غربالگري يک جمعيت را نشان مي دهد، جداول ٢x٢ اين اشکال با آنهاييکه در ابتداي بخش قرار داشتند متفاوت است: در اينجا اندازه هر خانه متناسب با جمعيتي است که معرفي مي کند، در هر شکل خانه هايي که بيانگر تست مثبت هستند بصورت خاکستري هاشور خورده نمايش داده شده اند، اينها همان خانه هائي هستند که در محاسبات مربوط به ارزش پيش آگهي مثبت بکار برده مي شوند.
 

 
شکل١١-٤ : رابطه اختصاصي بودن با ارزش پيش آگهي
 
 
شکل A ١١-٤ غربالگري مبنا را که براي جمعيت موردبحث ما انجام شده معرفي مي کند: جمعيتي بالغ بر ١٠٠٠ نفر که ميزان شيوع بيماري در آنها %٥٠ است ، بنابر اين ٥٠٠ نفر بيمار و ٥٠٠ نفر سالم در اختيار داريم، همچنين در تجزيه و تحليل اين شکل از آزموني استفاده کرديم که داراي حساسيت %٥٠ و ويژگي %٥٠ بود، پس از ٥٠٠ جواب مثبت، ٢٥٠ نفر بيمار هستند و ارزش پيش آگهي ٥٠٠/٢٥٠ يا % ٥٠ است.
خوشبختانه ميزان شيوع اکثر بيماريها خيلي کمتر از %٥٠ است. ما در بيشتر اوقات با بيماريهاي نسبتا غير شايع سروکار داريم. در شکل B ١١-٤ شيوع کمتري را در نظر مي گيريم ، %٢٠ ( هرچند اين مقدار هم براي بسياري از بيماريها غير معمول است) حساسيت و ويژگي در همان %٥٠ ثابت باقي مي مانند، اکنون تنها ٢٠٠ نفر از ١٠٠٠ نفر ، بيماري را دارندو خطي عمودي که افراد بيمار را از غير بيمار جدا مي سازدبه سمت چپ شيفت کرده است. ارزش پيش آگهي در اينجا ٥٠٠/١٠٠ يا %٢٠ است، حال در نظر بگيريد که آيا مي توان با غربال کردن جمعيتي با ميزان شيوع پايين تر ، ارزش پيش آگهي را بهبود بخشيد؟  اگر حساسيت تست را افزايش دهيم چه تاثيري روي  ارزش پيش آگهي خواهد گذاشت؟ شکل C ١١-٤ نتايج بدست آمده تا موقعي را نشان مي دهد که ميزان شيوع همان %٢٠ ، ويژگي همان %٥٠ ولي حساسيت تا ميزان %٩٠ افزايش يافته است. در اين حالت ارزش پيش آگهي ٥٨٠/١٨٠ يا %٣١ خواهد بود که کمي افزايش يافته است .  
حال اگر بجاي افزايش حساسيت ، ويژگي را زياد کنيم چه اتفاقي خواهد افتاد؟ شکل D ١١-٤ نتايج بدست آمده را با ميزان شيوع %٢٠ ، حساسيت %٥٠ وويژگي افزايش يافته به مقدار %٩٠ را نشان مي دهد، در اين حالت ارزش  پيش آگهي ١٨٠/١٠٠ يا % ٥٦ بدست مي آيد، نتيجه مي گيريم بالا بردن ويژگي باعث مي شود ارزش پيش آگهي نسبت به زماني که به همان ميزان حساسيت را زياد کرديم خيلي بيشتر افزايش يابد.
چرا ويژگي بيش از حساسيت روي ارزش پيش آگهي تاثير دارد؟ پاسخ با بررسي اشکال کاملا واضح و روشن است. از آنجا که سروکار ما با بيماريهاي غير شايع است، اکثر افراد جمعيت در سمت راست خط عمودي قرار مي گيرند ، نتيجه اينکه هر تغييري روي طرف راست خط عمودي تعداد بيشتري از افراد را به سمت چپ، تحت تاثير قرار مي دهد. بنابراين تغيير ناشي از ويژگي روي ارزش پيش آگهي بيشتر از تغيير حاصله از حساسيت است. اگر هدف ما بيماريهاي شايع باشد موقعيت فرق مي کند.
اثر تغييرات ويژگي روي ارزش پيش آگهي در جدول ٦-٤ به همان نحوي که در جدول ٤-٤ مورد استفاده قرار گرفت نشان داده شده است. همانطور که در اين مثال ديده مي شود، حتي با ميزان حساسيت %١٠٠ ، تغيير ويژگي از %٧٠ به %٩٠ اثر چشمگيري روي ارزش پيش آگهي مثبت دارد.
 
 

 
جدول٦-٤ : رابطه اختصاصي بودن با ارزش پيش آگهي
 

قابليت اعتماد پذيري (تکرار پذيري ) آزمايشاتReliability Repeatability) of Tests )   

 

اجازه دهيد به جنبه ديگري از تستهاي تشخيصي و غربالگري نظري بيفکنيم ، سئوال اين است که آيا يک تست قابل اعتماد يا تکرار پذيراست ، آيا با تکرار يک آزمايش به نتايج يکسان و مشابه با دفعات قبل مي شويم ؟ مسلما  بدون توجه به حساسيت وويژگي آزمايش، در صورتيکه نتوان نتايج يکساني را با تکرار تست بدست آورد، ارزش و فايده آزمون حداقل خواهد بود. ادامه اين فصل به بحث در مورد قابل عتماد بودن و تکرار پذيري آزمايشهاي تشخيصي و غربالگري اختصاص دارد.
ابتدا به عواملي مي پردازيم که در تغييرنتايج يک آزمايش دخيل هستند: متغير فرد آزمايش شونده    (intrasubject  variation  ) و متغير افراد آزمايش کننده (interobserver  variation )

متغير مربوط به فرد آزمايش شونده           Intrasubject  Variation

 

 
مقادير بدست آمده ازبسياري از شاخصه هاي انساني اغلب در طي زمان (حتي در يک دوره کوتاه زماني ) تغيير مي کند. جدول ٧-٤ تغييرات فشار خون ثبت شده را طي ٢٤ ساعت ، در ٣ فرد نشان مي دهد، تغيير پذيري در طي زمان قابل توجه است، علاوه بر اين شرايطي که آزمايش تحت آن انجام مي شود( بعد از غذا، بعداز ورزش، در خانه يا در مطب) مشخصا منجر به بوجود آمدن نتايج مختلف در يک فرد خواهد شد.بنا براين در ارزيابي و تفسير نتايج يک آزمايش، اين نکته مهم است که هميشه شرايطي که تست در آن انجام شده است را بسنجيم خصوصا زمان انجام آزمون در روز.
 
 

 

جدول٧-٤ : تغييرات فشار خون ثبت شده طي ٢٤ ساعت در ٣ نفر

 

متغير مربوط به افراد آزمايش کننده Interobserver Variation

 

نکته مهم قابل ملاحظه ديگر، تفاوتهايي است که بين افراد آزمايش کننده وجود دارد. اغلب در فرد آزمايش کننده ، نتايج يکساني بدست نمي آورند. ميزان توافق يا عدم توافق بين افراد آزمايش کننده موضوع مهمي است که به هنگام انجام معاينات فيزيکي ، تستهاي آزمايشگاهي يا ساير روشهاي تشخيصي خصوصيات انساني بايد مد نظر قرار گيرد، بنابراين بايد بتوانيم ميزان توافق را با واژه هاي کمي بيان کنيم.

در صد کلي توافق       Overal Percent Agreement 

 

جدول ٨-٤ به معرفي شمايي براي امتحان تفاوت بين افراد آزمايش کننده مي پردازد. در اينجا ٢ فرد وجود دارند که نتايج هر تست را در ٤ گروه طبقه بندي مي کنند: غير طبيعي ، محتمل (نزديک به يقين)،  مشکوک( غير قطعي) و طبيعي.
فرض کنيد اين نمودار نظر ٢ را ديو لوژيست است. در اين جدول تشخيصهاي راديولوژيست اول بصورت متقاطع در مقابل تشخيصهاي راديولوژيست دوم آورده شده، تعداد نتايج بدست آمده در هر خانه بوسيله يکي از حروف الفبا نشان داده شده است. بنابراين مطابق جدول تعداد A مورد عکس راديولوژي توسط هر دو راديو لو ژيست غير طبيعي تلقي شده است و تعداد C مورد توسط راديولوژيست دوم غيرطبيعي وتوشط راديولوژيست اول مشکوک تفسير گشته است.تعداد  M مورد نيز مطابق نظر راديولوژيست اول طبيعي و بر اساس راي راديولوژيست دوم طبيعي مي باشد.
 
 

جدول٨-٤ : معرفي شمايي براي امتحان تفاوت بين افراد آزمايش کننده
 
 
همانگونه که در جدول ٨-٤ مشاهده مي کنيد، براي محاسبه در صد کلي توافق ، تعداد مربوط به خانه هايي را که هر دو راديولوژيست روي آن اتفاق نظر دارند (A+F+K+P ) به تعداد کل عکسهاي خوانده شده تقسيم و در عدد ١٠٠ ضرب مي کنيم تا در صد آن مشخص شود.
عموما اکثر افرايکه تحت آزمايش قرار مي گيرندداراي نتيجه منفي هستند.احتمالا توافق قابل ملاحظه اي بين ٢ فرد آزمايش کننده در مورد کسانيکه نتيجه تست آنها طبيعي يا منفي است، وجود دارد.بنابراين هنگامي که در صد توافق بر اساس کل افراد آزمايش شونده محاسبه مي شود، ممکن است مقدار آن بالا باشدو اين تنها بدليل موارد زياد يافته هاي منفي است که آزمايش کنندگان روي آن اتفاق نظر دارند، همين مسئله باعث مي شود که عدم توافق آزمايش کنندگان روي تشخيص موارد مثبت  مستور بماند.
شکل ١٢-٤ ، رويکردي را براي حل اين مشکل نشان مي دهدکه آن صرفنظر کردن از موارد يست که هر دو فردآزمايش کننده روي منفي بودن آنها ، موافق هستند(خانه d) . به اين ترتيب در محاسبه در صد توافق ، مواردي را که حداقل يکي از آزمايش کننده ها غير طبيعي در نظر مي گيرد، در مخرج کسر منظور مي شود.(خانه هاي  a,b,c) بنابراين در مشاهدات دو نفره (Paired Observationsکه حداقل يکي از يافته هاي هر دو نفر مثبت است، معادله زير کاربرد دارد:     
a            
١٠٠ X -------------= درصد توافق
a +b + c       

 
 

شکل١٢-٤ : درصد توافق ميان مشاهدات دو نفره آزمايش کننده ١ و ٢

 

 

آمارکاپا            Kappa  Statistic
 
در صد توافق به نحو چشمگيري تحت تاثير اين واقعيت نيز هست که حتي اگر ٢ فرد آزمايش کننده از پلاکهاي تشخيصي کاملا متفاوت براي اطلاق مثبت و منفي به آزمايش شوندگان استفاده کنند، باز هم انتظار داريم که صرفا بخاطرپديده شانس، اتفاق نظر روي برخي  موارد وجودداشته باشد اين مسئله در مثال زيرنشان داده شده است:  
شما رئيس يک مرکز راديولوژي هستيدکه از قضا روزي از پرسنل کافي برخوردار نمي باشيد. در عين حال تعداد زيادي عکس راديولوژي وجود داردکه بايد خوانده شوند.شما براي حل مشکلتان به خيابان مي رويد واز تعدادي از شهرونداني که درهمسايگي شما قرار دارند و البته هيچ اطلاع و پيش زمينه اي از طب و بيولوژي ندارند خواهش مي کنيد که نگاهي به عکسها بيفکنند و نظر خود را در غالب مثبت يا منفي بودن عکس به شما اعلام دارند. نفر اول به سراغ عکسها مي رود، به آنها نظري مي اندازد و سپس بصورت کاملا شانسي و اتفاقي نظر خود را راجع به هرعکس  اعلام مي کند: مثبت ، منفي ، منفي ، مثبت و ...... نفر دوم نيز همين کار را و بصورت کاملا تصادفي انجام مي دهد. بياد داشته باشيد که هيچکدام از اين افراد از دانش ، معيارهاي تشخيصي و استانداردهاي لازم براي خواندن يک عکس راديولوژي برخوردار نيستند، آيا هيچيک از اين چند نفر روي عکس خاصي توافق نظر دارند؟ پاسخ مسلما مثبت است برخي از آنها صرفا بخاطر پديده شانس ، روي برخي عکسها نظر يکسان دارند.
اگر مايليم بدانيم دو آزمايش کننده تا چه حد بخوبي مي توانند  گرافي ها را بخوانند، ممکن است اين سئوال را مطرح کنيم :
توافق دو فرد تا چه حد بيش از آن ميزاني است که انتظار داريم صرفا بخاطرشانس بوجود آمده باشد؟ به بيان ديگر :اتفاق نظر دو فرد آزمايش کننده تا چه حد از ميزان توافقي که صرفا بعلت شانس بروز مي کند، فراتر مي رود؟
يک نوع رويکرد براي پاسخ به اين پرسش محاسبه آمارکاپا است که توسط کوهن(Cohen ) در سال ١٩٦٠ پيشنهاد گرديد.
آمارکاپا را مي توان مطابق معادله زير تعريف نمود:
(در صد توافق مورد انتظار از پديده شانس بطورصرف ) - ( در صد توافق مشاهد شده)
---------------------------------------------------------------------------------------------=کاپا
( درصد توافق موردانتظار ازپديده شانس بطور صرف)-%١٠٠
صورت کسر کاپا معرف چيست؟ما مي خواهيم بدانيم که توافق مشاهده کنندگان تا چه حد بهتر از آن چيزي است که صرفا بخاطر شانس انتظار داريم بعبارت ديگر در صد توافق مشاهده شده منهاي درصد توافق مورد انتظار از پديده شانس بطور صرف %١٠٠ در مخرج کسر معرف توافق تام است يعني دو فرد مشاهده کننده در تمام موارد با هم هم راي هستند، بيشترين ميزاني که افراد آزمايش کننده مي توانند نتايجشان را نسبت به موارد شانسي بهبود دهند اختلاف  توافق تام و در صد توافق مورد انتظار از پديده شانس بطور صرف مي باشد که در مخرج کسر آمده است . بنابراين کاپا به ما مي گويد که توافق مشاهده  شده تا چه حد از ميزان توافق صرفا شانسي فراتر است و حداکثر بهبودي را که مي تواند  بالاتراز توافق شانسي براي افراد آزمايش کننده بدست آيد در غالب يک تست معرفي مي کند.
براي محاسبه کاپا ابتدا بايد ميزان توافقي را که انتظارداريم صرفا بخاطر پديده شانس حاصل شود، محاسبه کنيم داده هاي گزارش شده در مورد طبقه بندي بافتي سرطان ريه را در نظر بگيريد که معطوف به قابليت توليد دو باره سرطان سلول غيرکوچک ريوي از زير گروه سرطانهاي ريه مي باشد.
شکل ١٣-٤ اطلاعاتي را نشان مي دهد که حاکي از مقايسه يافته هاي دو پاتولوژيست در درجه بندي افراد مبتلا به اين سرطان است. اولين سئوال اين است:در صد توافق مشاهده شده بين دو پاتولوژيست چيست؟ شکل ١٤-٤ نتايج بررسي تمام اسلايدها توسط پاتولوژيست A را در بالاي جدول و همين بررسي در مورد پاتولوژيست B را در حاشيه سمت راست جدول نشان مي دهد بنابراين پاتولوژيست A ٤٥ مورد از تمام ٧٥ مورد را سرطان درجه IIتشخيص داد(%٦٠ ) و پاتولوژيست B ٤٤ مورد از همين تعداد را سرطان درجه II شناسائي کرد( %٦/٥٨ ) . همانطور که قبلا در اين فصل راجع به آن بحث کرديم در صد توافق بوسيله معادله زير محاسبه مي شود:
                                                                      ٢٧ +٤١   
                                  %٧/٩٠=١٠٠---------------------=-درصد توافق
                                                                        ٧٥                   
يعني آسيب شناسان در % ٧ /٩٠ موارد تحت بررسي اتفاق نظر داشتند.
 
 

شکل١٣-٤ : اطلاعاتي حاکي از مقايسه يافته هاي دو پاتولوژيست دردرجه بندي افراد مبتلا به سرطان ريه 

 

شکل١٤-٤ : نتايج بررسي تمام اسلايد ها توسط پاتولوژيست A (بالاي جدول ) و توسط پاتولوژيست B (حاشيه سمت راست جدول)

 

 

سئوال دومي که مطرح مي شود اين است: اگر دو آسيب شناس از ملاکهاي تشخيصي کاملا متفاوت استفاده کرده اند ، چه ميزان از اين توافق صرفا بر حسب شانس اتفاق افتاده است؟ پاتولوژيست A % ٦٠ از ٧٥ اسلايد را (٤٥ اسلايد) درجه II تشخيص داد. اگر معيار تشخيصي وي کاملا مستقل از معيارهاي تشخيصي پاتولوژيست B باشد( به اين معنا که اگر قرار بود آسيب شناس A % ٦٠ از هر گروه اسلايدها را درجه II تشخيص دهد) ، انتظار داريم که پاتولوژيست A هم %٦٠ از اسلايدهايي که توسط پاتولوژيست B ، درجه II ناميده مي شوندرا درجه II تشخيص دهد و هم %٦٠ از اسلايدهايي را که پاتولوژيست B درجه III مي نامد، درجه II تلقي کند. بنابراين انتظار اين است که % ٦٠ از ٤٤ اسلايدي (٤/٢٦)  که پاتولوژيست B آنها را درجه II تشخيص داد، توسط پاتولوژيست A نيز درجه II تشخيص داده مي شودو %٦٠ از ٣١ اسلايدي(٤/١٢) که پاتولوژيست B آنها را درجه III ناميد توسط پاتولوژيست A درجه II  قلمداد مي شود (شکل ١٥-٤) .
 

 
 
شکل١٥-٤ : درصد توافق پاتولوژيست A و پاتولوژيست B که تنها بر حسب شانس انتظار مي رود.
 
 
از آنچه گفته شد نتيجه مي گيريم توافق  شانسي مورد انتظار
          ٤/١٢ + ٤/ ٢٦
% ٧/٥١= ---------------------      
             ٧٥     
کل اسلايدها خواهد بود.کاپا را مي توان با استفاده از همان فرمول بدست آورد
   % ٧/٥١ - % ٧/٩٠
٨/٠ =------------------------- = Kappa
% ٧/٥١ - %  ١٠٠
پيشنهاد لانديس و کخ (Landis & Kokh ) اين است که کاپاي بيش از ٧٥ /٠ حاکي از توافق عالي و وراي شانس ، کاپاي کمتراز ٤ /٠ نشاندهنده توافق ضعيف و بالاخره کاپاي بين ٤/٠ تا ٧٥/٠  نشان از توافق  نسبي  خوب دارد. آزمايش معنا دار بودن کاپا از لحاظ آماري بوسيله فليس (Fleiss ) شرح داده شده است. کاربرد مناسب کاپا بحث قابل ملاحظه اي است که بوسيله مک لورو ويلت ارائه شده است(Mclure of Willet ) 

رابطه ميان صحت و قابليت اعتماد

 

براي اينکه از اين فصل نتيجه اي گرفته باشيم ، اجازه دهيد ارتباط بين معتبر بودن و مطمئن بودن يک تست را در غالب منحني نشان دهيم.
خط افقي درشکل ١٦-٤ مقادير يک متغير نظير سطح خوني گلوکز همراه با نمايش مقادير حقيقي است.نتايج بدست آمده از آزمايش بصورت منحني نشان داده شده است، منحني از نوع باريک مي باشدو اين بدان معناست که نتايج کاملا قابل اعتماد است(قابل تکرار). اما متاسفانه چون منحني دور از مقادير حقيقي است، اعتباري ندارد.

 

شکل١٦-٤ : منحني نتايج آزمايش فرضي که معتبرند ولي قابل دسترس نيستند.

 

 

شکل ١٧-٤ يک منحني پهن را نشان مي دهد که خيلي کم مي توان به آن اعتماد کرد.اما چون منحني در حول و حوش مقادير طبيعي قرار دارد، معتبر است، آنچه مسلم است اينکه ما مي خواهيم نتايجي داشته باشيم که هم معتبر و هم مطمئن باشند(شکل ١٨-٤ )
 

 

شکل١٧-٤ : منحني نتايج آزمايش فرضي که معتبرند ولي قابل دسترس نيستند.

 

شکل١٨-٤ : منحني نتايج آزمايش فرضي که معتبرند ولي قابل دسترس نيستند.

 

 

نکته مهمي که در شکل ١٧ - ٤ وجود دارد اين است که توزيع و پراکندگي نتايج آزمايش يک منحني پهن را بوجود آورده که مرکز آن همان مقادير واقعي است وما مي گوئيم نتايج تست معتبر است در حاليکه نتايج تنها براي يک گروه خاص معتبر مي باشد( همانهائي که نتيجه آزمايششان حول و حوش مقادير حقيقي است). بهرحال آنچه که براي گروه يا جمعيتي معتبر است ممکن است در حيطه باليني براي يک فرد معتبر نباشد. هنگاميکه درجه اعتماد پذيري و تکرار پذيري آزمايشي ضعيف است، معتبر بودن تست براي فرد نيز ممکن است ضعيف باشد. از اين جهت تمييز اعتبار گروهي از اعتبار فردي نکته مهمي است که بايد بهنگام ارزيابي کيفيت تستهاي تشخيصي و غربالگري مد نظر داشت.      

نتيجه گيري

 

اين فصل به بحث در مورد معتبر بودن تستهاي تشخيصي و غربالگري که با ميزان حساسيت ، ويژگي، ارزش پيش آگهي و قابليت اعتماد پذيري و تکرار پذيري آنها سنجيده مي شود پرداخت . مسلما صرفنظر از اينکه يک آزمايش از چه حساسيت و ويژگي برخوردار است،اگر نتايج آن قابل تکرار نباشد ، تست کاربرد کمي دارد. بنابراين بهنگام ارزيابي يک آزمون بايد تمام اين خصوصيات را مد نظر قرار دارد ضمن اينکه بدانيم هدف از انجام آزمايش چيست؟
 

خودآزمائي فصل ٤

 

سئوالات ١و٢و٣ بر مبناي اطلاعات زير طرح شده است:
معاينه فيزيکي براي غربال ٢٥٠٠ زني که آدنوکارسينوم سينه در آنها بوسيله بيوپسي اثبات شده بود انجام گرديد. معاينه روي گروه کنترل که شامل ٥٠٠٠ زن با همان شرايط سني و نژادي بود نيز انجام شد. نتايج معاينه فيزيکي (لمس توده) در ١٨٠٠ بيمار و ٨٠٠ نفراز گروه کنترل (هيچيک از افراد گروه کنترل اثري از سرطان در بيوپسي نشان ندادند) مثبت بود:
١- حساسيت معاينه فيزيکي برابر بود با
٢- ويژگي معاينه فيزيکي برابربود با
٣- ارزش پيش آگهي مثبت معاينه فيزيکي برابر بود با
٤- يک تست غربالگري براي دو جمعيت مشابه بطور يکسان مورد استفاده قرار مي گيرد، اما نسبت موارد مثبت کاذب در افراد داراي جواب مثبت در جمعيت A کمتر از جمعيت B مي باشد، چه توجيهي براي اين يافته وجود دارد.
a- غير ممکن است که بتوان عامل بوجود آورنده اين اختلاف را شناسائي کرد
b- ويژگي تست در جمعيت A کمتر است
c- شيوع بيماري در جمعيت A کمتر است
d- شيوع بيماري در جمعيت A بيشتر است
e- ويژگي تست در جمعيت A بيشتر است
سئوال ٥ بر مبناي اطلاعات زير طرح شده است:
براي ٥٠٠ نفر که مشکوک به مشکلات شنوايي بودند و مسجل شد که ٣٠٠ نفر از آنها اين مشکلات را دارنديک معاينه فيزيکي و يک تست شنوايي سنجي  انجام  شد.
نتايج بدست آمده در جداول زير آمده است:

٥- در مقايسه با معاينه فيزيکي ، تست شنوايي سنجي :
a-  داراي حساسيت و ويژگي برابر است
b- داراي  حساسيت و ويژگي کمتر است
c- داراي  حساسيت کمتر و ويژگي بيشتر است
d- داراي حساسيت بيشترو ويژگي کمتر است
e- داراي حساسيت و ويژگي بيشتر است
سئوال ٦ بر مبناي داده هاي زير طرح شده است:
دو پزشک متخصص اطفال مي خواهند يک تست آزمايشگاهي جديد را امتحان کنند که عفونتهاي استرپتوکوکي را تشخيص مي دهد. دکتر کيد (DR. Kidd ) از روش کشت استاندارداستفاده مي کندکه حساسيتي برابر با %٩٠ و ويژگي معادل % ٩٦دارد. دکتر چايلدز (DR. Childs ) از آزمون جديد استفاده مي کند که حساسيتي برابر با %٩٦ و ويژگي معادل %٩٦ دارد.
٦- اگر ٢٠٠ بيمار به کشت با هردو روش تن در دهند کداميک از موارد زير صحيح است؟
a- دکتر کيد بدرستي تعداد بيشتري از بيمار مبتلا به عفونت استرپتوکوکي را نسبت به دکتر چايلدز شناسائي مي کند
b- دکتر کيدبدرستي تعداد کمتري بيمار مبتلا به عفونت استرپتوکوکي را نسبت به دکتر چايلدز شناسائي مي کند. 
c- دکتر کيد بدرستي تعداد بيشتري از افراد فاقد عفونت استرپتوکوکي را نسبت به دکتر چايلدز شناسائي مي کند.
d- شيوع عفونت استرپتوکوکي جهت تعيين اينکه کدام متخصص اطفال بدرستي تعداد بيشتري از بيماران مبتلا به عفونت استرپتوکوکي را شناسائي مي کند لازم است.
سئوالات زير بر مبناي اطلاعات زير طرح شده است:
يک مطالعه غربالگري سرطان کولون در ناتينگهام انگليس در جريان است. در اين راستا افراد ٥٠ تا ٧٥ ساله تحت آزمايش خون مخفي مدفوع (Hemoccult) قرار مي گيرند، در اين آزمايش نمونه اي از مدفوع را از نظروجود خون در آن  بررسي مي کنند.
٧- تست خون مخفي حساسيتي معادل %٧٠ و ويژگي  برابربا  %٧٥ دارد. اگر شهر ناتينگهام از نظر سرطان کولون شيوع ١٠٠٠/١٢ داشته باشد ارزش پيش آگهي مثبت برابر است با:
٨- در صورتيکه تست خون مخفي مدفوع منفي باشد، آزمايش ديگري انجام نمي شود.اما اگر مثبت باشد فرد نمونه مدفوع دوم را جهت آزمايش خون مخفي مي دهد. اگر آزمايش دوم هم مثبت باشدوي را جهت بررسي هاي بيشتر و دقيقتر ارجاع مي دهند. تاثير اين روش غربالگري روي حساسيت خالص و ويژگي خالص عبارتست از:
a- حساسيت و ويژگي خالص هر دو افزايش مي يابد
b- حساسيت خالص کاهش و ويژگي خالص افزايش مي يابد
c- حساسيت خالص ثابت مي ماند و ويژگي خالص افزايش مي يابد
d- حساسيت خالص افزايش يافته و ويژگي خالص کاهش مي يابد
e- تاثير روي حساسيت و ويژگي خالص را با توجه به اطلاعات داده شده نمي توان تعيين کرد.
سئوالات ٩ تا ١٢ بر اساس اطلاعات زيرطرح شده است:
از دو پزشک بطور جداگانه در خواست شد تا١٠٠ کليشه  راديوگرافي قفسه سينه (CXR ) را در غالب طبيعي و غير طبيعي شناسائي کنند، نتيجه مقايسه آنها در جدول زير نشان داده شده است:

٩- در صد توافق کلي دو پزشک از کل موارد برابراست با
١٠- در صد توافق کلي دو پزشک صرفنظر از کليشه هائي که هر دو طبيعي تشخيص دادند برابر است با
١١- ارزش کاپا برابر است با
١٢- اين ميزان کاپا مويد چه نوع توافقي است؟
a- عالي   
b- متوسط مايل به خوب
c- ضعيف