Doro Tahir, Berita Kesehatan KFF
Tugas ahli onkologi adalah mempersiapkan pasien kanker untuk mengambil keputusan sulit. Namun, mereka tidak selalu mengingat hal ini. Di Sistem Kesehatan Universitas Pennsylvania, para dokter didorong untuk berbicara tentang perawatan pasien dan manfaat akhir hayat dengan algoritma kecerdasan buatan yang memprediksi kemungkinan kematian.
Tapi ini jauh dari alat set-it-and-forget-it. Pemeriksaan teknis rutin menemukan algoritme yang rusak selama pandemi Covid-19 dan menghasilkan 7 persen lebih buruk dalam memprediksi siapa yang akan meninggal, menurut sebuah penelitian pada tahun 2022.
Mungkin ada implikasinya dalam kehidupan nyata. Ahli onkologi Universitas Emory Ravi Parikh, penulis utama studi tersebut, mengatakan kepada KFF Health News bahwa alat tersebut telah gagal ratusan kali dalam mendorong dokter untuk memulai diskusi penting ini dengan pasien yang mungkin memerlukan kemoterapi yang tidak perlu.
Menurutnya, tidak hanya Penn Medicine, tetapi beberapa algoritma yang dirancang untuk meningkatkan pelayanan medis melemah selama pandemi. “Banyak institusi yang tidak memantau kinerja produknya secara berkala,” kata Parikh.
Gangguan algoritma adalah salah satu aspek dari dilema yang telah lama diketahui oleh para ilmuwan komputer dan dokter, namun membingungkan para pemimpin rumah sakit dan peneliti: sistem AI memerlukan pemantauan dan penempatan staf yang konstan agar dapat berfungsi dengan baik.
Intinya: Anda memerlukan manusia dan lebih banyak mesin untuk memastikan peralatan baru tidak menimbulkan kekacauan.
“Semua orang mengira AI akan membantu kita meningkatkan akses dan keterjangkauan, meningkatkan layanan, dan sebagainya,” kata Nigam Shah, kepala ilmuwan data di Stanford Health Care. “Itu semua baik-baik saja, tapi jika hal ini meningkatkan biaya perawatan sebesar 20%, apakah hal ini dapat dilakukan?”
Pejabat pemerintah khawatir bahwa rumah sakit kekurangan sumber daya untuk menggunakan teknologi ini sesuai kemampuan mereka. “Saya melihat jauh dan luas,” kata Komisaris FDA Robert Califf pada panel agensi mengenai AI baru-baru ini. “Saya tidak percaya ada satu sistem layanan kesehatan di Amerika yang dapat memvalidasi algoritma AI yang tertanam dalam sistem layanan klinis.”
AI sudah tersebar luas di bidang kesehatan. Algoritma digunakan untuk memprediksi risiko kematian atau kemunduran pasien, mendiagnosis atau melakukan triase pasien, mencatat dan meringkas kunjungan untuk menyibukkan dokter, dan menyetujui klaim asuransi.
Jika para penginjil teknologi benar, teknologi akan ada dimana-mana dan berguna. Perusahaan investasi Bessemer Venture Partners menemukan bahwa sekitar 20 startup kecerdasan buatan yang berfokus pada layanan kesehatan masing-masing menargetkan pendapatan $10 juta per tahun. FDA telah menyetujui hampir seribu produk kecerdasan buatan.
Sulit untuk mengevaluasi kinerja produk-produk ini. Lebih sulit lagi untuk menilai apakah mereka akan terus bekerja atau mengembangkan perangkat lunak yang terlihat seperti paking bocor atau mesin bocor.
Ambil contoh penelitian terbaru di Yale Medicine yang mengevaluasi enam “sistem peringatan dini” yang mengingatkan dokter ketika kondisi pasien mungkin memburuk dengan cepat. Superkomputer menjalankan data selama beberapa hari, kata Dana Edelson, seorang dokter di Universitas Chicago dan salah satu pendiri perusahaan yang menyediakan satu algoritma untuk penelitian tersebut. Prosesnya efektif dan menunjukkan perbedaan kinerja yang besar di antara keenam produk tersebut.
Tidak mudah bagi rumah sakit dan penyedia layanan untuk memilih algoritma terbaik untuk kebutuhan mereka. Rata-rata dokter tidak memiliki superkomputer dan tidak memiliki Consumer Reports untuk AI.
“Kami tidak memiliki standar,” kata Jesse Ehrenfeld, yang pernah menjabat sebagai presiden American Medical Association. “Saya tidak dapat menunjukkan kepada Anda apa pun yang merupakan standar saat ini ketika Anda akan mengevaluasi model algoritme, bagaimana Anda akan mengamatinya, cara kerjanya, apakah AI diaktifkan atau tidak.”
Produk AI yang paling umum di kantor dokter disebut dokumentasi ambien, asisten berbasis teknologi yang mendengarkan dan merangkum kunjungan pasien. Tahun lalu, investor Rock Health menyaksikan $353 juta mengalir ke perusahaan dokumen ini. Namun, Ehrenfeld berkata, “Saat ini tidak ada standar yang dapat digunakan untuk membandingkan hasil dari alat-alat ini.”
Dan itu masalahnya, kesalahan kecil sekalipun bisa berakibat fatal. Tim Universitas Stanford mencoba menggunakan model bahasa besar—teknologi yang didasarkan pada alat kecerdasan buatan populer seperti ChatGPT—untuk merangkum riwayat kesehatan pasien. Mereka membandingkan hasilnya dengan resep dokter.
“Bahkan dalam kondisi terbaiknya, model tersebut memiliki tingkat kesalahan sebesar 35%,” kata Shah dari Stanford. Dalam kedokteran, “ketika Anda sedang menulis ringkasan dan Anda lupa kata seperti ‘demam’ – itu masalah, bukan?”
Terkadang alasan kegagalan algoritma cukup logis. Misalnya saja, perubahan data penting, seperti saat rumah sakit mengganti penyedia laboratorium, dapat mengurangi efisiensinya.
Namun, terkadang jebakan terbuka tanpa alasan.
Sandy Aronson, direktur teknis program pengobatan yang dipersonalisasi di Brigham General Brigham di Boston, Mass., mengatakan bahwa ketika timnya menguji satu program untuk membantu konselor genetik menemukan literatur yang relevan tentang varian DNA, produk tersebut menderita “nondeterminisme”, yang berarti sama. hal itu ditanyakan. menanyakan pertanyaan tersebut beberapa kali dalam waktu singkat, memberikan hasil yang berbeda-beda.
Aronson sangat antusias dengan potensi model bahasa besar untuk menggeneralisasi pengetahuan bagi konselor genetika yang bekerja terlalu keras, namun “teknologinya perlu ditingkatkan.”
Apa yang harus dilakukan institusi jika metrik dan standarnya jarang dan kesalahan dapat terjadi karena alasan yang aneh? Investasikan banyak sumber daya. Di Stanford, kata Shah, dibutuhkan delapan hingga 10 bulan dan 115 jam kerja untuk menguji keadilan dan keandalan kedua model tersebut.
Para ahli yang berbicara dengan KFF Health News mengemukakan gagasan AI yang melacak AI, dengan beberapa data (manusia) yang melacak keduanya. Semua pihak mengakui bahwa hal ini mengharuskan organisasi untuk mengeluarkan dana lebih banyak – sebuah tantangan yang sulit mengingat kenyataan anggaran rumah sakit dan terbatasnya pasokan ahli teknologi AI.
“Sungguh menakjubkan membayangkan kita mencairkan gunung es sehingga kita memiliki model yang dapat melacak model tersebut,” kata Shah. “Tetapi apakah saya benar-benar menginginkan hal itu? Berapa banyak lagi orang yang kita perlukan?”
Berita kesehatan KFF adalah ruang redaksi nasional yang memproduksi jurnalisme mendalam mengenai isu-isu kesehatan, dan salah satu program operasi inti KFF adalah sumber independen penelitian kebijakan kesehatan, jajak pendapat, dan jurnalisme. pelajari lebih lanjut tentang KFF.
©2025 Berita Kesehatan KFF. Didistribusikan oleh Tribune Content Agency, LLC.