Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Thuật toán đối sánh văn bản tự do: Chương trình máy tính trích xuất chẩn đoán và nguyên nhân tử vong từ văn bản không có cấu trúc trong hồ sơ sức khỏe điện tử
Tóm tắt
Hồ sơ sức khỏe điện tử là nguồn thông tin quý giá cho nghiên cứu y học, nhưng nhiều thông tin thường được lưu trữ dưới dạng văn bản tự do thay vì dạng mã hóa. Ví dụ, trong Cơ sở dữ liệu Nghiên cứu Thực hành Tổng quát của Vương quốc Anh (GPRD), nguyên nhân tử vong và kết quả xét nghiệm đôi khi chỉ được ghi nhận dưới dạng văn bản tự do. Văn bản tự do có thể gặp khó khăn trong nghiên cứu nếu cần đến việc xem xét thủ công mất nhiều thời gian. Mục tiêu của chúng tôi là phát triển phương pháp tự động để trích xuất thông tin mã hóa từ văn bản tự do trong hồ sơ điện tử của bệnh nhân. Chúng tôi đã xem xét hồ sơ điện tử của 3310 bệnh nhân trong GPRD qua đời năm 2001, để xác định nguyên nhân tử vong. Chúng tôi phát triển một chương trình máy tính gọi là Thuật toán Đối Sánh Văn Bản Tự Do (FMA) để ánh xạ chẩn đoán trong văn bản sang Thuật Ngữ Lâm Sàng Read. Chương trình sử dụng bảng tra cứu từ đồng nghĩa và mẫu câu để xác định chẩn đoán, ngày tháng và các kết quả xét nghiệm được chọn. Chúng tôi đã kiểm tra nó trên hai mẫu ngẫu nhiên của văn bản tự do từ GPRD (1000 văn bản liên quan đến tử vong trong năm 2001, và 1000 văn bản chung từ các trường hợp bệnh mạch vành trong nghiên cứu), so sánh đầu ra với chương trình MetaMap của Thư viện Y học Quốc gia Hoa Kỳ và chuẩn vàng của xem xét thủ công. Trong số 3310 bệnh nhân trong GPRD qua đời năm 2001, nguyên nhân tử vong được ghi nhận dưới dạng mã hóa ở 38,1% bệnh nhân, và chỉ trong văn bản tự do ở 19,4%. Trên 1000 văn bản liên quan đến tử vong, FMA mã hóa 683 trong số 735 chẩn đoán dương tính, với độ chính xác (giá trị dự đoán dương tính) 98,4% (khoảng tin cậy 95% (CI) 97,2, 99,2) và hồi tưởng (độ nhạy) 92,9% (CI 95% 90,8, 94,7). Trên mẫu tổng quát, FMA phát hiện 346 trong số 447 chẩn đoán dương tính, với độ chính xác 91,5% (CI 95% 88,3, 94,1) và hồi tưởng 77,4% (CI 95% 73,2, 81,2), tương đối giống MetaMap. Chúng tôi đã phát triển một thuật toán để trích xuất thông tin mã hóa từ văn bản tự do trong hồ sơ GP với độ chính xác tốt. Nó có thể hỗ trợ nghiên cứu sử dụng văn bản tự do trong hồ sơ điện tử của bệnh nhân, đặc biệt để trích xuất nguyên nhân tử vong.
Từ khóa
#hồ sơ sức khỏe điện tử #văn bản tự do #thuật toán đối sánh văn bản tự do #nguyên nhân tử vong #thuật ngữ lâm sàng Read #MetaMap #mã hóa thông tin #chẩn đoán #hồi tưởng #độ chính xácTài liệu tham khảo
Wang Z, Shah AD, Tate AR, Denaxas S, Shawe-Taylor J, Hemingway H: Extracting diagnoses and investigation results from unstructured text in electronic health records by semi-supervised machine learning. PLoS One. 2012, 7: e30412-10.1371/journal.pone.0030412.
Tate AR, Martin AGR, Ali A, Cassell JA: Using free text information to explore how and when GPs code a diagnosis of ovarian cancer: an observational study using primary care records of patients with ovarian cancer. BMJ Open. 2011, 1: e000025-10.1136/bmjopen-2010-000025.
Pakhomov S, Hemingway H, Weston S, Jacobsen S, Rodeheffer R, Roger V: Epidemiology of Angina Pectoris: Role of Natural Language Processing of the Medical Record. Am Heart J. 2007, 153 (4): 666-673. 10.1016/j.ahj.2006.12.022.
Pakhomov S, Buntrock J, Chute CG: Prospective recruitment of patients with congestive heart failure using an ad-hoc binary classifier. J Biomed Informatics. 2005, 38 (2): 145-153. 10.1016/j.jbi.2004.11.016.
Savova GK, Ogren PV, Duffy PH, Buntrock JD, Chute CG: Mayo clinic NLP system for patient smoking status identification. J Am Med Inform Assoc. 2008, 15: 25-28.
Uzuner O, Goldstein I, Luo Y, Kohane I: Identifying Patient Smoking Status from Medical Discharge Records. J Am Med Inform Assoc. 2008, 15: 14-24.
Clark C, Good K, Jeziernyb L, Macpherson M, Wilsonb B, Chajewska U: Identifying Smokers with a Medical Extraction System. J Am Med Inform Assoc. 2008, 15: 36-39.
Pakhomov S, Weston SA, Jacobsen SJ, Chute CG, Meverden R, Roger VL: Electronic medical records for clinical research: application to the identification of heart failure. Am J Manag Care. 2007, 13 (6 Part 1): 281-288.
Melton GB, Raman N, Chen ES, Sarkar IN, Pakhomov S, Madoff RD: Evaluation of family history information within clinical documents and adequacy of HL7 clinical statement and clinical genomics family history models for its representation: a case report. J Am Med Inform Assoc. 2010, 17 (3): 337-340.
Pakhomov S, Shah N, Hanson P, Balasubramaniam S, Smith SA: Automatic quality of life prediction using electronic medical records. AMIA Annu Symp Proc. 2008, 2008: 545-549.
Friedman C, Shagina L, Lussier Y, Hripcsak G: Automated encoding of clinical documents based on natural language processing. J Am Med Inform Assoc. 2004, 11 (5): 392-402. 10.1197/jamia.M1552.
Aronson A: MetaMap. 2011, National Library of Medicine, U.S.
Meystre S, Savova G, Kipper-Schuler K, Hurdle J: Extracting Information from Textual Documents in the Electronic Health Record: a Review of Recent Research. Methods Inf Med. 2008, 47 (Suppl 1): 128-144.
Herrett E, Thomas SL, Schoonen WM, Smeeth L, Hall AJ: Validation and validity of diagnoses in the General Practice Research Database: a systematic review. Br J Clin Pharmacol. 2010, 69: 4-14. 10.1111/j.1365-2125.2009.03537.x.
Khan N, Harrison S, Rose P: Validity of diagnostic coding within the General Practice Research Database: a systematic review. Br J Gen Pract. 2010, 60 (572): e128—36-
NHS Information Centre: The Read Codes. 2011, [http://www.connectingforhealth.nhs.uk/systemsandservices/data/uktc/readcodes]
Department of Health Royal College of General Practitioners British Medical Association: The Good Practice Guidelines for GP electronic patient records. 2011
Shah AD, Martinez C: An algorithm to derive a numerical daily dose from unstructured text dosage instructions. Pharmacoepidemiol Drug Saf. 2006, 15 (3): 161-166. 10.1002/pds.1151.
Hall GC: Validation of death and suicide recording on the THIN UK primary care database. Pharmacoepidemiol Drug Saf. 2009, 18 (2): 120-131. 10.1002/pds.1686.
Friedman C, Johnson SB, Forman B, Starren J: Architectural requirements for a multipurpose natural language processor in the clinical environment. Proc Annu Symp Comput Appl Med Care. 1995, 1995: 347-351.
US National Library of Medicine: Unified Medical Language System. 2011, National Institutes of Health, [https://uts.nlm.nih.gov//home.html]
Clinical Practice Research Datalink. [http://www.cprd.com/home/]
Beale A: The 12dicts word lists. 2003, [http://wordlist.sourceforge.net/12dicts-readme.html]
World Health Organization: International statistical classification of diseases and health related problems : 10th revision, Volume 2. World Health Organization, Geneva
Chapman WW, Bridewell W, Hanbury P, Cooper GF, Buchanan BG: A Simple Algorithm for Identifying Negated Findings and Diseases in Discharge Summaries. J Biomed Inform. 2001, 34 (5): 301-310. 10.1006/jbin.2001.1029.
Rogers W, Lang FM, Gay C: MetaMap Data File Builder. 2012, National Library of Medicine, U.S
Lang FM, Aronson A: Filtering the UMLS Metathesaurus for MetaMap. 2010, National Library of Medicine, U.S
Chapman W: Negex Test Set. 2009, [http://code.google.com/p/negex/wiki/TestSet]
Kalra D, Fernando B: Approaches to enhancing the validity of coded data in electronic medical records. Prim Care Respir J. 2011, 20: 4-5. 10.4104/pcrj.2010.00078.
Byrne E, Fernando B, Kalra D, Sheikh A: The benefits and risks of structuring and coding of patient histories in the electronic clinical record: protocol for a systematic review. Inform Prim Care. 2010, 18 (3): 197-203.
Shah AD, Wood DM, Dargan PI: Survey of ICD-10 coding of hospital admissions in the UK due to recreational drug toxicity. QJM. 2011, 104 (9): 779-784. 10.1093/qjmed/hcr074.
The pre-publication history for this paper can be accessed here:http://www.biomedcentral.com/1472-6947/12/88/prepub