Khám phá sơ bộ phân tích sống còn sử dụng mô hình dữ liệu chung OHDSI: một nghiên cứu trường hợp về ung thư đường mật trong gan

BMC Medical Informatics and Decision Making - Tập 18 - Trang 81-88 - 2018
Na Hong1, Ning Zhang2, Huawei Wu3, Shanshan Lu4, Yue Yu1, Li Hou5, Yinying Lu4, Hongfang Liu1, Guoqian Jiang1
1Department of Health Sciences Research, Mayo Clinic, Rochester, USA
2Integrated TCM & Western Medicine Department, 302 Military Hospital, Beijing, China
3Chengdu Library and Information Center, University of Chinese Academy of Sciences, Chengdu, China
4Comprehensive Liver Cancer Center, 302 Military Hospital, Beijing, China
5Institute of Medical Information, Chinese Academy of Medical Sciences, Beijing, China

Tóm tắt

Sự không đồng nhất dữ liệu là một hiện tượng phổ biến liên quan đến việc sử dụng thứ cấp dữ liệu hồ sơ sức khỏe điện tử (EHR) từ các nguồn khác nhau. Mô hình dữ liệu chung (CDM) của Khoa học Dữ liệu Y tế Quan sát và Tin học (OHDSI) tổ chức dữ liệu chăm sóc sức khỏe thành các cấu trúc dữ liệu tiêu chuẩn bằng cách sử dụng các khái niệm được chỉ định rõ ràng và chính thức thông qua các từ vựng tiêu chuẩn, từ đó tạo điều kiện cho việc phân tích quy mô lớn. Mục tiêu của nghiên cứu này là thiết kế, phát triển, và đánh giá các quy trình phân tích sống còn tổng quát được xây dựng dựa trên CDM của OHDSI. Chúng tôi đã sử dụng dữ liệu bệnh nhân ung thư đường mật trong gan (ICC) để triển khai các phương pháp phân tích sống còn dựa trên CDM. Các phương pháp của chúng tôi bao gồm các mô-đun sau: 1) Đối chiếu các thuật ngữ địa phương với các khái niệm tiêu chuẩn của OHDSI. Biểu thức phân tích các biến và giá trị liên quan đến đặc điểm nhân khẩu học, lịch sử y tế, tình trạng hút thuốc, kết quả xét nghiệm, và dữ liệu đặc điểm khối u. Những dữ liệu này đã được đối chiếu với các khái niệm tiêu chuẩn của OHDSI thông qua phân tích thủ công; 2) Tải dữ liệu bệnh nhân vào CDM bằng cách sử dụng các đối chiếu khái niệm; 3) Phát triển một giao diện R hỗ trợ phân tích sống còn có thể sử dụng trên nền tảng CDM của OHDSI, và so sánh kết quả phân tích dựa trên CDM với những kết quả sử dụng các phương pháp phân tích thống kê truyền thống. Tập dữ liệu của chúng tôi chứa 346 bệnh nhân được chẩn đoán mắc ICC. Dữ liệu lâm sàng thu thập được có 115 biến, trong đó 75 biến đã được đối chiếu với các khái niệm của OHDSI. Những khái niệm này chủ yếu thuộc bốn lĩnh vực: tình trạng, quan sát, đo lường, và quy trình. Các khái niệm tiêu chuẩn tương ứng nằm rải rác trong sáu từ vựng: ICD10CM, ICD10PCS, SNOMED, LOINC, NDFRT, và READ. Chúng tôi đã tải tổng cộng 25,950 bản ghi dữ liệu bệnh nhân vào cơ sở dữ liệu CDM của OHDSI. Tuy nhiên, 40 biến không thể được đối chiếu với CDM của OHDSI vì chúng chủ yếu thuộc về dữ liệu hình ảnh và dữ liệu bệnh lý. Nghiên cứu của chúng tôi chứng minh rằng việc thực hiện phân tích sống còn sử dụng CDM của OHDSI là khả thi và có thể tạo ra các quy trình phân tích tái sử dụng. Tuy nhiên, các thách thức cần được vượt qua bao gồm 1) mất mát ngữ nghĩa do đối chiếu không chính xác và chuẩn hóa giá trị; 2) các từ vựng OHDSI không đầy đủ mô tả dữ liệu hình ảnh, dữ liệu bệnh lý và đại diện dữ liệu module.

Từ khóa

#dữ liệu không đồng nhất #hồ sơ sức khỏe điện tử #mô hình dữ liệu chung #phân tích sống còn #ung thư đường mật trong gan

Tài liệu tham khảo

Lu CL, Wang S, Ji Z, Wu Y, Xiong L, Jiang X, Ohno-Machado L. WebDISCO: a web service for distributed cox model learning without patient-level data sharing. J. Am. Med. Inform. Assoc. 2015;22(6):1212–9. Adams TD, Davidson LE, Litwin SE, Kim J, Kolotkin RL, Nanjee MN, Gutierrez JM, Frogley SJ, Ibele AR, Brinton EA, et al. Weight and metabolic outcomes 12 years after gastric bypass. N Engl J Med. 2017;377(12):1143–55. Ruzic M, Pellicano R, Fabri M, Luzza F, Boccuto L, Brkic S, Abenavoli L. Hepatitis C virus-induced hepatocellular carcinoma: a narrative review. Panminerva Med. 2018. Nahon P, Layese R, Bourcier V, Cagnot C, Marcellin P, Guyader D, Pol S, Larrey D, De Ledinghen V, Ouzan D, et al. Incidence of hepatocellular carcinoma after direct antiviral therapy for HCV in patients with cirrhosis included in surveillance programs. Gastroenterology. 2018. Finkelmeier F, Dultz G, Peiffer KH, Kronenberger B, Krauss F, Zeuzem S, Sarrazin C, Vermehren J, Waidmann O. Risk of de novo hepatocellular carcinoma after HCV treatment with direct-acting antivirals. Liver Cancer. 2018;7(2):190–204. Calvaruso V, Cabibbo G, Cacciola I, Petta S, Madonia S, Bellia A, Tine F, Distefano M, Licata A, Giannitrapani L, et al. Incidence of hepatocellular carcinoma in patients with HCV-associated cirrhosis treated with direct-acting antiviral agents. Gastroenterology. 2018;155(2):411–21. Abou-Alfa GK, Meyer T, Cheng AL, El-Khoueiry AB, Rimassa L, Ryoo BY, Cicin I, Merle P, Chen Y, Park JW, et al. Cabozantinib in patients with advanced and progressing hepatocellular carcinoma. N Engl J Med. 2018;379(1):54–63. Martin-Sanchez FJ, Aguiar-Pulido V, Lopez-Campos GH, Peek N, Sacchi L. Secondary use and analysis of big data collected for patient care. Yearbook of medical informatics. 2017;26(1):28–37. Hripcsak G, Duke JD, Shah NH, Reich CG, Huser V, Schuemie MJ, Suchard MA, Park RW, Wong IC, Rijnbeek PR, et al. Observational health data sciences and informatics (OHDSI): opportunities for observational researchers. Stud Health Technol Inform. 2015;216:574–8. Waitman LR, Aaronson LS, Nadkarni PM, Connolly DW, Campbell JR. The Greater Plains collaborative: a PCORnet clinical research data network. J. Am. Med. Inform. Assoc. 2014;21(4):637–41. Hong N, Li Z, Kiefer RC, Robertson MS, Goode EL, Wang C, Jiang G. Building an i2b2-based integrated data repository for Cancer research: a case study of ovarian Cancer registry. In: VLDB workshop on data management and analytics for medicine and healthcare. Cham: Springer; 2016. p. 121–35. Vashisht R, Jung K, Shah N. Learning effective treatment pathways for Type-2 diabetes from a clinical data warehouse. AMIA Annu Symp Proc. 2016;2016:2036–42. Hripcsak G, Ryan PB, Duke JD, Shah NH, Park RW, Huser V, Suchard MA, Schuemie MJ, DeFalco FJ, Perotte A, et al. Characterizing treatment pathways at scale using the OHDSI network. Proc Natl Acad Sci U S A. 2016;113(27):7329–36. Buuren SV, Groothuis-Oudshoorn K. Mice: multivariate imputation by chained equations in R. J Stat Softw. 2011;451–68. Shah AD, Bartlett JW, Carpenter J, Nicholas O, Hemingway H. Comparison of random forest and parametric imputation models for imputing missing data using MICE: a CALIBER study. Am J Epidemiol. 2014;179(6):764–74. Goel MK, Khanna P, Kishore J. Understanding survival analysis: Kaplan-Meier estimate. Int J Ayurveda Res. 2010;1(4):274–8.