Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Khám phá sơ bộ phân tích sống còn sử dụng mô hình dữ liệu chung OHDSI: một nghiên cứu trường hợp về ung thư đường mật trong gan
Tóm tắt
Sự không đồng nhất dữ liệu là một hiện tượng phổ biến liên quan đến việc sử dụng thứ cấp dữ liệu hồ sơ sức khỏe điện tử (EHR) từ các nguồn khác nhau. Mô hình dữ liệu chung (CDM) của Khoa học Dữ liệu Y tế Quan sát và Tin học (OHDSI) tổ chức dữ liệu chăm sóc sức khỏe thành các cấu trúc dữ liệu tiêu chuẩn bằng cách sử dụng các khái niệm được chỉ định rõ ràng và chính thức thông qua các từ vựng tiêu chuẩn, từ đó tạo điều kiện cho việc phân tích quy mô lớn. Mục tiêu của nghiên cứu này là thiết kế, phát triển, và đánh giá các quy trình phân tích sống còn tổng quát được xây dựng dựa trên CDM của OHDSI. Chúng tôi đã sử dụng dữ liệu bệnh nhân ung thư đường mật trong gan (ICC) để triển khai các phương pháp phân tích sống còn dựa trên CDM. Các phương pháp của chúng tôi bao gồm các mô-đun sau: 1) Đối chiếu các thuật ngữ địa phương với các khái niệm tiêu chuẩn của OHDSI. Biểu thức phân tích các biến và giá trị liên quan đến đặc điểm nhân khẩu học, lịch sử y tế, tình trạng hút thuốc, kết quả xét nghiệm, và dữ liệu đặc điểm khối u. Những dữ liệu này đã được đối chiếu với các khái niệm tiêu chuẩn của OHDSI thông qua phân tích thủ công; 2) Tải dữ liệu bệnh nhân vào CDM bằng cách sử dụng các đối chiếu khái niệm; 3) Phát triển một giao diện R hỗ trợ phân tích sống còn có thể sử dụng trên nền tảng CDM của OHDSI, và so sánh kết quả phân tích dựa trên CDM với những kết quả sử dụng các phương pháp phân tích thống kê truyền thống. Tập dữ liệu của chúng tôi chứa 346 bệnh nhân được chẩn đoán mắc ICC. Dữ liệu lâm sàng thu thập được có 115 biến, trong đó 75 biến đã được đối chiếu với các khái niệm của OHDSI. Những khái niệm này chủ yếu thuộc bốn lĩnh vực: tình trạng, quan sát, đo lường, và quy trình. Các khái niệm tiêu chuẩn tương ứng nằm rải rác trong sáu từ vựng: ICD10CM, ICD10PCS, SNOMED, LOINC, NDFRT, và READ. Chúng tôi đã tải tổng cộng 25,950 bản ghi dữ liệu bệnh nhân vào cơ sở dữ liệu CDM của OHDSI. Tuy nhiên, 40 biến không thể được đối chiếu với CDM của OHDSI vì chúng chủ yếu thuộc về dữ liệu hình ảnh và dữ liệu bệnh lý. Nghiên cứu của chúng tôi chứng minh rằng việc thực hiện phân tích sống còn sử dụng CDM của OHDSI là khả thi và có thể tạo ra các quy trình phân tích tái sử dụng. Tuy nhiên, các thách thức cần được vượt qua bao gồm 1) mất mát ngữ nghĩa do đối chiếu không chính xác và chuẩn hóa giá trị; 2) các từ vựng OHDSI không đầy đủ mô tả dữ liệu hình ảnh, dữ liệu bệnh lý và đại diện dữ liệu module.
Từ khóa
#dữ liệu không đồng nhất #hồ sơ sức khỏe điện tử #mô hình dữ liệu chung #phân tích sống còn #ung thư đường mật trong ganTài liệu tham khảo
Lu CL, Wang S, Ji Z, Wu Y, Xiong L, Jiang X, Ohno-Machado L. WebDISCO: a web service for distributed cox model learning without patient-level data sharing. J. Am. Med. Inform. Assoc. 2015;22(6):1212–9.
Adams TD, Davidson LE, Litwin SE, Kim J, Kolotkin RL, Nanjee MN, Gutierrez JM, Frogley SJ, Ibele AR, Brinton EA, et al. Weight and metabolic outcomes 12 years after gastric bypass. N Engl J Med. 2017;377(12):1143–55.
Ruzic M, Pellicano R, Fabri M, Luzza F, Boccuto L, Brkic S, Abenavoli L. Hepatitis C virus-induced hepatocellular carcinoma: a narrative review. Panminerva Med. 2018.
Nahon P, Layese R, Bourcier V, Cagnot C, Marcellin P, Guyader D, Pol S, Larrey D, De Ledinghen V, Ouzan D, et al. Incidence of hepatocellular carcinoma after direct antiviral therapy for HCV in patients with cirrhosis included in surveillance programs. Gastroenterology. 2018.
Finkelmeier F, Dultz G, Peiffer KH, Kronenberger B, Krauss F, Zeuzem S, Sarrazin C, Vermehren J, Waidmann O. Risk of de novo hepatocellular carcinoma after HCV treatment with direct-acting antivirals. Liver Cancer. 2018;7(2):190–204.
Calvaruso V, Cabibbo G, Cacciola I, Petta S, Madonia S, Bellia A, Tine F, Distefano M, Licata A, Giannitrapani L, et al. Incidence of hepatocellular carcinoma in patients with HCV-associated cirrhosis treated with direct-acting antiviral agents. Gastroenterology. 2018;155(2):411–21.
Abou-Alfa GK, Meyer T, Cheng AL, El-Khoueiry AB, Rimassa L, Ryoo BY, Cicin I, Merle P, Chen Y, Park JW, et al. Cabozantinib in patients with advanced and progressing hepatocellular carcinoma. N Engl J Med. 2018;379(1):54–63.
Martin-Sanchez FJ, Aguiar-Pulido V, Lopez-Campos GH, Peek N, Sacchi L. Secondary use and analysis of big data collected for patient care. Yearbook of medical informatics. 2017;26(1):28–37.
Hripcsak G, Duke JD, Shah NH, Reich CG, Huser V, Schuemie MJ, Suchard MA, Park RW, Wong IC, Rijnbeek PR, et al. Observational health data sciences and informatics (OHDSI): opportunities for observational researchers. Stud Health Technol Inform. 2015;216:574–8.
Waitman LR, Aaronson LS, Nadkarni PM, Connolly DW, Campbell JR. The Greater Plains collaborative: a PCORnet clinical research data network. J. Am. Med. Inform. Assoc. 2014;21(4):637–41.
Hong N, Li Z, Kiefer RC, Robertson MS, Goode EL, Wang C, Jiang G. Building an i2b2-based integrated data repository for Cancer research: a case study of ovarian Cancer registry. In: VLDB workshop on data management and analytics for medicine and healthcare. Cham: Springer; 2016. p. 121–35.
Vashisht R, Jung K, Shah N. Learning effective treatment pathways for Type-2 diabetes from a clinical data warehouse. AMIA Annu Symp Proc. 2016;2016:2036–42.
Hripcsak G, Ryan PB, Duke JD, Shah NH, Park RW, Huser V, Suchard MA, Schuemie MJ, DeFalco FJ, Perotte A, et al. Characterizing treatment pathways at scale using the OHDSI network. Proc Natl Acad Sci U S A. 2016;113(27):7329–36.
Buuren SV, Groothuis-Oudshoorn K. Mice: multivariate imputation by chained equations in R. J Stat Softw. 2011;451–68.
Shah AD, Bartlett JW, Carpenter J, Nicholas O, Hemingway H. Comparison of random forest and parametric imputation models for imputing missing data using MICE: a CALIBER study. Am J Epidemiol. 2014;179(6):764–74.
Goel MK, Khanna P, Kishore J. Understanding survival analysis: Kaplan-Meier estimate. Int J Ayurveda Res. 2010;1(4):274–8.
