Gene-CWGAN: một phương pháp tăng cường dữ liệu cho hồ sơ biểu hiện gen dựa trên CWGAN-GP cải tiến

Neural Computing and Applications - Tập 34 - Trang 16325-16339 - 2022
Fei Han1,2, Shaojun Zhu1,2, Qinghua Ling3, Henry Han4, Hailong Li1, Xinli Guo1, Jiechuan Cao1
1School of Computer Science and Communication Engineering, Jiangsu University, Zhenjiang, China
2Jiangsu key Laboratory of Security Technology for industrial Cyberspace, Jiangsu University, Zhenjiang, China
3School of Computer Science, Jiangsu University of Science and Technology, Zhenjiang, China
4School of Engineering and Computer Science, Baylor University, Waco, USA

Tóm tắt

Các phương pháp học máy truyền thống khó đạt được hiệu suất tốt trong việc phân loại dữ liệu biểu hiện gen do đặc điểm của nó là kích thước cao và kích thước mẫu nhỏ. Là một công nghệ tăng cường dữ liệu, mạng đối kháng sinh điều kiện Wasserstein dựa trên hình phạt gradient (CWGAN-GP) có tính phổ quát mạnh mẽ và có thể tạo ra các mẫu chất lượng cao với nhãn xác định, điều này đã được chứng minh là cải thiện hiệu suất của các mô hình phân loại. Tuy nhiên, các mẫu được tạo ra bởi CWGAN-GP có tính đa dạng mẫu thấp và độ không chắc chắn về phân phối trên dữ liệu biểu hiện gen, điều này có thể làm giảm độ chính xác phân loại của các bộ phân loại. Do đó, một phương pháp tăng cường dữ liệu cho dữ liệu biểu hiện gen dựa trên CWGAN-GP (Gene-CWGAN) được đề xuất trong nghiên cứu này. Đầu tiên, để ổn định phân phối của các mẫu được tạo ra, một phương pháp phân chia bộ dữ liệu dựa trên độ phân tán mẫu được áp dụng trong Gene-CWGAN nhằm làm cho phân phối các mẫu huấn luyện càng gần càng tốt với phân phối mẫu thực. Tiếp theo, không gian của các mẫu được tạo ra được định nghĩa lại và một điều khoản hình phạt ràng buộc được áp dụng để loại bỏ sự hạn chế của không gian được tạo ra ban đầu. Cuối cùng, để khắc phục vấn đề về sự biến động của mạng đối với chất lượng mẫu được tạo ra, một Gene-CWGAN dựa trên mô hình đại diện (Gene-CWGAN-PS) được đề xuất để đảm bảo chất lượng mẫu. Kết quả thí nghiệm trên năm dữ liệu biểu hiện gen công khai xác minh rằng Gene-CWGAN vượt trội hơn các phương pháp khác về tính đa dạng, sự ổn định phân phối và chất lượng của các mẫu được tạo ra.

Từ khóa

#Gene expression #Data enhancement #CWGAN-GP #Machine learning #Sample diversity

Tài liệu tham khảo

Wang Y, Li X, Ruiz R (2019) Weighted general group lasso for gene selection in cancer classification. IEEE Transactions Cybern 49(8):2860–2873 Benjamin LE, Todd RG (2004) Genomic approaches to hematologic malignancies. Blood 104(4):923–932 Nguyen T, Nahavandi S (2016) Modified AHP for gene selection and cancer classification using type-2 fuzzy logic. IEEE Trans Fuzzy Syst 24(2):273–287 Mallick BK, Ghosh D, Ghosh M (2005) Bayesian classification of tumours by using gene expression data. J Roy Stat Soc 67(2):219–234 Ghosh SK, Ghosh A (2021) Classification of gene expression patterns using a novel type-2 fuzzy multigranulation-based SVM model for the recognition of cancer mediating biomarkers. Neural Comput Appl 33:4263–4281 Sun Z, Wang H, Lau W, Seet G, Wang D, Lam K (2014) Microarray data classification using the spectral-feature-based TLS ensemble algorithm. IEEE Trans Nanobiosci 13(3):289–299 Mondal M, Semwal R, Raj U et al (2020) An entropy-based classification of breast cancerous genes using microarray data. Neural Comput Appl 32:2397–2404 Nagpal A, Singh V (2018) Identification of significant features using random forest for high dimensional microarray data. J Eng Technol 13(8):2446–2463 Guyon I, Weston J, Barnhill S, Vapnik V (2002) Gene selection for cancer classification using support vector machine. Mach Learn 46(1):389–422 Zhou X, Mao KZ (2005) LS bound based gene selection for DNA microarray data. Bioinformatics 21(8):1559–1564 Han F, Chen WT, Ling QH, Han H (2021) Multi-objective particle swarm optimization with adaptive strategies for feature selection. Swarm Evol Comput 62:100847 Nagra AA, Han F, Ling QH, Abubaker M et al (2020) Hybrid self-inertia weight adaptive particle swarm optimisation with local search using C4.5 decision tree classifier for feature selection problems. Connect Sci 32(1):16–36 Dwivedi AK (2018) Artificial neural network model for effective cancer classification using microarray gene expression data. Neural Comput Appl 29:1545–1554 Shah SH, Iqbal MJ, Ahmad I et al (2020) Optimized gene selection and classification of cancer from microarray gene expression data using deep learning. Neural Comput Appli. https://doi.org/10.1007/s00521-020-05367-8 Mudiyanselage BTK, Xiao X, Zhang Y, Pan Y (2020) Deep fuzzy neural networks for biomarker selection for accurate cancer detection. IEEE Trans Fuzzy Syst 28(12):3219–3228 Elbashir MK, Ezz M, Mohammed M, Saloum SS (2019) Lightweight convolutional neural network for breast cancer classification using RNA-seq gene expression data. IEEE Access 7:185338–185348 Park S, Hao W, Leung CS (2012) Reconstruction of uniformly sampled sequence from nonuniformly sampled transient sequence using symmetric extension. IEEE Trans Signal Process 60(3):1498–1501 Eldar YC (2006) Mean-squared error sampling and reconstruction in the presence of noise. IEEE Trans Signal Process 54(12):4619–4633 Chawla NV, Bowyer KW, Hall LO, Kegelmeyer WP (2002) Smote: synthetic minority over-sampling technique. J Artif Intell Res 16(1):321–357 Han H, Wang WY, Mao BH (2005) Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning. Lect Notes Comput Sci 3644:878–887 Liang XW, Jiang AP, Li T, Xue YY, Wang GT (2020) LR-SMOTE — an improved unbalanced data set oversampling based on K-means and SVM. Knowl-Based Syst 196:105845 Li JN, Zhu QS, Wu QW, Zhang ZY, Gong YL et al (2021) SMOTE-NAN-DE: addressing the noisy and borderline examples problem in imbalanced classification by natural neighbors and differential evolution Knowl-Based Syst 223: 107056 Goodfellow I, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courville A, Bengio Y (2014) Generative adversarial nets Adv Neural Information Process Syst pp 2672–2680 Mirza M, Osindero S (2014) Conditional generative adversarial nets. Comput Sci 156:2672–2680 Huang YF, Liu WD (2021) Choreography CGAN: generating dances with music beats using conditional generative adversarial networks. Neural Comput Appl 33:9817–9833 Ma Y, Zhong G, Liu W et al (2021) ML-CGAN: conditional generative adversarial network with a meta-learner structure for high-quality image generation with few training data. Cogn Comput 13:418–430 Chen LY, Liu YF, Xiao WD, Wang YX, Xie HY (2020) SpeakerGAN: speaker identification with conditional generative adversarial network. Neurocomputing 418(22):211–220 Lee MB, Kim YH, Park KR (2019) Conditional generative adversarial network- based data augmentation for enhancement of iris recognition accuracy. IEEE Access 7:122134–122152 Wang M, Zhu W, Yu K, Chen ZY, Shi F et al (2021) Semi-supervised capsule cgan for speckle noise reduction in retinal OCT images. IEEE Trans Med Imaging 40(4):1168–1183 Arjovsky M, Chintala S, Bottou L (2017) Wasserstein generative adversarial networks In: Proceedings of the 25th international conference on Machine learning (ICML) pp 214–223 Radford A, Metz L, Chintala S (2015) Unsupervised representation learning with deep convolutional generative adversarial networks In: Proceeding of international conference on learning representations arXiv:1511.06434 Mao X, Li Q, Xie H, Lau RY, Wang Z, Paul Smolley S (2017) Least squares generative adversarial networks In: Proceedings of the IEEE international conference on computer vision, pp 2794–2802 Berthelot D, Schumm T, Metz L (2017) Began: boundary equilibrium generative adversarial networks arXiv:1703.10717 Lin Z, Khetan A, Fanti G, Oh S (2020) PacGAN: the power of two samples in generative adversarial networks. IEEE J Select Areas Information Theory 1(1):324–335 Huang ZX, Liu XF, Wang RP, Chen JC et al (2021) Considering anatomical prior information for low-dose CT image enhancement using attribute-augmented Wasserstein generative adversarial networks. Neurocomputing 428(7):104–115 Hu SY, Lei BY, Wang SQ, Feng ZG et al (2022) Bidirectional mapping generative adversarial networks for brain MR to PET synthesis. IEEE Trans Med Imaging 41(1):145–157 Yu W, Lei BY, Ng MK, Cheung AC et al (2022) Tensorizing GAN with high-order pooling for alzheimer’s disease assessment. IEEE Transactions Neural Netw Learn Syst. https://doi.org/10.1109/TNNLS.2021.3063516 Wang SQ, Wang XY, Hu Y, Shen YY et al (2021) Diabetic retinopathy diagnosis using multichannel generative adversarial network with semisupervision. IEEE Trans Autom Sci Eng 18(2):574–585 Zhu SJ, Han F (2021) A data enhancement method for gene expression profile based on improved WGAN-GP In: Proceedings of the 2nd International Conference on Neural Computing for Advanced Applications (NCAA 2021), pp 242–254 Gulrajani I, Ahmed F, Arjovsky M, Dumoulin V, Courville A (2017) Improved training of wasserstein gans Adv Neural Information Process Syst (NIPS) 5767–5777 Panwar RP, Jung TP, Huang Y (2020) Modeling EEG data distribution with a Wasserstein generative adversarial network to predict RSVP events. IEEE Trans Neural Syst Rehabil Eng 28(8):1720–1730 Ma W, Pan ZX, Yuan F, Lei B (2019) Super-resolution of remote sensing images via a dense residual generative adversarial network. Remote Sens 11(21):2578 Gao X, Deng F, Yue XH (2020) Data augmentation in fault diagnosis based on the Wasserstein generative adversarial network with gradient penalty. Neurocomputing 396:487–494 Zheng M, Li T, Zhu R, Tang YH et al (2020) Conditional Wasserstein generative adversarial network-gradient penalty-based approach to alleviating imbalanced data classification. Inf Sci 512:1009–1023 Yan K, Su J, Huang J, Mo YC (2020) Chiller fault diagnosis based on VAE-enabled generative adversarial networks. IEEE Trans Autom Sci Eng 19(1):387–395 Zhu ZX, Ong YS, Dash M (2007) Markov blanket-embedded genetic algorithm for gene selection. Pattern Recogn 40(11):3236–3248 Genuer R, Poggi JM, Tuleau-Malot C (2010) Variable selection using random forests. Pattern Recogn Lett 31(14):2225–2236 Kodali N, Abernethy J, Hays J, Kira Z (2017) On convergence and stability of GANs. arXiv:1705.07215 Mao XD, Li Q, Xie HR, Lau RYK et al (2019) On the effectiveness of least squares generative adversarial networks. IEEE Trans Pattern Anal Mach Intell 41(12):2947–2960