Phân loại tích hợp RNA không mã hóa lớn nằm ngoài gen của người làm sáng tỏ các đặc tính toàn cầu và phân loại chuyên biệt

Genes and Development - Tập 25 Số 18 - Trang 1915-1927 - 2011
Moran N. Cabili1,2,3, Cole Trapnell1,2, Loyal A. Goff1,4, Magdalena J. Koziol1,2, Bárbara Tazón‐Vega1,2, Aviv Regev1,5, John L. Rinn1,2
1Broad Institute of Massachusetts Institute of Technology and Harvard, Cambridge, Massachusetts 02142, USA;
2Department of Stem Cell and Regenerative Biology, Harvard University, Cambridge, Massachusetts 02138, USA.
3Department of Systems Biology, Harvard Medical School, Boston, Massachusetts 02115, USA
4Computer Science and Artificial Intelligence Laboratory, Department of Electrical Engineering and Computer Science, Massachusetts Institute of Technology, Cambridge, Massachusetts 02140, USA;
5Howard Hughes Medical Institute, Department of Biology, Massachusetts Institute of Technology, Cambridge, Massachusetts 02140, USA

Tóm tắt

RNA không mã hóa lớn nằm ngoài gen (lincRNA) đang nổi lên như các yếu tố điều tiết quan trọng trong nhiều quá trình tế bào khác nhau. Xác định chức năng của từng lincRNA vẫn là một thách thức. Những tiến bộ gần đây trong phương pháp giải trình tự RNA (RNA-seq) và các phương pháp tính toán cho phép phân tích chưa từng có đối với các bản phiên mã này. Trong nghiên cứu này, chúng tôi đưa ra một phương pháp tích hợp để xác định một danh mục tham khảo gồm hơn 8000 lincRNA của người. Danh mục này hợp nhất các nguồn chú giải hiện có với các bản phiên mã chúng tôi đã tổng hợp từ dữ liệu RNA-seq thu thập từ khoảng 4 tỷ lượt đọc RNA-seq trên 24 mô và loại tế bào khác nhau. Chúng tôi mô tả từng lincRNA với một bức tranh toàn cảnh hơn 30 đặc tính, bao gồm trình tự, cấu trúc, tính sao chép và đặc điểm tương đồng giữa các loài. Chúng tôi nhận thấy rằng biểu hiện của lincRNA có độ đặc thù đáng ngạc nhiên giữa các mô hơn so với các gen mã hóa, và rằng lincRNA thường được đồng biểu hiện với các gen lân cận của nó, mặc dù đến một mức độ tương tự như các cặp gen mã hóa protein lân cận. Chúng tôi phân biệt thêm một tập con của các bản phiên mã có sự bảo tồn tiến hóa cao nhưng có thể bao gồm các ORF ngắn và có thể hoạt động như lincRNA hoặc các peptide nhỏ. Danh mục tham khảo tích hợp, toàn diện nhưng mang tính bảo thủ của chúng tôi về lincRNA người tiết lộ các đặc tính toàn cầu của lincRNA và sẽ hỗ trợ các nghiên cứu thực nghiệm cũng như phân loại chức năng sâu hơn cho các gen này.

Từ khóa

#lincRNA #RNA không mã hóa #biểu hiện mô đặc thù #đồng biểu hiện #bảo tồn tiến hóa #đọc trình tự RNA #danh mục tham khảo #phân loại chức năng

Tài liệu tham khảo

2010, lncRNAdb: a reference database for long noncoding RNAs, Nucleic Acids Res, 39, D146

10.1126/science.1103388

10.1038/nature05874

10.1371/journal.pcbi.1000392

10.1016/0092-8674(92)90520-M

10.1126/science.1112014

10.1186/gb-2010-11-7-r72

10.1038/79896

10.1126/science.1162228

10.1371/journal.pbio.1000384

10.1038/ncb1771

10.1038/nature09906

10.1093/nar/gkp985

Fuglede B , Topsoe F . 2004. Jensen-Shannon divergence and Hilbert space embedding. In Proceedings of the IEEE International Symposium on Information Theory, p. 31. doi: 10.1109/ISIT.2004.1365067.

10.1038/nmeth.1613

10.1038/nature04917

10.1038/ng.339

10.1038/nature07672

10.1038/nbt.1633

Guttman M , Donaghey J , Carey BW , Garber M , Grenier JK , Munson G , Young G , Lucas AB , Ach R , Yang X , . 2011. lincRNAs act in the circuitry controlling pluripotency and differentiation. Nature (in press).

10.1186/gb-2006-7-s1-s4

10.1126/science.1197349

10.1073/pnas.0903103106

10.1093/bioinformatics/btl048

10.1016/j.cell.2010.06.040

10.1038/ng.848

10.1038/nrg1319

10.1126/science.1168978

10.1016/j.molcel.2010.03.019

10.1126/science.1138341

10.1101/gr.229102. Article published online before print in May 2002

10.1073/pnas.1932072100

10.1073/pnas.0904715106

10.1038/nature09033

10.1126/science.1188158

10.1016/j.gde.2010.03.003

10.1038/375034a0

10.1093/bioinformatics/btr209

10.1038/ng.710

10.1038/nrg2521

10.1038/nmeth.1226

10.1126/science.1163802

10.1016/j.cell.2010.09.001

10.1016/j.molcel.2008.08.022

10.1101/gr.6036807

10.1371/journal.pgen.1000617

10.1016/j.cell.2009.02.006

10.1126/science.1164096

Pruitt K , Tatusova T , Maglott D . 2002. The reference sequence (RefSeq) project. In The NCBI handbook (ed. McEntyre J , Ostell J ), chapter 18. National Center for Biotechnology Information, Bethesda, MD. http://www.ncbi.nlm.nih.gov/books/NBK21091 .

2010, A unique chromatin signature uncovers early developmental enhancers in humans, Nature, 470, 279

10.1101/gr.4200206

10.1016/j.cell.2007.05.022

10.1101/gr.809403

10.1126/science.1162253

10.1038/nbt.1621

10.1038/nature09819

10.1016/j.cub.2005.02.027

10.1101/gr.122382.111

10.1126/science.1163045

10.1016/j.molcel.2010.12.011

10.1371/journal.pcbi.0030247