Scholar Hub/Chủ đề/#bayesian/
Bayesian là một phương pháp trong thống kê và xác suất để đánh giá công bằng của các giả thuyết dựa trên hiểu biết trước đó và cập nhật thông tin mới. Phương ph...
Bayesian là một phương pháp trong thống kê và xác suất để đánh giá công bằng của các giả thuyết dựa trên hiểu biết trước đó và cập nhật thông tin mới. Phương pháp này dựa trên nguyên tắc của lý thuyết xác suất Bayes, mà áp dụng quy tắc cập nhật thông tin dựa trên dữ liệu quan sát được để thu được phân phối xác suất của các giả thuyết. Các phương pháp bayesian thường sử dụng để ước lượng thông số, dự đoán và tìm kiếm mô hình trong nhiều lĩnh vực khác nhau như máy học, y học, kinh tế học và công nghệ.
Phương pháp Bayesian còn được ứng dụng rộng rãi trong machine learning và data science, đặc biệt là trong việc xây dựng mô hình dự đoán và phân loại. Phương pháp này có thể hữu ích khi dữ liệu đầu vào còn thiếu hoặc khi muốn tích hợp tri thức chuyên gia vào quá trình dự đoán.
Một điểm mạnh của phương pháp Bayesian là khả năng tích hợp tri thức chuyên gia và hiểu biết trước đó vào quá trình ước lượng và dự đoán, giúp tạo ra các kết quả chính xác hơn. Tuy nhiên, việc tính toán phân phối xác suất có thể đòi hỏi tài nguyên tính toán lớn hơn so với các phương pháp thống kê truyền thống.
Tóm lại, phương pháp Bayesian là một công cụ hữu ích trong việc ước lượng và dự đoán dựa trên các thông tin trước đó và cập nhật thông tin mới, và có ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau.
Thêm vào việc tính toán phân phối xác suất, phương pháp Bayesian còn có thể giúp trong việc xác định sự không chắc chắn trong dự đoán và ước lượng. Điều này có ý nghĩa trong việc quyết định và dự đoán khi hiểu biết chưa hoàn chỉnh hoặc dữ liệu không chắc chắn.
Phương pháp Bayesian cũng phù hợp cho việc tích hợp kiến thức trước đó vào quá trình xây dựng mô hình, nhất là khi dữ liệu không đủ lớn hoặc có nhiều nhiễu. Việc này giúp tạo ra các mô hình dự đoán chính xác hơn và ổn định hơn.
Trong công nghệ thông tin, Bayesian cũng được sử dụng trong các lĩnh vực như xử lý ngôn ngữ tự nhiên, xác định quan hệ giữa các phần tử trong một hệ thống, và trong việc xây dựng các hệ thống dựa trên dữ liệu. Phương pháp này ngày càng trở nên phổ biến và được ứng dụng rộng rãi trong nhiều lĩnh vực và ngành nghề.
Một ứng dụng phổ biến của phương pháp Bayesian là trong lĩnh vực của học máy, đặc biệt là khi xử lý các vấn đề phân loại và dự đoán. Phương pháp này cho phép tính toán xác suất của một kết quả dựa trên thông tin trước đó và cập nhật thông tin từ dữ liệu mới, giúp cải thiện độ chính xác của các mô hình dự đoán so với các phương pháp thống kê truyền thống.
Ngoài ra, Bayesian cũng được sử dụng trong lĩnh vực của y học để đưa ra các quyết định chẩn đoán và dự đoán về cơ hội mắc phải các loại bệnh dựa trên kết quả thử nghiệm và thông tin lâm sàng.
Các phương pháp học tập sâu như mạng nơ-ron cũng có thể được kết hợp với phương pháp Bayesian để tạo ra các mô hình mạng nơ-ron Bayesian, giúp đánh giá sự không chắc chắn trong dự đoán và cung cấp các ước lượng xác suất cho kết quả dự đoán. Điều này có thể hữu ích trong việc đánh giá độ tin cậy và sự không chắc chắn khi sử dụng các mô hình học máy phức tạp.
Phương pháp Bayesian cũng có ứng dụng trong lĩnh vực của kinh tế học, mô hình hóa thị trường tài chính, và trong việc đưa ra quyết định đầu tư dựa trên xác suất và dữ liệu lịch sử.
MrBayes 3: Bayesian phylogenetic inference under mixed models Bioinformatics - Tập 19 Số 12 - Trang 1572-1574 - 2003
Abstract
Summary: MrBayes 3 performs Bayesian phylogenetic analysis combining information from different data partitions or subsets evolving under different stochastic evolutionary models. This allows the user to analyze heterogeneous data sets consisting of different data types—e.g. morphological, nucleotide, and protein—and to explore a wide variety of structured models mixing partition-unique and shared parameters. The program employs MPI to parallelize Metropolis coupling on Macintosh or UNIX clusters.
Availability: http://morphbank.ebc.uu.se/mrbayes
Contact: [email protected]
* To whom correspondence should be addressed. MRBAYES: Bayesian inference of phylogenetic trees Bioinformatics - Tập 17 Số 8 - Trang 754-755 - 2001
Abstract
Summary: The program MRBAYES performs Bayesian inference of phylogeny using a variant of Markov chain Monte Carlo.
Availability: MRBAYES, including the source code, documentation, sample data files, and an executable, is available at http://brahms.biology.rochester.edu/software.html.
Contact: [email protected] Phát hiện số cụm cá thể bằng phần mềm <scp>structure</scp>: một nghiên cứu mô phỏng Molecular Ecology - Tập 14 Số 8 - Trang 2611-2620 - 2005
Tóm tắtViệc xác định các nhóm cá thể đồng nhất về di truyền là một vấn đề lâu dài trong di truyền học quần thể. Một thuật toán Bayesian gần đây được triển khai trong phần mềm structure cho phép phát hiện các nhóm như vậy. Tuy nhiên, khả năng của thuật toán này để xác định số lượng cụm thực sự (K) trong một mẫu cá thể khi các mô hình phân tán giữa các quần thể không đồng nhất chưa được kiểm tra. Mục tiêu của nghiên cứu này là thực hiện các bài kiểm tra như vậy, sử dụng các kịch bản phân tán khác nhau từ dữ liệu được tạo ra với mô hình dựa trên cá thể. Chúng tôi nhận thấy rằng trong hầu hết các trường hợp, ‘xác suất đăng nhập của dữ liệu’ ước tính không cung cấp một ước tính chính xác về số cụm, K. Tuy nhiên, sử dụng thống kê phụ thuộc ΔK dựa trên tốc độ thay đổi trong xác suất đăng nhập của dữ liệu giữa các giá trị K liên tiếp, chúng tôi phát hiện ra rằng structure chính xác phát hiện cấp độ phân cấp cao nhất trong các kịch bản mà chúng tôi đã kiểm tra. Như mong đợi, kết quả rất nhạy cảm với loại dấu hiệu di truyền được sử dụng (AFLP vs. microsatellite), số lượng locus được đánh giá, số lượng quần thể được lấy mẫu, và số lượng cá thể được xác định trong mỗi mẫu.
#genetically homogeneous groups #Bayesian algorithm #population genetics #structure software #simulation study #dispersal scenarios #hierarchical structure #genetic markers #AFLP #microsatellite #population samples
Naïve Bayesian Classifier for Rapid Assignment of rRNA Sequences into the New Bacterial Taxonomy Applied and Environmental Microbiology - Tập 73 Số 16 - Trang 5261-5267 - 2007
ABSTRACT
The Ribosomal Database Project (RDP) Classifier, a naïve Bayesian classifier, can rapidly and accurately classify bacterial 16S rRNA sequences into the new higher-order taxonomy proposed in Bergey's
Taxonomic Outline of the Prokaryotes
(2nd ed., release 5.0, Springer-Verlag, New York, NY, 2004). It provides taxonomic assignments from domain to genus, with confidence estimates for each assignment. The majority of classifications (98%) were of high estimated confidence (≥95%) and high accuracy (98%). In addition to being tested with the corpus of 5,014 type strain sequences from Bergey's outline, the RDP Classifier was tested with a corpus of 23,095 rRNA sequences as assigned by the NCBI into their alternative higher-order taxonomy. The results from leave-one-out testing on both corpora show that the overall accuracies at all levels of confidence for near-full-length and 400-base segments were 89% or above down to the genus level, and the majority of the classification errors appear to be due to anomalies in the current taxonomies. For shorter rRNA segments, such as those that might be generated by pyrosequencing, the error rate varied greatly over the length of the 16S rRNA gene, with segments around the V2 and V4 variable regions giving the lowest error rates. The RDP Classifier is suitable both for the analysis of single rRNA sequences and for the analysis of libraries of thousands of sequences. Another related tool, RDP Library Compare, was developed to facilitate microbial-community comparison based on 16S rRNA gene sequence libraries. It combines the RDP Classifier with a statistical test to flag taxa differentially represented between samples. The RDP Classifier and RDP Library Compare are available online at
http://rdp.cme.msu.edu/
.
Bayesian Measures of Model Complexity and Fit Journal of the Royal Statistical Society. Series B: Statistical Methodology - Tập 64 Số 4 - Trang 583-639 - 2002
SummaryWe consider the problem of comparing complex hierarchical models in which the number of parameters is not clearly defined. Using an information theoretic argument we derive a measure pD for the effective number of parameters in a model as the difference between the posterior mean of the deviance and the deviance at the posterior means of the parameters of interest. In general pD approximately corresponds to the trace of the product of Fisher's information and the posterior covariance, which in normal models is the trace of the ‘hat’ matrix projecting observations onto fitted values. Its properties in exponential families are explored. The posterior mean deviance is suggested as a Bayesian measure of fit or adequacy, and the contributions of individual observations to the fit and complexity can give rise to a diagnostic plot of deviance residuals against leverages. Adding pD to the posterior mean deviance gives a deviance information criterion for comparing models, which is related to other information criteria and has an approximate decision theoretic justification. The procedure is illustrated in some examples, and comparisons are drawn with alternative Bayesian and classical proposals. Throughout it is emphasized that the quantities required are trivial to compute in a Markov chain Monte Carlo analysis.