K-means là gì? Các công bố khoa học về K-means

k-means là một thuật toán trong lĩnh vực học không giám sát được sử dụng để phân cụm dữ liệu. Đồng thời, nó cũng là một phương pháp phân cụm thống kê phổ biến. ...

k-means là một thuật toán trong lĩnh vực học không giám sát được sử dụng để phân cụm dữ liệu. Đồng thời, nó cũng là một phương pháp phân cụm thống kê phổ biến.

Thuật toán này hoạt động dựa trên công thức Euclid để tính khoảng cách giữa các điểm dữ liệu và các centroid (điểm trung tâm của từng cụm). Ban đầu, thuật toán chọn ngẫu nhiên một số lượng centroid, sau đó nó liên tục tối ưu hóa vị trí centroid dựa trên việc tính toán khoảng cách và cập nhật cụm dữ liệu.

Kết quả sau khi thuật toán kết thúc là một số lượng cụm đã được phân loại hoàn tất. Mỗi điểm dữ liệu thuộc vào cụm gần nhất với centroid tương ứng. K-means có thể được áp dụng trong nhiều lĩnh vực như khách hàng phân loại, phân loại hình ảnh, phân tích dữ liệu, và nhiều ứng dụng khác.
K-means là một thuật toán phân cụm dữ liệu đơn giản nhưng hiệu quả. Các bước cơ bản trong thuật toán k-means là:

1. Chọn ngẫu nhiên K centroid ban đầu trong không gian dữ liệu. K là một số nguyên dương được xác định trước.

2. Gán từng điểm dữ liệu vào cụm gần nhất bằng cách tính khoảng cách Euclid giữa điểm dữ liệu và các centroid. Điểm dữ liệu thuộc vào cụm có centroid gần nhất.

3. Cập nhật vị trí của các centroid bằng cách tính toán trung bình của tất cả các điểm dữ liệu trong cụm. Điều này sẽ di chuyển centroid về phía trung tâm của cụm.

4. Lặp lại bước 2 và 3 cho đến khi không có sự thay đổi nào trong việc gán các điểm dữ liệu vào cụm hay vị trí của các centroid.

Thuật toán k-means cố gắng tối thiểu hóa tổng bình phương khoảng cách giữa các điểm dữ liệu và centroid của cụm tương ứng. Điều này đảm bảo rằng các điểm dữ liệu trong cùng một cụm sẽ gần nhau nhất và các điểm giữa các cụm sẽ cách xa nhau. Kết quả cuối cùng là một tập hợp các cụm có centroid cách nhau và tối ưu cho dữ liệu ban đầu.

Một điểm yếu của thuật toán k-means là độ nhạy của kết quả đối với vị trí ban đầu của các centroid ban đầu. Như vậy, nếu hình dạng của các cụm khác nhau hoặc số lượng cụm không được biết trước, việc khởi tạo centroid ban đầu có thể ảnh hưởng đáng kể đến kết quả.

Các bài báo, nghiên cứu, công bố khoa học về chủ đề k-means:

Algorithm AS 136: A K-Means Clustering Algorithm

Journal of the Royal Statistical Society. Series C: Applied Statistics - Tập 28 Số 1 - Trang 100 - 1979

Hướng Tới Một Phương Pháp Luận Phát Triển Tri Thức Quản Lý Dựa Trên Bằng Chứng Thông Qua Đánh Giá Hệ Thống Dịch bởi AI

British Journal of Management - Tập 14 Số 3 - Trang 207-222 - 2003

Tiến hành một đánh giá về văn liệu là một phần quan trọng của bất kỳ dự án nghiên cứu nào. Nhà nghiên cứu có thể xác định và đánh giá lãnh thổ tri thức liên quan để chỉ định một câu hỏi nghiên cứu nhằm phát triển thêm cơ sở tri thức. Tuy nhiên, các bản đánh giá 'mô tả' truyền thống thường thiếu tính toàn diện, và trong nhiều trường hợp, không được thực hiện như những mảnh ghép đích thực của khoa h... hiện toàn bộ

#phương pháp đánh giá hệ thống #nghiên cứu quản lý #phát triển tri thức #bằng chứng #chính sách #thực hành #quản lý thông tin #khoa học y học

Analysis of crack formation and crack growth in concrete by means of fracture mechanics and finite elements

Cement and Concrete Research - Tập 6 Số 6 - Trang 773-781 - 1976

An efficient k-means clustering algorithm: analysis and implementation

IEEE Transactions on Pattern Analysis and Machine Intelligence - Tập 24 Số 7 - Trang 881-892 - 2002

Phân Hiện Biểu Hiện Khác Nhau Của RNA Thông Tin Eukaryote Bằng Phương Pháp Chuỗi Polymerase Dịch bởi AI

American Association for the Advancement of Science (AAAS) - Tập 257 Số 5072 - Trang 967-971 - 1992

Cần có những phương pháp hiệu quả để xác định và tách biệt những gen có biểu hiện khác nhau trong các tế bào khác nhau hoặc trong các điều kiện thay đổi. Báo cáo này mô tả một phương pháp để phân tách và nhân bản các RNA thông tin (mRNA) riêng lẻ thông qua phản ứng chuỗi polymerase. Yếu tố chính là sử dụng một bộ các mồi oligonucleotide, một mồi được gắn vào đuôi polyadenylate của một tập hợp con ... hiện toàn bộ

Các phương pháp đơn giản để cải thiện khả năng giải thích của các hệ số hồi quy Dịch bởi AI

Methods in Ecology and Evolution - Tập 1 Số 2 - Trang 103-113 - 2010

Tóm tắt 1. Các mô hình hồi quy tuyến tính là một công cụ thống kê quan trọng trong các nghiên cứu tiến hóa và sinh thái. Thật không may, những mô hình này thường cho ra những ước lượng và kiểm nghiệm giả thuyết không thể giải thích được, đặc biệt là khi các mô hình bao gồm sự tương tác hoặc các hạng tử đa thức. Hơn nữa, các sai số chuẩn cho các nhóm điều trị, mặc dù thường được quan tâm trong việc... hiện toàn bộ

Xây dựng các bản đồ liên kết gen di truyền tích hợp bằng cách sử dụng gói phần mềm máy tính mới: Join Map Dịch bởi AI

Plant Journal - Tập 3 Số 5 - Trang 739-744 - 1993

Tóm tắtQuy trình lập bản đồ gen tích hợp bằng máy tính được trình bày. Chương trình máy tính (Join Map) có thể xử lý dữ liệu thô từ các giống F2, quay lại (backcrosses) và các dòng thuần sau tái phối (recombinant inbred lines), cũng như các tần suất tái tổ hợp theo cặp đã được liệt kê. Quy trình này hữu ích cho việc kết hợp dữ liệu liên kết đã được thu thập từ các thí nghiệm khác nhau; kết quả là ... hiện toàn bộ

Xúc tác Asymmetric với Nước: Giải Quyết Kinetics Hiệu Quả của các Epoxide Cuối Bằng Phương Pháp Thủy Phân Xúc Tác Dịch bởi AI

American Association for the Advancement of Science (AAAS) - Tập 277 Số 5328 - Trang 936-938 - 1997

Các epoxide là những khối xây dựng đa năng cho tổng hợp hữu cơ. Tuy nhiên, các epoxide đầu có thể được coi là phân nhóm quan trọng nhất của những hợp chất này, và hiện chưa có phương pháp tổng hợp tổng quát và thực tiễn nào cho việc sản xuất chúng dưới dạng tinh khiết đồng phân. Các epoxide đầu có sẵn với giá rất rẻ dưới dạng hỗn hợp racemic, và giải quyết động học là một chiến lược hấp dẫn cho vi... hiện toàn bộ

#epoxide #xúc tác không đối xứng #thủy phân #giải quyết động học #cobalt chiral #1 #2-diol

An Optimized Blockwise Nonlocal Means Denoising Filter for 3-D Magnetic Resonance Images

IEEE Transactions on Medical Imaging - Tập 27 Số 4 - Trang 425-441 - 2008

On the Performance of Maximum Likelihood Versus Means and Variance Adjusted Weighted Least Squares Estimation in CFA

Structural Equation Modeling - Tập 13 Số 2 - Trang 186-203 - 2006

Tổng số: 3,070

Chủ đề khác

#nghiên cứu quan sát

Nghiên cứu quan sát là gì? Các nghiên cứu khoa học

#ngập úng

Ngập úng là gì? Các bài báo nghiên cứu khoa học liên quan

#phẫu thuật lại

Phẫu thuật lại là gì? Các bài nghiên cứu khoa học liên quan

#vật liệu chịu lửa

Vật liệu chịu lửa là gì? Các nghiên cứu khoa học liên quan

#dao động xoắn

Dao động xoắn là gì? Các bài nghiên cứu khoa học liên quan

#tiên lượng bệnh lý

Tiên lượng bệnh lý là gì? Các nghiên cứu khoa học liên quan

#tự tử

Tự tử là gì? Các bài báo nghiên cứu khoa học liên quan

#khối u gan

Khối u gan là gì? Các bài báo nghiên cứu khoa học liên quan

#lưu lượng máu

Lưu lượng máu là gì? Các bài nghiên cứu khoa học liên quan

#bệnh võng mạc đái tháo đường

Bệnh võng mạc đái tháo đường là gì? Các công bố khoa học về Bệnh võng mạc đái tháo đường

Xem thêm

Scholar Hub - Công cụ hỗ trợ trích dẫn và phân tích khoa học Việt Nam

Về chúng tôi

Scholar Hub là công cụ hỗ trợ trích dẫn và phân tích các bài báo, công bố khoa học Việt Nam. Công cụ trợ giúp người nghiên cứu, tạp chí, đơn vị nghiên cứu tra cứu, phân tích và thống kê dữ liệu nghiên cứu khoa học tại Việt Nam và quốc tế.
ScholarHub KHÔNG đăng thông tin tổng hợp, KHÔNG đăng lại nội dung từ các trang báo chí Việt Nam hoặc trang thông tin điện tử khác tại Việt Nam.

Thông tin, cập nhật

Đăng ký Tạp chí tham gia vào Scholar Hub

Phản hồi ý kiến về Scholar Hub

Bài viết, nội dung cập nhật

Chủ đề khoa học

Website liên kết

Hệ thống CSDL Khoa học & Công nghệ

Phần mềm kiểm tra trùng lặp Kiểm Tra Tài Liệu

Phần mềm xuất bản tạp chí điện tử VOJS

Nền tảng trắc nghiệm và đề thi đa lĩnh vực LetQA