Hiệp phương sai là gì? Các nghiên cứu khoa học về khái niệm này

Hiệp phương sai là một chỉ số thống kê đo mức độ hai biến ngẫu nhiên thay đổi cùng nhau, phản ánh mối quan hệ tuyến tính giữa chúng. Giá trị dương cho thấy hai biến tăng hoặc giảm cùng chiều, giá trị âm thể hiện chúng biến đổi ngược chiều, còn giá trị gần 0 cho thấy không liên hệ tuyến tính.

Giới thiệu về hiệp phương sai

Hiệp phương sai (covariance) là một khái niệm trong thống kê mô tả cách hai biến ngẫu nhiên thay đổi cùng nhau như thế nào. Khi hai biến có xu hướng tăng hoặc giảm cùng nhau, giá trị của hiệp phương sai sẽ dương. Ngược lại, nếu một biến tăng trong khi biến còn lại giảm, thì hiệp phương sai sẽ mang giá trị âm. Đây là công cụ cơ bản để đánh giá mối quan hệ tuyến tính giữa hai đại lượng, từ đó giúp định hướng phân tích sâu hơn trong nhiều lĩnh vực như học máy, tài chính, kinh tế lượng hoặc vật lý thống kê.

Ví dụ đơn giản: nếu ta quan sát chiều cao và cân nặng của một nhóm người, khả năng cao hai biến này có hiệp phương sai dương, vì những người cao hơn thường cũng nặng hơn. Tuy nhiên, mức độ mạnh yếu của mối quan hệ đó chưa thể hiện rõ chỉ qua dấu của hiệp phương sai.

Không giống như phương sai – đo độ phân tán của một biến duy nhất – hiệp phương sai mở rộng khái niệm này cho hai biến, nhằm xác định mức độ phụ thuộc tuyến tính giữa chúng. Tuy nhiên, hiệp phương sai phụ thuộc vào đơn vị đo lường của hai biến, do đó giá trị tuyệt đối của nó không dễ diễn giải trừ khi các biến đã được chuẩn hóa.

Định nghĩa toán học

Trong thống kê lý thuyết, hiệp phương sai giữa hai biến ngẫu nhiên \( X \) và \( Y \) được định nghĩa là kỳ vọng của tích giữa độ lệch của mỗi biến so với trung bình của chính nó:

Cov(X,Y)=E[(XE[X])(YE[Y])]\text{Cov}(X, Y) = \mathbb{E}[(X - \mathbb{E}[X])(Y - \mathbb{E}[Y])]

Trong bối cảnh dữ liệu thực nghiệm, khi chỉ có một mẫu gồm \( n \) cặp dữ liệu quan sát được, ta sử dụng công thức ước lượng sau:

Cov(X,Y)=1n1i=1n(xixˉ)(yiyˉ)\text{Cov}(X, Y) = \frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})

Trong đó:

  • \( x_i, y_i \) là giá trị quan sát thứ \( i \) của hai biến.
  • \( \bar{x}, \bar{y} \) là trung bình mẫu của từng biến.

 

Cách tính này giúp ta có một ước lượng không chệch của hiệp phương sai tổng thể khi mẫu được lấy ngẫu nhiên và độc lập. Nếu dùng mẫu toàn bộ dân số, mẫu số sẽ là \( n \) thay vì \( n - 1 \).

Để trực quan hơn, dưới đây là ví dụ về cách tính hiệp phương sai từ một bảng dữ liệu mẫu:

Quan sátXY
123
247
369

Tính trung bình \( \bar{x} = 4 \), \( \bar{y} = 6.33 \), sau đó áp dụng công thức hiệp phương sai mẫu:

Cov(X,Y)=12[(24)(36.33)+(44)(76.33)+(64)(96.33)]\text{Cov}(X,Y) = \frac{1}{2} \left[(2 - 4)(3 - 6.33) + (4 - 4)(7 - 6.33) + (6 - 4)(9 - 6.33)\right]

Kết quả: hiệp phương sai dương, thể hiện mối quan hệ cùng chiều giữa X và Y.

Ý nghĩa của hiệp phương sai

Hiệp phương sai không chỉ phản ánh mối quan hệ tuyến tính giữa hai biến mà còn cho biết hướng thay đổi của chúng. Tuy nhiên, điều quan trọng là phải hiểu rằng giá trị hiệp phương sai không chuẩn hóa, nên khó đánh giá trực tiếp độ mạnh yếu của mối quan hệ.

Giải thích dấu của hiệp phương sai:

  • Hiệp phương sai dương: Khi \( X \) tăng, \( Y \) có xu hướng tăng theo và ngược lại.
  • Hiệp phương sai âm: Khi \( X \) tăng, \( Y \) có xu hướng giảm.
  • Hiệp phương sai bằng 0: Không tồn tại mối quan hệ tuyến tính giữa hai biến (nhưng có thể vẫn tồn tại mối quan hệ phi tuyến).

 

Giá trị hiệp phương sai phụ thuộc trực tiếp vào đơn vị đo của dữ liệu. Do đó, nếu ta đo chiều cao bằng centimet và cân nặng bằng kilogram, giá trị hiệp phương sai sẽ khác nếu chuyển sang inch và pound. Điều này làm cho việc so sánh các hiệp phương sai giữa các cặp biến khác nhau trở nên khó khăn nếu không chuẩn hóa dữ liệu.

Vì lý do đó, trong thực tế, người ta thường kết hợp hiệp phương sai với các chỉ số khác để có cái nhìn toàn diện hơn về mối quan hệ giữa các biến.

So sánh với hệ số tương quan

Hệ số tương quan Pearson là biến thể chuẩn hóa của hiệp phương sai. Nó loại bỏ ảnh hưởng của đơn vị đo và giá trị tuyệt đối của độ biến thiên bằng cách chia cho tích độ lệch chuẩn của hai biến:

ρX,Y=Cov(X,Y)σXσY\rho_{X,Y} = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}

Hệ số này luôn nằm trong khoảng từ -1 đến 1, với các ý nghĩa cụ thể:

  • \( \rho = 1 \): Mối quan hệ tuyến tính hoàn hảo cùng chiều.
  • \( \rho = -1 \): Mối quan hệ tuyến tính hoàn hảo ngược chiều.
  • \( \rho = 0 \): Không có mối quan hệ tuyến tính.

 

Hệ số tương quan có thể so sánh được giữa các cặp biến khác nhau nhờ tính chuẩn hóa. Đây là lý do tại sao trong phân tích dữ liệu, người ta thường sử dụng cả hiệp phương sai và hệ số tương quan để phân tích mối quan hệ giữa các biến.

Tham khảo thêm về sự khác biệt và mối liên hệ giữa hai khái niệm này tại Corporate Finance Institute - Covariance vs. Correlation.

Ma trận hiệp phương sai

Khi làm việc với nhiều biến ngẫu nhiên, việc tính toán hiệp phương sai cho từng cặp riêng lẻ là không thực tế. Thay vào đó, ta sử dụng một cấu trúc gọi là ma trận hiệp phương sai (covariance matrix) – một ma trận vuông trong đó mỗi phần tử đại diện cho hiệp phương sai giữa hai biến cụ thể. Đây là công cụ trung tâm trong thống kê đa biến, giúp mô hình hóa sự liên kết giữa các biến trong không gian nhiều chiều.

Giả sử ta có một tập dữ liệu gồm \( p \) biến \( X_1, X_2, ..., X_p \). Khi đó, ma trận hiệp phương sai \( \Sigma \) được biểu diễn như sau:

Σ=[Var(X1)Cov(X1,X2)Cov(X1,Xp)Cov(X2,X1)Var(X2)Cov(X2,Xp)Cov(Xp,X1)Cov(Xp,X2)Var(Xp)]\Sigma = \begin{bmatrix} \text{Var}(X_1) & \text{Cov}(X_1, X_2) & \cdots & \text{Cov}(X_1, X_p) \\ \text{Cov}(X_2, X_1) & \text{Var}(X_2) & \cdots & \text{Cov}(X_2, X_p) \\ \vdots & \vdots & \ddots & \vdots \\ \text{Cov}(X_p, X_1) & \text{Cov}(X_p, X_2) & \cdots & \text{Var}(X_p) \end{bmatrix}

Một số đặc điểm của ma trận hiệp phương sai:

  • Ma trận luôn đối xứng vì \( \text{Cov}(X_i, X_j) = \text{Cov}(X_j, X_i) \).
  • Các phần tử trên đường chéo chính là phương sai của từng biến.
  • Ma trận này thường là dương bán xác định (positive semi-definite).

 

Trong ứng dụng thực tế, ma trận hiệp phương sai là đầu vào thiết yếu của các thuật toán như Phân tích Thành phần Chính (PCA), hồi quy tuyến tính đa biến, hoặc mô hình Gaussian đa chiều.

Ứng dụng trong học máy

Hiệp phương sai có vai trò nền tảng trong nhiều thuật toán học máy. Một ví dụ điển hình là phân tích thành phần chính (PCA – Principal Component Analysis), phương pháp giảm chiều dữ liệu dựa vào việc phân tích ma trận hiệp phương sai để tìm các chiều phương sai lớn nhất.

PCA hoạt động bằng cách tính toán các vector riêng (eigenvectors) và giá trị riêng (eigenvalues) của ma trận hiệp phương sai của tập dữ liệu. Những vector riêng tương ứng với giá trị riêng lớn nhất sẽ xác định hướng chính của sự biến thiên – các thành phần chính – trong tập dữ liệu. Việc này giúp nén dữ liệu hiệu quả mà vẫn giữ được thông tin quan trọng nhất.

Ứng dụng PCA và hiệp phương sai trong học máy có thể kể đến:

  • Giảm chiều trong xử lý ảnh, nhận dạng khuôn mặt.
  • Tiền xử lý dữ liệu trước khi huấn luyện mô hình học có giám sát.
  • Phân tích cụm (clustering) và trực quan hóa dữ liệu cao chiều.

 

Tài liệu hướng dẫn chi tiết có thể xem tại Scikit-learn - PCA Module.

Ứng dụng trong tài chính

Trong lĩnh vực tài chính định lượng, hiệp phương sai là công cụ cốt lõi trong quản lý rủi ro và tối ưu hóa danh mục đầu tư. Theo Lý thuyết Danh mục Hiện đại (Modern Portfolio Theory) của Harry Markowitz, sự biến động tổng thể của danh mục không chỉ phụ thuộc vào phương sai của từng tài sản, mà còn vào hiệp phương sai giữa các tài sản đó.

Hiệp phương sai giúp xác định mức độ phân tán chung của các tài sản:

  • Hiệp phương sai dương cao: Các tài sản biến động cùng chiều, làm tăng rủi ro danh mục.
  • Hiệp phương sai âm: Các tài sản có xu hướng bù trừ cho nhau, giúp giảm rủi ro tổng thể.

 

Ví dụ, một danh mục gồm cổ phiếu và trái phiếu thường có hiệp phương sai âm do thị trường cổ phiếu và thị trường nợ thường di chuyển ngược chiều trong các chu kỳ kinh tế. Việc lựa chọn các tài sản có tương quan thấp hoặc âm giúp xây dựng danh mục có độ ổn định cao hơn.

Một số ứng dụng cụ thể:

Phân tíchVai trò của hiệp phương sai
Ước lượng rủi ro danh mụcTính toán phương sai tổng thông qua ma trận hiệp phương sai
Tối ưu hóa đầu tưTìm trọng số phân bổ tài sản sao cho phương sai danh mục nhỏ nhất
Hệ thống hóa mô hình VAR (Value at Risk)Ước tính phân phối xác suất lợi nhuận dựa trên ma trận hiệp phương sai

Chi tiết về ứng dụng trong đầu tư có thể xem thêm tại CFA Institute - Modern Portfolio Theory.

Hạn chế của hiệp phương sai

Dù hiệp phương sai là công cụ mạnh mẽ, nó vẫn có những hạn chế đáng lưu ý. Trước hết, giá trị hiệp phương sai bị ảnh hưởng bởi đơn vị đo lường của dữ liệu. Điều này khiến cho việc so sánh giá trị hiệp phương sai giữa các cặp biến khác nhau trở nên thiếu tin cậy nếu không được chuẩn hóa.

Thứ hai, hiệp phương sai chỉ đo lường quan hệ tuyến tính. Do đó, nếu hai biến có mối quan hệ phi tuyến (chẳng hạn dạng parabol), giá trị hiệp phương sai có thể gần bằng 0 dù mối liên kết thực sự là rất mạnh. Điều này dễ gây hiểu lầm nếu chỉ dựa vào một chỉ số duy nhất.

Ngoài ra, hiệp phương sai rất nhạy với ngoại lệ (outliers). Một vài giá trị cực đoan có thể làm sai lệch toàn bộ kết quả ước lượng. Trong các trường hợp như vậy, các phương pháp như tương quan Spearman hoặc các chỉ số dựa trên phân vị sẽ đáng tin cậy hơn.

Hiệp phương sai trong dữ liệu thực

Khi áp dụng vào dữ liệu thực, hiệp phương sai thường được tính toán như một bước trong phân tích sơ bộ để đánh giá mối quan hệ giữa các biến. Tuy nhiên, cần thận trọng trong khâu tiền xử lý dữ liệu, bao gồm:

  • Kiểm tra và loại bỏ ngoại lệ.
  • Chuẩn hóa dữ liệu nếu các biến có đơn vị đo khác nhau.
  • Kiểm tra giả định phân phối chuẩn (nếu dùng trong mô hình thống kê cổ điển).

 

Việc sử dụng hiệp phương sai không nên tách rời khỏi bối cảnh dữ liệu. Ví dụ, trong các bộ dữ liệu tài chính với tần suất cao (high-frequency trading), biến động lớn trong ngắn hạn có thể tạo ra giá trị hiệp phương sai cao nhưng không phản ánh xu hướng dài hạn.

Một ví dụ điển hình là việc phân tích thị trường chứng khoán: nếu tính hiệp phương sai giữa chỉ số S&P 500 và lợi nhuận một cổ phiếu công nghệ trong năm 2022, ta có thể phát hiện mức độ nhạy cảm của cổ phiếu đó với biến động thị trường nói chung.

Kết luận

Hiệp phương sai là công cụ thống kê quan trọng dùng để đo lường sự thay đổi cùng nhau của hai biến. Từ biểu thức đơn giản trong toán học, nó mở rộng thành ma trận hiệp phương sai trong phân tích dữ liệu nhiều chiều, phục vụ các ứng dụng thực tiễn trong học máy và tài chính.

Tuy nhiên, cần sử dụng hiệp phương sai một cách có phán đoán, đi kèm các công cụ phân tích khác để đánh giá đầy đủ mối quan hệ giữa các biến, tránh hiểu nhầm do đơn vị đo hoặc ảnh hưởng của các ngoại lệ.

Các bài báo, nghiên cứu, công bố khoa học về chủ đề hiệp phương sai:

Xây dựng giải pháp tối ưu việc xác định các tham số của hàm hiệp phương sai lý thuyết trong phương pháp LSC
Bài báo nghiên cứu về phương pháp xác định các tham số tối ưu của hàm hiệp phương sai lý thuyết trong phương pháp LSC. Cơ sở lý thuyết của phương pháp đã được nghiên cứu chi tiết. Trên cơ sở lý thuyết, chương trình “Fitting Covariance Function” xác định các tham số tối ưu của hàm hiệp phương sai lý thuyết đã được xây dựng bằng ngôn ngữ C#. Dựa trên chương trình mới xây dựng, nhóm tác giả đã tính t...... hiện toàn bộ
#hiệp phương sai thực nghiệm #hiệp phương sai lý thuyết #phương pháp collocation bình phương nhỏ nhất #dị thường trọng lực #khớp hàm hiệp phương sai
Một phương pháp rút gọn tính toán ma trận hiệp phương sai trong việc ước lượng trạng thái của các hệ liên tục với quan sát rời rạc
Một phương pháp rút gọn tính toán ma trận hiệp phương sai trong việc ước lượng trạng thái của các hệ liên tục với quan sát rời rạc
Phân tích độ không chắc chắn cho việc trích xuất mặt phẳng tối ưu từ các điểm đám mây 3D cảm biến khoảng cách nhiễu Dịch bởi AI
Springer Science and Business Media LLC - Tập 3 - Trang 37-48 - 2009
Chúng tôi sử dụng một mô hình tiếng ồn khoảng cách chính xác hơn cho các cảm biến 3D để suy diễn từ đầu các biểu thức cho việc khớp mặt phẳng tối ưu một tập hợp các điểm nhiễu và cho ma trận hiệp phương sai kết hợp của các tham số của mặt phẳng, tức là véc tơ pháp tuyến của nó và khoảng cách của nó đến gốc tọa độ. Mô hình sai số khoảng cách mà chúng tôi sử dụng là một hàm bậc hai của khoảng cách t...... hiện toàn bộ
#đám mây điểm 3D #cảm biến 3D #ma trận hiệp phương sai #bình phương nhỏ nhất #tối ưu hóa mặt phẳng #phân tích độ không chắc chắn
Kiểm định khối chéo cho ma trận hiệp phương sai có chiều cao Dịch bởi AI
TEST - Tập 32 - Trang 447-466 - 2022
Việc kiểm tra cấu trúc của một ma trận hiệp phương sai có chiều cao đóng vai trò quan trọng trong phân tích chứng khoán tài chính, phân tích chuỗi di truyền và nhiều lĩnh vực khác. Kiểm tra xem ma trận hiệp phương sai có dạng khối chéo trong bối cảnh chiều cao là trọng tâm chính của bài báo này. Một số quy trình kiểm định dựa trên giả định phân phối bình thường, giả định hai khối chéo, hoặc giả đị...... hiện toàn bộ
#ma trận hiệp phương sai #kiểm định khối chéo #thống kê U #giả thuyết #chiều cao
Kiểm định ma trận hiệp phương sai bằng phương pháp tìm kiếm chiếu và phương pháp bootstrap Dịch bởi AI
Applied Mathematics-A Journal of Chinese Universities - Tập 13 - Trang 309-322 - 1998
Việc kiểm định sự tương đương của ma trận hiệp phương sai từ lâu đã là một vấn đề thú vị trong suy diễn thống kê. Để khắc phục tình trạng thưa thớt của các điểm dữ liệu trong không gian chiều cao và xử lý các trường hợp tổng quát, tác giả đề xuất một số thống kê thuộc loại tìm kiếm chiếu. Một số kết quả về phân phối giới hạn của các thống kê đã được thu được. Một số thuộc tính của xấp xỉ bootstrap...... hiện toàn bộ
#hiệp phương sai #kiểm định #thống kê #phương pháp bootstrap #phương pháp tìm kiếm chiếu
Tính toán ước lượng ma trận hiệp phương sai từ dữ liệu trong hai lớp Dịch bởi AI
Institute of Mathematics, Czech Academy of Sciences - - 2024
Bài báo này đề cập đến vấn đề ước lượng một ma trận hiệp phương sai từ dữ liệu trong hai lớp: (1) dữ liệu tốt với ma trận hiệp phương sai cần quan tâm và (2) sự ô nhiễm đến từ một phân phối Gaussian với ma trận hiệp phương sai khác. Hình phạt ridge được giới thiệu nhằm giải quyết vấn đề thách thức trong không gian chiều cao khi ước lượng ma trận hiệp phương sai từ mô hình dữ liệu hai lớp. Một ước ...... hiện toàn bộ
#ma trận hiệp phương sai #ước lượng ridge #kiểm tra chéo #phân phối Gaussian #dữ liệu hai lớp
Nghiên cứu so sánh các phương pháp dự báo năng lượng gió
Nâng cao độ chính xác của các phương pháp dự báo năng lượng gió được xem là giải pháp chính để giải quyết vấn đề vận hành khi tích hợp chúng vào hệ thống điện. Do đó, mục tiêu của bài báo là nghiên cứu so sánh các phương pháp đã có với các phương pháp kết hợp đề xuất dùng cho dự báo năng lượng gió. Trước tiên, mô hình ARIMA và phương pháp làm mịn lũy thừa (EXP) được sử dụng để dự báo năng lượng gi...... hiện toàn bộ
#Dự báo năng lượng gió #Mô hình ARIMA #Phương pháp làm mịn lũy thừa #Mạng nơ ron #Phương pháp phương sai – hiệp phương sai
Về các hệ số biến thiên đa biến Dịch bởi AI
Statistische Hefte - Tập 18 - Trang 123-128 - 1977
Bài báo này xem xét sự phân phối của hệ số biến thiên mẫu (c.v.), $$v = s/\bar x$$, được trình bày ở đây dưới dạng đóng theo các đạo hàm của hàm sinh mô ment (m.g.f.) của phân phối chuẩn. Trong tình huống đa biến tương ứng với các trung bình mẫu $$\bar x = (\bar x_1 ,...,\bar x_p )$$ và ma trận phương sai-hiệp phương sai mẫu $$\bar s = [s_{ij}]$$, phân phối đồng nhất của $$\underset{\raise0.3em\hb...... hiện toàn bộ
#biến thiên #hàm sinh mô ment #phân phối chuẩn #phương sai #hiệp phương sai #đa biến
Xem xét lại Hình học của Biểu đồ Ba phần với Định nghĩa Độ dài Half-Taxi Dịch bởi AI
Journal of the International Association for Mathematical Geology - Tập 34 - Trang 275-290 - 2002
Một định nghĩa thay thế về khoảng cách được trình bày cho các quan sát được vẽ trong một biểu đồ ba phần và, nói chung, cho các quan sát trong một tập hợp dữ liệu thành phần. Định nghĩa này, phù hợp với hệ tọa độ tam giác của biểu đồ ba phần, được so sánh với các phép đo khoảng cách khác và cho thấy nó liên quan đến cấu trúc hiệp phương sai của dữ liệu thành phần. Sự khác biệt góc cũng được thảo l...... hiện toàn bộ
#biểu đồ ba phần #dữ liệu thành phần #khoảng cách #cấu trúc hiệp phương sai #định nghĩa Half-Taxi
Ước lượng tối đa khả năng và ước lượng tối đa khả năng hạn chế cho một lớp các trường ngẫu nhiên Markov Gaussian Dịch bởi AI
Springer Science and Business Media LLC - Tập 74 - Trang 167-183 - 2009
Bài viết này mô tả một mô hình trường ngẫu nhiên Markov Gaussian bao gồm một số mô hình đã được đề xuất trước đó, và nghiên cứu các thuộc tính của ước lượng tối đa khả năng (ML) và ước lượng tối đa khả năng hạn chế (REML) trong một trường hợp đặc biệt. Cụ thể, đối với các mô hình mà một mối quan hệ cụ thể giữa các ma trận hồi quy và ma trận chính xác của mô hình được giữ, chúng tôi cung cấp các đi...... hiện toàn bộ
#Mô hình trường ngẫu nhiên Markov Gaussian #ước lượng tối đa khả năng #ước lượng tối đa khả năng hạn chế #tham số hiệp phương sai #thuật toán ước lượng.
Tổng số: 31   
  • 1
  • 2
  • 3
  • 4