Phân Tích Dữ Liệu Bị Kiểm Duyệt và Chọn Mẫu Bằng Mô Hình Tobit và Heckit
Tóm tắt
Các nhà khoa học chính trị đang ngày càng sử dụng nhiều mô hình Tobit và Heckit. Bài báo này đề cập đến một số vấn đề phổ biến trong việc ứng dụng và diễn giải các mô hình này. Thông qua các thí nghiệm số và phân tích lại dữ liệu từ một nghiên cứu của Romer và Snyder (1994), chúng tôi minh họa những hệ quả của việc sử dụng mô hình Tobit chuẩn, vốn giả định một điểm kiểm duyệt tại zero, trong trường hợp các giá trị bằng zero không phải do cơ chế kiểm duyệt hoặc khi việc kiểm duyệt thực tế không nằm ở zero. Ở trường hợp sau, chúng tôi cũng chỉ ra rằng các kết quả nổi tiếng của Greene (1981) về hướng và kích thước của thiên lệch của ước lượng OLS trong mô hình Tobit chuẩn không nhất thiết phải đúng. Vì mô hình Heckit thường được dùng như một sự thay thế cho Tobit, chúng tôi xem xét các giả định của mô hình này và thảo luận về cách diễn giải đúng đắn kết quả ước lượng Heckit/Tobit bằng mô hình Heckit về dữ liệu đóng góp cho chiến dịch của Grier và các đồng nghiệp (1994). Các phân tích độ nhạy của kết quả ước lượng Heckit gợi ý một số kết luận khá khác biệt so với những gì mà Grier et al. đã đạt được.
Từ khóa
#Tobit; Heckit; kiểm duyệt; thiên lệch; điều chỉnh dữ liệuTài liệu tham khảo
Hereafter we omit subscripts where harmless.
King Gary , Honaker James , Joseph Anne , and Scheve Kenneth . 1998. “Listwise Deletion is Evil: What to Do About Missing Data in Political Science.” Paper presented at the Political Methodology Summer Meeting, UC San Diego.
Equation (5) can be decomposed into two parts for ease of interpretation (McDonald and Moffitt 1980). Roncek (1992) provides an example.
This is so because Thus, for example, for
There can be cases in which the mean of the latent y∗ is of central interest, but when the data are censored the mean of the observed y is usually of greater interest. In analyzing campaign contribution data, for example, interest usually centers on the determinants of the observed contributions, not of the unobserved potential contributions.
This is in contrast to the Tobit model, which assumes that y = y∗ only when y∗ > 0; otherwise y = 0. Hence in the Tobit model, observed y values can never be negative.
Maddala, 1992, Introduction to Econometrics
The model is described in most econometrics texts, e.g., Greene (1997). Our purpose here is not to provide a full exposition of the Tobit model, but only to highlight its most essential aspects.
King Gary , Tomz Michael , and Wittenberg Jason . 1998. “How to Intepret and Present Statistical Results or Enough with the Logit Coefficients Already” Paper prepared for the annual meetings of the American Political Science Association.
For the change dependent variable, the absolute value of x6 is used, and for the adds and drops, the signed version is used. The same is true for x7.
For detailed descriptions of these variables, see Romer and Snyder (1994).
For such data the disequilibrium model seems promising (Maddala 1983).
Tobit is a special case of the Heckit model, when the selection equation is identical to the regression equation.
And if other assumptions of the model are also violated, e.g., if the underlying data-generating process is Poisson rather than anything like a selection mechanism, then the consequences of applying the Heckit model can be even more serious.
The first alternative is implemented in LIMDEP (Greene 1995) as Tobit with selection bias.
Detailed results can be obtained at the Political Analysis website.
For purposes of illustration, we compare the cases with the five highest and the five lowest (in fact, negative) sensitivity values. One could just as easily compare cases above the mean or median with cases below the mean or median, cases ±1 SD from the mean, or cases selected according to any other criterion.
The percentages of data (un)censored are shown in Table 4, where the figures are of more direct interest.
Beck Nathaniel , and Tucker Richard . 1998. “Democracy and Peace: General Law or Limited Phenomenon?” Paper presented at the Annual Meeting of the Midwest Political Science Association, Chicago, IL.
Beck Nathaniel , King Gary , and Zeng Langche . 1998. The Problem with Quantitative Studies of International Conflict. Paper presented at the Political Methodology Summer Meeting, UC San Diego.
Breen, 1998, Regression Models: Censored, Sample Selected, or Truncated Data
Goldberger, 1972, Selection Bias in Evaluating Treatment Effects: Some Formal Illustrations
Greene, 1995, LIMDEP, Version 7.0
Greene, 1997, Econometric Analysis
Our focus on the Romer and Snyder data set and below on the Grier et al. data set is not motivated by a conviction that these analyses are unusually problematic; if anything the opposite is the case. Rather, Romer and Snyder and Grier et al. graciously made their data available to us. Their reward is to be singled out for criticism.
Herron Michael C. 1998. “The Presidential Election of 1988: Low Voter Turnout and the Defeat of Michael Dukakis,” Unpublished paper.
King, 1989, Unifying Political Methodology: The Likelihood Theory of Statistical Inference
The variance of µ is unidentified, so set to 1.