home *** CD-ROM | disk | FTP | other *** search
/ The Fred Fish Collection 1.5 / ffcollection-1-5-1992-11.iso / ff_disks / 300-399 / ff386.lzh / Statpack / statpack.lzh / Examples / Australia / Australia.doc < prev    next >
Text File  |  1988-08-25  |  4KB  |  59 lines

  1.      The data in the file Australia.data are taken from Aitkin (1978) "The
  2. analysis of unbalanced cross-classified designs." Jr. Roy. Stat. Soc. A141:
  3. 206. The columns in the table are: days Absent, Culture (aboriginal/white),
  4. Sex (female/male), Year (primary/first form/second form/third form), and
  5. Learner (slow/average). The last four are coded nominal variables.
  6.  
  7.      We first read the data into Statpack, defining their names. None have
  8. missing value codes. Next, we create a dump with the same name for future
  9. use.
  10.  
  11.     The first step in the statistical analysis is to inspect the simple
  12. frequency tables for the nominal variables using Tabulate1. For Absence,
  13. we use Desc Stat and see that this variable is highly skewed.
  14.  
  15.      For the four nominal variables, we next study the inter-relations
  16. through two- (and, if necessary, three-) way contingency tables. After
  17. constructing each table with Tabulate2, we adjust the log-linear model with
  18. Log Lin2. The Chi-square tests for independence indicate that only the
  19. relationships, Sex-Year and Year-Learner are significant at the 5% level,
  20. especially the latter. For some reason, girls are very much over-represented
  21. in primary school and boys in first form. Slow learners seem to be much less
  22. frequent in third form.
  23.  
  24.      We may now construct a cross-tabulation for Sex, Year and Learner, using
  25. Tablulate3, followed by Log Lin3. We see that the three-way interaction is
  26. significant, as well as the two two-way interactions with Year (as before).
  27. We examine the interaction model. In second form, there appear to be more
  28. male slow learners than elsewhere.
  29.  
  30.      To study the relationship of days absent to the other variables, we
  31. shall use analysis of variance. The one-way tables show that absence depends
  32. on Culture and Year, but not on Sex and Learner. (The sums of squares differ 
  33. slightly from those in the original article, but are identical to those
  34. obtained with GLIM.) There are more days absent among aboriginals than
  35. whites, and more in second and third form than the other years. Two-way ANOVA
  36. permits us to study the two independent variables at the same time. The
  37. interaction between them is very significant. Display of the interaction 
  38. model shows that aboriginals are especially absent in first and second forms.
  39.  
  40.      Since our preliminary analysis showed the days absent to be very skewed,
  41. we may now test to see what distribution might be fitted. We first regroup
  42. our data into 10 categories with Tabulate1 (the second last category has not
  43. observations, so does not appear in the table). We then choose Dist. The tail
  44. frequencies have not been regrouped, but, since they are small, we ask that 
  45. they now be collected together; we are left with 7 categories. We select
  46. continuous distributions and try each in turn. Aitkin suggest a log normal,
  47. but this does not adjust very well. The simplest acceptable distribution is
  48. the exponential. We plot the histogram and theoretical distribution and save
  49. them to a file. Unfortunately, this cannot be fitted with Statpack (try
  50. GLIM). We choose the power-transformed normal.
  51.  
  52.      We now select Var Mod, and in the new menu, Transform. We give the power
  53. a value of 0.08 to be applied to days lost. If we had chosen to apply a log 
  54. transform as suggested by Aitkin, we would have first chosen Constant and 
  55. added one to the values of days lost before applying the logarithm.
  56.  
  57.      Returning to the Main Menu, we redo the analyses of variance on the new
  58. dependent variable. Absence no longer depends on Year, but only on Culture.
  59. In the two-way analysis, the interaction is no longer significant either.