home *** CD-ROM | disk | FTP | other *** search
/ Usenet 1994 January / usenetsourcesnewsgroupsinfomagicjanuary1994.iso / sources / unix / volume11 / watcher / part01 / Docs / Abstract next >
Encoding:
Text File  |  1987-09-27  |  3.6 KB  |  75 lines

  1. .sp 0.5i
  2. .ce 2
  3. Keeping watch over the flocks
  4. at night (and day)
  5. .sp 0.3i
  6. .ce 8
  7. Kenneth Ingham
  8. University of New Mexico Computing Center
  9. Distributed Systems Group
  10. 2701 Campus NE
  11. Albuquerque, NM 87131
  12. (505) 277-8044
  13. ingham@charon.unm.edu
  14. ucbvax!unmvax!charon!ingham
  15. .sp 0.2i
  16. .ce
  17. Topic Areas: Applications, System management, Utilities
  18. .sp 0.5i
  19. The computing facilities offered by the University of New Mexico
  20. Computing Center include three microvaxen, five large vaxen (780 or
  21. bigger), and a Sequent B8000.  In addition to these Unix/VMS machines,
  22. the UNMCC Distributed Systems Group (DSG) monitors a number of the
  23. various microvaxen and sun workstations scattered across campus.  This
  24. duty falls to the DSG Programmer designated as "DOC", or "DSG On Call",
  25. who receives his beeper based on a monthly rotation schedule.
  26. .sp
  27. In the past, shell scripts running every six hours reported various
  28. system statistics to DOC, who then scanned the output for signs of
  29. possible trouble.  As the number of machines and the number of
  30. potential problems grew, the mound of output that DOC had to process,
  31. most of which merely indicated normal system operation, became
  32. overwhelming.  Now, with several machines to monitor and only one
  33. person acting in this capacity, DOC can often waste a tremendous amount
  34. of time wading through system status reports, time which can be better
  35. spent actually fixing system problems.
  36. .sp
  37. In response to this situation, the author developed a tool which 
  38. introduces some intelligence into the machine's self-reporting, letting
  39. the machine filter out messages indicating normal operation and
  40. forwarding to DOC only those messages which point out trouble areas.
  41. The result of these efforts is Watcher, a very general and extensible
  42. system self-monitor.  Running more often than the set of
  43. shell scripts, Watcher keeps closer tabs on the system; since it
  44. delivers only a summary of potential problems, however, this extra
  45. monitoring produces \fIno\fR corresponding increase in the demand on
  46. the system manager.  No problems slip by unnoticed in the more concise
  47. output, leading to an improvement in overall system availability as well
  48. as the more effective utilization of the system manager's time.
  49. .sp
  50. Watcher was designed to be almost as flexible as DOC in deciding what
  51. constitutes a problem with the system.  Running at intervals specified
  52. in crontab, Watcher issues a number of
  53. user-specified commands (each of which
  54. delivers its output in a different format), parsing all or part of the
  55. output from either the left or the right.  It compares this 
  56. to the last such output obtained, checking for indications 
  57. of a system abnormality.  Such signs might take the form of a
  58. too abrupt change in a certain value (e.g. a process which suddenly
  59. begins gobbling vast amounts of cpu time),
  60. a value which exceeds the allowable maximum or minimum (such as a
  61. an overly-full file system),
  62. or an unacceptable change in a string value
  63. (e.g. when "up" changes to "down").  For commands such as
  64. "ps" whose output varies considerably with each run, specific 
  65. parts of the output can be designated as a key; successive runs of
  66. Watcher will home in on these key areas for their comparisons.
  67. .sp
  68. Since the user specifies not only the commands Watcher will execute and
  69. the time lapse between successive runs, but also the aforementioned
  70. parameters which indicate system anomalies, Watcher can easily be seen
  71. as a very flexible, general system monitor.  Its use at UNM has provided
  72. a marked increase in the productivity of the system manager, which has
  73. led in turn to the increase in the reliability and availability of the
  74. systems at UNMCC.
  75.