home *** CD-ROM | disk | FTP | other *** search
/ Dream 57 / Amiga_Dream_57.iso / Linux / Net / websec.txt < prev    next >
Text File  |  1998-10-10  |  8KB  |  214 lines

  1. WEB SECRETARY Version 1.11
  2.  
  3. 1. OVERVIEW
  4.  
  5. Web Secretary is a web page monitoring software. However, it goes beyond the
  6. normal functionalities offered by such software. Not only does it detect
  7. changes based on content analysis (instead of date/time stamp or simple
  8. textual comparison), it will email the changed page to you WITH THE NEW
  9. CONTENT HIGHLIGHTED!
  10.  
  11. Web Secretary is actually a suite of two Perl scripts called websec and
  12. webdiff. websec retrieves web pages and email them to you based on a URL
  13. list that you provide. webdiff compares two web pages (current and archive)
  14. and creates a new page based on the current page but with all the
  15. differences highlighted using a predefined color.
  16.  
  17. If you are a Web junkie who monitors a large number of web pages regularly
  18. like me, then you should find Web Secretary very useful.
  19.  
  20. 2. DEPENDENCIES
  21.  
  22. Web Secretary should be able to run on all Unix systems. At present, it has
  23. only been tested on Linux.
  24.  
  25. Web Secretary requires a Perl interpreter on your system to run the scripts.
  26. It also relies on 'lynx' to retrieve web pages, 'metasend' to send the web
  27. pages, and 'mail' to send warning messages when a web page cannot be
  28. retrieved.
  29.  
  30. 3. INSTALLATION AND CONFIGURATION
  31.  
  32. Installing Web Secretary is easy.
  33.  
  34. - Un-tar the distribution. The files will be uncompressed into a directory
  35.   called websec/.
  36.  
  37. - Change directory to websec/.
  38.  
  39. - Edit the first lines in websec and webdiff to reflect the actual location
  40.   of the Perl interpreter on your system.
  41.  
  42. - Edit the URL list called url.list. Please refer to SECTION 5 for more
  43.   information on this.
  44.  
  45. - Edit the ignore keyword files general.ignore. Please refer to SECTION 6
  46.   for more information on this.
  47.  
  48. 4. USAGE 
  49.  
  50. You can run Web Secretary whenever you want to monitor the changes in your
  51. URL list by typing 'websec <URL list>'.
  52.  
  53. Alternatively, you can add Web Secretary to your crontab and run it on a
  54. regular basis (eg. daily).
  55.  
  56. 5. URL LIST
  57.  
  58. The URL list consists of one or more sections separated by newlines.
  59.  
  60. The following keywords are recognized in each section:
  61.  
  62.     URL     - URL of web page to monitor
  63.  
  64.     Auth    - Authentication information in userid:passwd format.
  65.               Put "none" if no authentication needed.
  66.  
  67.     Name    - Name of web site. Pages delivered to you will have the
  68.               following format: "Name - Date (Day)" eg. "PC Magazine - 4 Sep
  69.               98 (Fri)"
  70.  
  71.     Prefix  - Prefix of filenames for archive files of web pages created by
  72.               Web Secretary.
  73.  
  74.     Diff    - Put "none" if you want Web Secretary to always mail this page
  75.               to you instead of checking for and highlighting changes in the
  76.               page.  Put "webwiff" if you want Web Secretary to check for
  77.               changes.
  78.  
  79.     Hicolor - Color used to highlight new or changed content. Currently,
  80.               four colors are defined. They are: blue, pink, yellow and
  81.               grey.
  82.  
  83.     Ignore  - Comma-delimited List of files containing ignore keywords. 
  84.               There must be NO SPACES between delmiters and filenames.
  85.  
  86.     Email   - Email address to send changed pages to.
  87.  
  88. Any line which begins with a '#' is treated as comment and ignored.
  89.  
  90. If a section does not contain a URL entry, the values provided will be
  91. treated as the default for the following sections.
  92.  
  93. For example,
  94.  
  95.     # Defaults
  96.     Auth = none
  97.     Diff = webdiff
  98.     Hicolor = blue
  99.     Ignore = general.ignore,months.ignore
  100.     Email = vchew@pos1.com
  101.  
  102.     # Web page to monitor which does not require authentication
  103.     URL = http://browserwatch.iworld.com/news.html 
  104.     Name = Browser Watch
  105.     Prefix = browsewatch
  106.  
  107.     # New defaults with authentication information
  108.     Auth = user:password
  109.  
  110.     # More web pages to monitor which requires authentication
  111.     URL = http://www.infoworld.com
  112.     Name = Infoworld
  113.     Prefix = infoworld
  114.  
  115.     URL = http://developer.javasoft.com/
  116.     Name = Java Developer Central
  117.     Prefix = jdc
  118.  
  119. 6. IGNORE KEYWORDS
  120.  
  121. Ignore keywords are useful when you want to ignore sections which contains
  122. certain words when determining whether a particular section is new or has
  123. changed.
  124.  
  125. For example, pages like InfoWorld, PC Magazine and PC Week contains the
  126. current date regardless of whether there is new or changed content. In such
  127. cases, you might want to ignore any section which contains month
  128. information.
  129.  
  130. You can also use ignore keywords to skip sections which contains online ads
  131. and other irrelevant information.
  132.  
  133. To use ignore keywords, prepare a text file containing all the ignore
  134. keywords delmited by the newline. Remember keyword matching is performed at
  135. the word boundaries, so substring matching is not applicable.
  136.  
  137. Then, in the appropriate section in the URL list, insert a line:
  138.  
  139.     Ignore = mykeywords.ignore
  140.  
  141. If you want to use multiple ignore keyword files, use:
  142.  
  143.     Ignore = mykeywords1.ignore,mykeywords2.ignore  ... etc
  144.  
  145. If you use certain ignore keyword files regularly, you might want to add it
  146. in a defaults section in the URL list.
  147.  
  148. Three ignore keyword files are supplied by default. months.ignore contains
  149. all the months of the year and their shortforms. days.ignore contains similar
  150. information for days of the week. general.ignore contains some general
  151. ignore keywords which you may want to use.
  152.  
  153. 7. HISTORY
  154.  
  155. 1.11 - Released on 10 Oct 1998
  156.  
  157. * Minor modification to the comparison algorithm so that it won't be fooled
  158.   by extra spaces in the tokens.
  159.  
  160. 1.1  - Released on 25 Sep 1998
  161.  
  162. * Improved the detection algorithm for multiple consecutive mangled HTML
  163.   tags so that they will not be incorrectly highlighted.
  164.  
  165. * Support for Javascript and stylesheet tags so that they will not be
  166.   incorrectly highlighted.
  167.  
  168. 1.0  - First released on 4 Sep 1998.
  169.  
  170. The idea for this tool originated from a software package called Tierra
  171. Highlights for the PC (http://www.tierra.com). I tried it out for a while
  172. and found it to be extremely useful.  However, like most PC tools, it was
  173. closely tied to the PC that you installed the software on. If you are
  174. working on some other computer, you will not be unable to access the pages
  175. being monitored. At that time, I was already convinced that email is the
  176. best "push" platform the world has ever seen, so why not deliver the changed
  177. pages via email?
  178.  
  179. I bounced the idea around for a while amongst friends and colleagues, and
  180. when I could not find any sucker to write this for me :-), I wrote the first
  181. version in a crazy moment of unrest using shell script. However, this first
  182. version was not very configurable, so I quickly wrote the second version in
  183. Perl.
  184.  
  185. So far, however, the program does nothing but retrieve pages and email them
  186. to you. I quickly added a quick hack to do a diff between an archive page
  187. and the current page before deciding whether to email the page, but the
  188. scheme proved too brittle for detecting changes in most cases.
  189.  
  190. I lived with this scheme for a while. Finally, lunacy got the better of me.
  191. I figured out a quick and dirty way of doing what Tierra Highlights does,
  192. and actually thought I could implement the while idea in one day. It took
  193. two days instead, and the inital version sucked like hell and failed
  194. miserably on many pages. However, you should have seen the grin on my face
  195. when it highlighted PC Magazine and PC Week properly. :-)
  196.  
  197. Like most programmers who are crazy enough to think that they can do "this
  198. thing" in one day, I spent the next two weeks feverishly debugging the
  199. project. Everyday, I will add new pages to the URL list, and debug those
  200. which failed to be highlighted. Finally, I have something which I can use
  201. everyday and is prepared to share with the rest of the world.
  202.  
  203. 8. ACKNOWLEDGEMENT
  204.  
  205. I would like to thank the GNU people. I don't know them personally, but they
  206. have blessed us with free and great tools such as Linux, gcc, emacs, Perl,
  207. fetchmail etc. which I now use on a daily basis. In the trails of their
  208. selfless spirit, I will also like to share Web Secretary in the same way,
  209. and hope many people besides me find it useful.
  210.  
  211. I would also like to thank Chng Tiak Jung, a friend and mentor who inspires
  212. me to learn at least one new thing everyday. I am sure if he continues at
  213. his current pace, I will never be able to catch up with him!
  214.