home *** CD-ROM | disk | FTP | other *** search
/ Canadian Encyclopedia 2000 (Student Edition) / TheCanadianEncyclopedia2000StudentEdition-Win95Mac-Disc2of2.bin / data / books / 0-7715-1984-2 / reference / veritystyles / style.prm < prev    next >
Text File  |  1999-01-19  |  4KB  |  78 lines

  1. # $Id: style.prm,v 1.7 1996/09/15 00:36:13 bjohnson Exp $
  2. # Copyright (C) 1987-1995 Verity, Inc.
  3. #
  4. # style.prm - collection schema parameters
  5. #
  6. # This file is used to enable/disable index schema features through
  7. # macro definitions similar to those allowed by the C preprocesser.
  8. # This file is included in other style files using $include so
  9. # that the selected features are propogated to the schemas of all
  10. # tables in the index.  Refer to the "Using the style.prm File"
  11. # chapter in the Collection Buiding Guide for more information.
  12.  
  13. # -----------------------------------------------------------------
  14. # The IDX-CONFIG parameter defines the storage format used to 
  15. # encode the word positions in the index.  WCT (Word Count) format
  16. # is a compact format, storing the ordinal counting position of the
  17. # word from the beginning of the document.  PSW (Paragraph, Sentence,
  18. # Word) format takes approximately 15-20% more disk space, but
  19. # stores semantically accurate paragraph and sentence boundaries.
  20. # Optionally, Many may be specified with either WCT or PSW to 
  21. # improve the accuracy of the <MANY> operator at the expense of
  22. # diskspace and search performance.
  23.  
  24. # This example enbles Word Count word position format (the default).
  25. $define IDX-CONFIG      "WCT"
  26.  
  27. # This example turns on Paragraph/Sentence/Word word position format.
  28. # It also enables the <MANY> operator accuracy improvement.
  29. #$define IDX-CONFIG     "PSW Many"
  30.  
  31. # -----------------------------------------------------------------
  32. # The IDXOPTS parameters define which index options are applied to
  33. # the various index token tables.  The following index options are
  34. # supported for each: Stemdex enables an index by the stem of each
  35. # word. Casedex stores all case variants of a word separately, so
  36. # one can search for case sensitive terms such as "Jobs", "Apple", 
  37. # and "NeXT" more easily. Soundex stores phonetic representations
  38. # of the word, using AT&T's standard soundex algorithm.  The 
  39. # application may also store 1-4 bytes of application-specific 
  40. # data with each word instance, in the form of Location data and/or 
  41. # Qualify Instance data.  These options are specified separately
  42. # for each token table: word, zone, and zone attribute.
  43. $define    WORD-IDXOPTS    "Stemdex Casedex Soundex"
  44. $define    ZONE-IDXOPTS    "Stemdex Casedex Soundex"
  45. $define    ATTR-IDXOPTS    ""
  46.  
  47. # -----------------------------------------------------------------
  48. # Clustering is enabled by uncommenting the DOC-FEATURES line.
  49. # This stores a feature vector for each document in the
  50. # Documents table.  These features are used for Clustering
  51. # results and fast Query-by-Example.  See the discussions on
  52. # Clustering in the Collection Building Guide for more information.
  53. #$define DOC-FEATURES    "TF"
  54.  
  55. # -----------------------------------------------------------------
  56. # Document Summarization is enabled by uncommenting one of
  57. # the DOC-SUMMARIES lines below.  The summarization data is
  58. # stored in the documents table so that it might easily be
  59. # shown when displaying the results of a search.
  60. # See the discussions on Document Summarization in the 
  61. # Collection Building Guide for more information.
  62.  
  63. # The example below stores the best three sentences of
  64. # the document, but not more than 500 bytes.
  65. #$define DOC-SUMMARIES   "XS MaxSents 3 MaxBytes 500"
  66.  
  67. # The example below stores the first four sentences of
  68. # the document, but not more than 500 bytes.
  69. #$define DOC-SUMMARIES   "LS MaxSents 4 MaxBytes 500"
  70.  
  71. # The example below stores the first 150 bytes of
  72. # the document, with whitespace compressed.
  73. #$define DOC-SUMMARIES   "LB MaxBytes 150"
  74.  
  75.  
  76.  
  77.  
  78.