home *** CD-ROM | disk | FTP | other *** search
/ Chip 2001 January / Chip_2001-01_cd1.bin / tema / mysql / mysql-3.23.28g-win-source.exe / myisam / ftdefs.h < prev    next >
C/C++ Source or Header  |  2000-08-31  |  4KB  |  100 lines

  1. /* Copyright (C) 2000 MySQL AB & MySQL Finland AB & TCX DataKonsult AB
  2.    
  3.    This program is free software; you can redistribute it and/or modify
  4.    it under the terms of the GNU General Public License as published by
  5.    the Free Software Foundation; either version 2 of the License, or
  6.    (at your option) any later version.
  7.    
  8.    This program is distributed in the hope that it will be useful,
  9.    but WITHOUT ANY WARRANTY; without even the implied warranty of
  10.    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  11.    GNU General Public License for more details.
  12.    
  13.    You should have received a copy of the GNU General Public License
  14.    along with this program; if not, write to the Free Software
  15.    Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA */
  16.  
  17. /* Written by Sergei A. Golubchik, who has a shared copyright to this code */
  18.  
  19. /* some definitions for full-text indices */
  20.  
  21. #include "fulltext.h"
  22. #include <m_ctype.h>
  23. #include <my_tree.h>
  24.  
  25. #define MIN_WORD_LEN 4
  26.  
  27. #define HYPHEN_IS_DELIM
  28. #define HYPHEN_IS_CONCAT     /* not used for now */
  29.  
  30. #define COMPILE_STOPWORDS_IN
  31.  
  32. /* Most of the formulae were shamelessly stolen from SMART distribution
  33.    ftp://ftp.cs.cornell.edu/pub/smart/smart.11.0.tar.Z
  34.    NORM_PIVOT was taken from the article
  35.    A.Singhal, C.Buckley, M.Mitra, "Pivoted Document Length Normalization",
  36.    ACM SIGIR'96, 21-29, 1996
  37.  */
  38.  
  39. #define LWS_FOR_QUERY                      LWS_TF
  40. #define LWS_IN_USE                     LWS_LOG
  41. #define PRENORM_IN_USE                     PRENORM_AVG
  42. #define NORM_IN_USE                      NORM_PIVOT
  43. #define GWS_IN_USE                    GWS_PROB
  44. /*==============================================================*/
  45. #define LWS_TF                          (count)
  46. #define LWS_BINARY                    (count>0)
  47. #define LWS_SQUARE                    (count*count)
  48. #define LWS_LOG                 (count?(log(count)+1):0)
  49. /*--------------------------------------------------------------*/
  50. #define PRENORM_NONE                      (p->weight)
  51. #define PRENORM_MAX              (p->weight/docstat.max)
  52. #define PRENORM_AUG          (0.4+0.6*p->weight/docstat.max)
  53. #define PRENORM_AVG         (p->weight/docstat.sum*docstat.uniq)
  54. #define PRENORM_AVGLOG ((1+log(p->weight))/(1+log(docstat.sum/docstat.uniq)))
  55. /*--------------------------------------------------------------*/
  56. #define NORM_NONE                          (1)
  57. #define NORM_SUM                   (docstat.nsum)
  58. #define NORM_COS                (sqrt(docstat.nsum2))
  59.  
  60. #ifdef EVAL_RUN
  61. /*
  62. extern ulong collstat;
  63. #define PIVOT_STAT  (docstat.uniq)
  64. #define PIVOT_SLOPE (0.69)
  65. #define PIVOT_PIVOT ((double)collstat/(info->state->records+1))
  66. #define NORM_PIVOT  ((1-PIVOT_SLOPE)*PIVOT_PIVOT+PIVOT_SLOPE*docstat.uniq)
  67. */
  68. #endif /* EVAL_RUN */
  69.  
  70. #define PIVOT_VAL (0.0115)
  71. #define NORM_PIVOT  (1+PIVOT_VAL*docstat.uniq)
  72. /*---------------------------------------------------------------*/
  73. #define GWS_NORM                     (1/sqrt(sum2))
  74. #define GWS_GFIDF                      (sum/doc_cnt)
  75. /* Mysterious, but w/o (double) GWS_IDF performs better :-o */
  76. #define GWS_IDF           log(aio->info->state->records/doc_cnt)
  77. #define GWS_IDF1       log((double)aio->info->state->records/doc_cnt)
  78. #define GWS_PROB log(((double)(aio->info->state->records-doc_cnt))/doc_cnt)
  79. #define GWS_FREQ                    (1.0/doc_cnt)
  80. #define GWS_SQUARED pow(log((double)aio->info->state->records/doc_cnt),2)
  81. #define GWS_CUBIC   pow(log((double)aio->info->state->records/doc_cnt),3)
  82. #define GWS_ENTROPY (1-(suml/sum-log(sum))/log(aio->info->state->records))
  83. /*=================================================================*/
  84.  
  85. typedef struct st_ft_word {
  86.   byte * pos;
  87.   uint     len;
  88.   double weight;
  89. #ifdef EVAL_RUN
  90.   byte     cnt;
  91. #endif /* EVAL_RUN */
  92. } FT_WORD;
  93.  
  94. int is_stopword(char *word, uint len);
  95.  
  96. uint _ft_make_key(MI_INFO *, uint , byte *, FT_WORD *, my_off_t);
  97.  
  98. TREE * ft_parse(TREE *, byte *, int);
  99. FT_WORD * ft_linearize(MI_INFO *, uint, byte *, TREE *);
  100.