home *** CD-ROM | disk | FTP | other *** search
/ Chip 2001 January / Chip_2001-01_cd1.bin / tema / mysql / mysql-3.23.28g-win-source.exe / myisam / ft_parser.c < prev    next >
C/C++ Source or Header  |  2000-11-16  |  4KB  |  152 lines

  1. /* Copyright (C) 2000 MySQL AB & MySQL Finland AB & TCX DataKonsult AB
  2.  
  3.    This program is free software; you can redistribute it and/or modify
  4.    it under the terms of the GNU General Public License as published by
  5.    the Free Software Foundation; either version 2 of the License, or
  6.    (at your option) any later version.
  7.  
  8.    This program is distributed in the hope that it will be useful,
  9.    but WITHOUT ANY WARRANTY; without even the implied warranty of
  10.    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  11.    GNU General Public License for more details.
  12.  
  13.    You should have received a copy of the GNU General Public License
  14.    along with this program; if not, write to the Free Software
  15.    Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA */
  16.  
  17. /* Written by Sergei A. Golubchik, who has a shared copyright to this code */
  18.  
  19. #include "ftdefs.h"
  20.  
  21. #ifdef EVAL_RUN
  22. #ifdef PIVOT_STAT
  23. ulong collstat=0;
  24. #endif
  25. #endif /* EVAL_RUN */
  26.  
  27. typedef struct st_ft_docstat {
  28.   FT_WORD *list;
  29.   uint uniq;
  30.   double sum;
  31. #ifdef EVAL_RUN
  32.   uint words, totlen;
  33.   double max, nsum, nsum2;
  34. #endif /* EVAL_RUN */
  35.  
  36.   MI_INFO *info;
  37.   uint keynr;
  38.   byte *keybuf;
  39. } FT_DOCSTAT;
  40.  
  41. static int FT_WORD_cmp(FT_WORD *w1, FT_WORD *w2)
  42. {
  43.   return _mi_compare_text(default_charset_info,
  44.               (uchar*) w1->pos,w1->len,
  45.               (uchar*) w2->pos, w2->len,0);
  46. }
  47.  
  48. static int walk_and_copy(FT_WORD *word,uint32 count,FT_DOCSTAT *docstat)
  49. {
  50.     word->weight=LWS_IN_USE;
  51.  
  52. #ifdef EVAL_RUN
  53.     word->cnt= (uchar) count;
  54.     if(docstat->max < word->weight) docstat->max=word->weight;
  55.     docstat->words+=count;
  56.     docstat->totlen+=word->len;
  57. #endif /* EVAL_RUN */
  58.     docstat->sum+=word->weight;
  59.  
  60.     memcpy_fixed((docstat->list)++,word,sizeof(FT_WORD));
  61.     return 0;
  62. }
  63.  
  64. /* transforms tree of words into the array, applying normalization */
  65.  
  66. FT_WORD * ft_linearize(MI_INFO *info, uint keynr, byte *keybuf, TREE *wtree)
  67. {
  68.   FT_WORD *wlist,*p;
  69.   FT_DOCSTAT docstat;
  70.  
  71.   if ((wlist=(FT_WORD *) my_malloc(sizeof(FT_WORD)*
  72.                    (1+wtree->elements_in_tree),MYF(0))))
  73.   {
  74.     docstat.info=info;
  75.     docstat.keynr=keynr;
  76.     docstat.keybuf=keybuf;
  77.     docstat.list=wlist;
  78.     docstat.uniq=wtree->elements_in_tree;
  79. #ifdef EVAL_RUN
  80.     docstat.nsum=docstat.nsum2=docstat.max=docstat.words=docstat.totlen=
  81. #endif /* EVAL_RUN */
  82.     docstat.sum=0;
  83.     tree_walk(wtree,(tree_walk_action)&walk_and_copy,&docstat,left_root_right);
  84.   }
  85.   delete_tree(wtree);
  86.   my_free((char*) wtree,MYF(0));
  87.   if (!wlist)
  88.     return NULL;
  89.  
  90.   docstat.list->pos=NULL;
  91.  
  92.   for(p=wlist;p->pos;p++)
  93.   {
  94.     p->weight=PRENORM_IN_USE;
  95. #ifdef EVAL_RUN
  96.     docstat.nsum+=p->weight;
  97.     docstat.nsum2+=p->weight*p->weight;
  98. #endif /* EVAL_RUN */
  99.   }
  100.  
  101. #ifdef EVAL_RUN
  102. #ifdef PIVOT_STAT
  103.   collstat+=PIVOT_STAT;
  104. #endif
  105. #endif /* EVAL_RUN */
  106.  
  107.   for(p=wlist;p->pos;p++)
  108.   {
  109.     p->weight/=NORM_IN_USE;
  110.   }
  111.  
  112.   return wlist;
  113. }
  114.  
  115. #ifdef HYPHEN_IS_DELIM
  116. #define word_char(X)    (isalnum(X) || (X)=='_' || (X)=='\'')
  117. #else
  118. #define word_char(X)    (isalnum(X) || (X)=='_' || (X)=='\'' || (X)=='-')
  119. #endif
  120.  
  121. /* this is rather dumb first version of the parser */
  122. TREE * ft_parse(TREE *wtree, byte *doc, int doclen)
  123. {
  124.   byte *end=doc+doclen;
  125.   FT_WORD w;
  126.  
  127.   if (!wtree)
  128.   {
  129.     if (!(wtree=(TREE *)my_malloc(sizeof(TREE),MYF(0)))) return NULL;
  130.     init_tree(wtree,0,sizeof(FT_WORD),(qsort_cmp)&FT_WORD_cmp,0,NULL);
  131.   }
  132.  
  133.   w.weight=0;
  134.   while (doc<end)
  135.   {
  136.     for (;doc<end;doc++)
  137.       if (word_char(*doc)) break;
  138.     for (w.pos=doc; doc<end; doc++)
  139.       if (!word_char(*doc)) break;
  140.     if ((w.len= (uint) (doc-w.pos)) < MIN_WORD_LEN) continue;
  141.     if (w.len >= HA_FT_MAXLEN) continue;
  142.     if (is_stopword(w.pos, w.len)) continue;
  143.     if (!tree_insert(wtree, &w, 0))
  144.     {
  145.       delete_tree(wtree);
  146.       my_free((char*) wtree,MYF(0));
  147.       return NULL;
  148.     }
  149.   }
  150.   return wtree;
  151. }
  152.