home *** CD-ROM | disk | FTP | other *** search
/ Geek Gadgets 1 / ADE-1.bin / ade-dist / gawk-2.15.6-src.tgz / tar.out / fsf / gawk / re.c < prev    next >
C/C++ Source or Header  |  1996-09-28  |  5KB  |  223 lines

  1. /*
  2.  * re.c - compile regular expressions.
  3.  */
  4.  
  5. /* 
  6.  * Copyright (C) 1991-1995 the Free Software Foundation, Inc.
  7.  * 
  8.  * This file is part of GAWK, the GNU implementation of the
  9.  * AWK Progamming Language.
  10.  * 
  11.  * GAWK is free software; you can redistribute it and/or modify
  12.  * it under the terms of the GNU General Public License as published by
  13.  * the Free Software Foundation; either version 2 of the License, or
  14.  * (at your option) any later version.
  15.  * 
  16.  * GAWK is distributed in the hope that it will be useful,
  17.  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  18.  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  19.  * GNU General Public License for more details.
  20.  * 
  21.  * You should have received a copy of the GNU General Public License
  22.  * along with GAWK; see the file COPYING.  If not, write to
  23.  * the Free Software Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
  24.  */
  25.  
  26. #include "awk.h"
  27.  
  28. /* Generate compiled regular expressions */
  29.  
  30. Regexp *
  31. make_regexp(s, len, ignorecase, dfa)
  32. char *s;
  33. size_t len;
  34. int ignorecase;
  35. int dfa;
  36. {
  37.     Regexp *rp;
  38.     const char *rerr;
  39.     char *src = s;
  40.     char *temp;
  41.     char *end = s + len;
  42.     register char *dest;
  43.     register int c;
  44.  
  45.     /* Handle escaped characters first. */
  46.  
  47.     /* Build a copy of the string (in dest) with the
  48.        escaped characters translated,  and generate the regex
  49.        from that.  
  50.     */
  51.     emalloc(dest, char *, len + 2, "make_regexp");
  52.     temp = dest;
  53.  
  54.     while (src < end) {
  55.         if (*src == '\\') {
  56.             c = *++src;
  57.             switch (c) {
  58.             case 'a':
  59.             case 'b':
  60.             case 'f':
  61.             case 'n':
  62.             case 'r':
  63.             case 't':
  64.             case 'v':
  65.             case 'x':
  66.             case '0':
  67.             case '1':
  68.             case '2':
  69.             case '3':
  70.             case '4':
  71.             case '5':
  72.             case '6':
  73.             case '7':
  74.                 c = parse_escape(&src);
  75.                 if (c < 0)
  76.                     cant_happen();
  77.                 *dest++ = (char)c;
  78.                 break;
  79.             default:
  80.                 *dest++ = '\\';
  81.                 *dest++ = (char)c;
  82.                 src++;
  83.                 break;
  84.             } /* switch */
  85.         } else {
  86.             *dest++ = *src++;    /* not '\\' */
  87.         }
  88.     } /* for */
  89.  
  90.     *dest = '\0' ;    /* Only necessary if we print dest ? */
  91.     emalloc(rp, Regexp *, sizeof(*rp), "make_regexp");
  92.     memset((char *) rp, 0, sizeof(*rp));
  93.     emalloc(rp->pat.buffer, unsigned char *, 16, "make_regexp");
  94.     rp->pat.allocated = 16;
  95.     emalloc(rp->pat.fastmap, char *, 256, "make_regexp");
  96.  
  97.     if (ignorecase)
  98.         rp->pat.translate = casetable;
  99.     else
  100.         rp->pat.translate = NULL;
  101.     len = dest - temp;
  102.     if ((rerr = re_compile_pattern(temp, len, &(rp->pat))) != NULL)
  103.         fatal("%s: /%s/", rerr, temp);
  104.  
  105.     /* gack. this must be done *after* re_compile_pattern */
  106.     rp->pat.newline_anchor = 0; /* don't get \n in middle of string */
  107.     if (dfa && !ignorecase) {
  108.         dfacomp(temp, len, &(rp->dfareg), 1);
  109.         rp->dfa = 1;
  110.     } else
  111.         rp->dfa = 0;
  112.  
  113.     free(temp);
  114.     return rp;
  115. }
  116.  
  117. int
  118. research(rp, str, start, len, need_start)
  119. Regexp *rp;
  120. register char *str;
  121. int start;
  122. register size_t len;
  123. int need_start;
  124. {
  125.     char *ret = str;
  126.  
  127.     if (rp->dfa) {
  128.         char save;
  129.         int count = 0;
  130.         int try_backref;
  131.  
  132.         /*
  133.          * dfa likes to stick a '\n' right after the matched
  134.          * text.  So we just save and restore the character.
  135.          */
  136.         save = str[start+len];
  137.         ret = dfaexec(&(rp->dfareg), str+start, str+start+len, 1,
  138.                     &count, &try_backref);
  139.         str[start+len] = save;
  140.     }
  141.     if (ret) {
  142.         if (need_start || rp->dfa == 0) {
  143.             int result = re_search(&(rp->pat), str, start+len,
  144.                     start, len, &(rp->regs));
  145.             /* recover any space from C based alloca */
  146.             (void) alloca(0);
  147.             return result;
  148.         } else
  149.             return 1;
  150.      } else
  151.         return -1;
  152. }
  153.  
  154. void
  155. refree(rp)
  156. Regexp *rp;
  157. {
  158.     free(rp->pat.buffer);
  159.     free(rp->pat.fastmap);
  160.     if (rp->regs.start)
  161.         free(rp->regs.start);
  162.     if (rp->regs.end)
  163.         free(rp->regs.end);
  164.     if (rp->dfa)
  165.         dfafree(&(rp->dfareg));
  166.     free(rp);
  167. }
  168.  
  169. void
  170. dfaerror(s)
  171. const char *s;
  172. {
  173.     fatal(s);
  174. }
  175.  
  176. Regexp *
  177. re_update(t)
  178. NODE *t;
  179. {
  180.     NODE *t1;
  181.  
  182. #    define    CASE    1
  183.     if ((t->re_flags & CASE) == IGNORECASE) {
  184.         if (t->re_flags & CONST)
  185.             return t->re_reg;
  186.         t1 = force_string(tree_eval(t->re_exp));
  187.         if (t->re_text) {
  188.             if (cmp_nodes(t->re_text, t1) == 0) {
  189.                 free_temp(t1);
  190.                 return t->re_reg;
  191.             }
  192.             unref(t->re_text);
  193.         }
  194.         t->re_text = dupnode(t1);
  195.         free_temp(t1);
  196.     }
  197.     if (t->re_reg)
  198.         refree(t->re_reg);
  199.     if (t->re_cnt)
  200.         t->re_cnt++;
  201.     if (t->re_cnt > 10)
  202.         t->re_cnt = 0;
  203.     if (!t->re_text) {
  204.         t1 = force_string(tree_eval(t->re_exp));
  205.         t->re_text = dupnode(t1);
  206.         free_temp(t1);
  207.     }
  208.     t->re_reg = make_regexp(t->re_text->stptr, t->re_text->stlen,
  209.                 IGNORECASE, t->re_cnt);
  210.     t->re_flags &= ~CASE;
  211.     t->re_flags |= IGNORECASE;
  212.     return t->re_reg;
  213. }
  214.  
  215. void
  216. resetup()
  217. {
  218.     reg_syntax_t syn = RE_SYNTAX_AWK;
  219.  
  220.     (void) re_set_syntax(syn);
  221.     dfasyntax(syn, 0);
  222. }
  223.