home *** CD-ROM | disk | FTP | other *** search
/ Carousel / CAROUSEL.cdr / mactosh / lang / flexbin.hqx / flexbin.pit / flex.man.page < prev    next >
Text File  |  1988-05-27  |  18KB  |  438 lines

  1.  
  2.  
  3.  
  4. FLEX(1)             UNIX Programmer's Manual              FLEX(1)
  5.  
  6.  
  7.  
  8. NAME
  9.      flex - fast lexical analyzer generator
  10.  
  11. SYNOPSIS
  12.      flex [ -dfirstvFILT -c[efmF] -Sskeleton_file ] [ filename ]
  13.  
  14. DESCRIPTION
  15.      flex is a rewrite of lex intended to right some of that
  16.      tool's deficiencies: in particular, flex generates lexical
  17.      analyzers much faster, and the analyzers use smaller tables
  18.      and run faster.
  19.  
  20. OPTIONS
  21.      In addition to lex's -t flag, flex has the following
  22.      options:
  23.  
  24.      -d   makes the generated scanner run in debug mode.  When-
  25.           ever a pattern is recognized the scanner will write to
  26.           stderr a line of the form:
  27.  
  28.               --accepting rule #n
  29.  
  30.           Rules are numbered sequentially with the first one
  31.           being 1.
  32.  
  33.      -f   has the same effect as lex's -f flag (do not compress
  34.           the scanner tables); the mnemonic changes from fast
  35.           compilation to (take your pick) full table or fast
  36.           scanner. The actual compilation takes longer, since
  37.           flex is I/O bound writing out the big table.
  38.  
  39.           This option is equivalent to -cf (see below).
  40.  
  41.      -i   instructs flex to generate a case-insensitive scanner.
  42.           The case of letters given in the flex input patterns
  43.           will be ignored, and the rules will be matched regard-
  44.           less of case.  The matched text given in yytext will
  45.           have the preserved case (i.e., it will not be folded).
  46.  
  47.      -r   specifies that the scanner uses the REJECT action.
  48.  
  49.      -s   causes the default rule (that unmatched scanner input
  50.           is echoed to stdout) to be suppressed.  If the scanner
  51.           encounters input that does not match any of its rules,
  52.           it aborts with an error.  This option is useful for
  53.           finding holes in a scanner's rule set.
  54.  
  55.      -v   has the same meaning as for lex (print to stderr a sum-
  56.           mary of statistics of the generated scanner).  Many
  57.           more statistics are printed, though, and the summary
  58.           spans several lines.  Most of the statistics are mean-
  59.           ingless to the casual flex user.
  60.  
  61.      -F   specifies that the fast scanner table representation
  62.           should be used.  This representation is about as fast
  63.           as the full table representation (-f), and for some
  64.           sets of patterns will be considerably smaller (and for
  65.           others, larger).  In general, if the pattern set con-
  66.           tains both "keywords" and a catch-all, "identifier"
  67.           rule, such as in the set:
  68.  
  69.                "case"    return ( TOK_CASE );
  70.                "switch"  return ( TOK_SWITCH );
  71.                ...
  72.                "default" return ( TOK_DEFAULT );
  73.                [a-z]+    return ( TOK_ID );
  74.  
  75.           then you're better off using the full table representa-
  76.           tion.  If only the "identifier" rule is present and you
  77.           then use a hash table or some such to detect the key-
  78.           words, you're better off using -F.
  79.  
  80.           This option is equivalent to -cF (see below).
  81.  
  82.      -I   instructs flex to generate an interactive scanner.
  83.           Normally, scanners generated by flex always look ahead
  84.           one character before deciding that a rule has been
  85.           matched.  At the possible cost of some scanning over-
  86.           head (it's not clear that more overhead is involved),
  87.           flex will generate a scanner which only looks ahead
  88.           when needed.  Such scanners are called interactive
  89.           because if you want to write a scanner for an interac-
  90.           tive system such as a command shell, you will probably
  91.           want the user's input to be terminated with a newline,
  92.           and without -I the user will have to type a character
  93.           in addition to the newline in order to have the newline
  94.           recognized.  This leads to dreadful interactive perfor-
  95.           mance.
  96.  
  97.           If all this seems to confusing, here's the general
  98.           rule: if a human will be typing in input to your
  99.           scanner, use -I, otherwise don't; if you don't care
  100.           about how fast your scanners run and don't want to make
  101.           any assumptions about the input to your scanner, always
  102.           use -I.
  103.  
  104.           Note, -I cannot be used in conjunction with full or
  105.           fast tables, i.e., the -f, -F, -cf, or -cF flags.
  106.  
  107.      -L   instructs flex to not generate #line directives (see
  108.           below).
  109.  
  110.      -T   makes flex run in trace mode.  It will generate a lot
  111.           of messages to standard out concerning the form of the
  112.           input and the resultant non-deterministic and
  113.           deterministic finite automatons.  This option is mostly
  114.           for use in maintaining flex.
  115.  
  116.      -c[efmF]
  117.           controls the degree of table compression.  -ce directs
  118.           flex to construct equivalence classes, i.e., sets of
  119.           characters which have identical lexical properties (for
  120.           example, if the only appearance of digits in the flex
  121.           input is in the character class "[0-9]" then the digits
  122.           '0', '1', ..., '9' will all be put in the same
  123.           equivalence class).  -cf specifies that the full
  124.           scanner tables should be generated - flex should not
  125.           compress the tables by taking advantages of similar
  126.           transition functions for different states.  -cF speci-
  127.           fies that the alternate fast scanner representation
  128.           (described above under the -F flag) should be used.  -
  129.           cm directs flex to construct meta-equivalence classes,
  130.           which are sets of equivalence classes (or characters,
  131.           if equivalence classes are not being used) that are
  132.           commonly used together.  A lone -c specifies that the
  133.           scanner tables should be compressed but neither
  134.           equivalence classes nor meta-equivalence classes should
  135.           be used.
  136.  
  137.           The options -cf or -cF and -cm do not make sense
  138.           together - there is no opportunity for meta-equivalence
  139.           classes if the table is not being compressed.  Other-
  140.           wise the options may be freely mixed.
  141.  
  142.           The default setting is -cem which specifies that flex
  143.           should generate equivalence classes and meta-
  144.           equivalence classes.  This setting provides the highest
  145.           degree of table compression.  You can trade off
  146.           faster-executing scanners at the cost of larger tables
  147.           with the following generally being true:
  148.  
  149.               slowest            smallest
  150.                          -cem
  151.                          -ce
  152.                          -cm
  153.                          -c
  154.                          -c{f,F}e
  155.                          -c{f,F}
  156.               fastest            largest
  157.  
  158.  
  159.      -Sskeleton_file
  160.           overrides the default skeleton file from which flex
  161.           constructs its scanners.  You'll never need this option
  162.           unless you are doing flex maintenance or development.
  163.  
  164. INCOMPATIBILITIES WITH LEX
  165.      flex is fully compatible with lex with the following excep-
  166.      tions:
  167.  
  168.      -    There is no run-time library to link with.  You needn't
  169.           specify -ll when linking, and you must supply a main
  170.           program.  (Hacker's note: since the lex library con-
  171.           tains a main() which simply calls yylex(), you actually
  172.           can be lazy and not supply your own main program and
  173.           link with -ll.)
  174.  
  175.      -    lex's %r (Ratfor scanners) and %t (translation table)
  176.           options are not supported.
  177.  
  178.      -    The do-nothing -n flag is not supported.
  179.  
  180.      -    When definitions are expanded, flex encloses them in
  181.           parentheses.  With lex, the following
  182.  
  183.               NAME    [A-Z][A-Z0-9]*
  184.               %%
  185.               foo{NAME}?      printf( "Found it\n" );
  186.               %%
  187.  
  188.           will not match the string "foo" because when the macro
  189.           is expanded the rule is equivalent to "foo[A-Z][A-Z0-
  190.           9]*?" and the precedence is such that the '?' is asso-
  191.           ciated with "[A-Z0-9]*".  With flex, the rule will be
  192.           expanded to "foo([A-z][A-Z0-9]*)?" and so the string
  193.           "foo" will match.
  194.  
  195.      -    yymore() is not supported.
  196.  
  197.      -    The undocumented lex-scanner internal variable yylineno
  198.           is not supported.
  199.  
  200.      -    If your input uses REJECT, you must run flex with the
  201.           -r flag.  If you leave out the flag, the scanner will
  202.           abort at run-time with a message that the scanner was
  203.           compiled without the flag being specified.
  204.  
  205.      -    The input() routine is not redefinable, though may be
  206.           called to read characters following whatever has been
  207.           matched by a rule.  If input() encounters and end-of-
  208.           file the normal yywrap() processing is done.  A
  209.           ``real'' end-of-file is returned as EOF.
  210.  
  211.           Input can be controlled by redefining the YY_INPUT
  212.           macro.  YY_INPUT's calling sequence is
  213.           "YY_INPUT(buf,result,max_size)".  Its action is to
  214.           place up to max_size characters in the character buffer
  215.           "buf" and return in the integer variable "result"
  216.           either the number of characters read or the constant
  217.           YY_NULL (0 on Unix systems) systems) to indicate EOF.
  218.           The default YY_INPUT reads from the file-pointer "yyin"
  219.           (which is by default stdin), so if you just want to
  220.           change the input file, you needn't redefine YY_INPUT -
  221.           just point yyin at the input file.
  222.  
  223.           A sample redefinition of YY_INPUT (in the first section
  224.           of the input file):
  225.  
  226.               %{
  227.               #undef YY_INPUT
  228.               #define YY_INPUT(buf,result,max_size) \
  229.                   result = (buf[0] = getchar()) == EOF ? YY_NULL : 1;
  230.               %}
  231.  
  232.           You also can add in things like counting keeping track
  233.           of the input line number this way; but don't expect
  234.           your scanner to go very fast.
  235.  
  236.      -    output() is not supported.  Output from the ECHO macro
  237.           is done to the file-pointer "yyout" (default stdout).
  238.  
  239.      -    Trailing context is restricted to patterns which have
  240.           either a fixed-sized leading part or a fixed-sized
  241.           trailing part.  For example, "a*/b" and "a/b*" are
  242.           okay, but not "a*/b*".  This restriction is due to a
  243.           bug in the trailing context algorithm given in Princi-
  244.           ples of Compiler Design (and Compilers - Principles,
  245.           Techniques, and Tools) which can result in mismatches.
  246.           Try the following lex program
  247.  
  248.               %%
  249.               x+/xy           printf( "I found \"%s\"\n", yytext );
  250.  
  251.           on the input "xxy".  (If anyone knows of a fast algo-
  252.           rithm for finding the beginning of trailing context for
  253.           an arbitrary pair of regular expressions, please let me
  254.           know!) If you must have arbitrary trailing context, you
  255.           can use yyless() to effect it.
  256.  
  257.      -    flex reads only one input file, while lex's input is
  258.           made up of the concatenation of its input files.
  259.  
  260. ENHANCEMENTS
  261.      -    Exclusive start-conditions can be declared by using %x
  262.           instead of %s. These start-conditions have the property
  263.           that when they are active, no other rules are active.
  264.           Thus a set of rules governed by the same exclusive
  265.           start condition describe a scanner which is independent
  266.           of any of the other rules in the flex input.  This
  267.           feature makes it easy to specify "mini-scanners" which
  268.           scan portions of the input that are syntactically dif-
  269.           ferent from the rest (e.g., comments).
  270.  
  271.      -    flex dynamically resizes its internal tables, so direc-
  272.           tives like "%a 3000" are not needed when specifying
  273.           large scanners.
  274.  
  275.      -    The scanning routine generated by flex is declared
  276.           using the macro YY_DECL. By redefining this macro you
  277.           can change the routine's name and its calling sequence.
  278.           For example, you could use:
  279.  
  280.               #undef YY_DECL
  281.               #define YY_DECL float lexscan( a, b ) float a, b;
  282.  
  283.           to give it the name lexscan, returning a float, and
  284.           taking two floats as arguments.
  285.  
  286.      -    flex generates #line directives mapping lines in the
  287.           output to their origin in the input file.
  288.  
  289.      -    You can put multiple actions on the same line,
  290.           separated with semi-colons.  With lex, the following
  291.  
  292.               foo    handle_foo(); return 1;
  293.  
  294.           is truncated to
  295.  
  296.               foo    handle_foo();
  297.  
  298.           flex does not truncate the action.  Actions that are
  299.           not enclosed in braces are terminated at the end of the
  300.           line.
  301.  
  302.      -    Actions can be begun with %{ and terminated with %}. In
  303.           this case, flex does not count braces to figure out
  304.           where the action ends - actions are terminated by the
  305.           closing %}. This feature is useful when the enclosed
  306.           action has extraneous braces in it (usually in comments
  307.           or inside inactive #ifdef's) that throw off the brace-
  308.           count.
  309.  
  310.      -    All of the scanner actions (e.g., ECHO, yywrap ...)
  311.           except the unput() and input() routines, are written as
  312.           macros, so they can be redefined if necessary without
  313.           requiring a separate library to link to.
  314.  
  315. FILES
  316.      flex.skel
  317.           skeleton scanner
  318.  
  319.      flex.fastskel
  320.           skeleton scanner for -f and -F
  321.  
  322.      flexskelcom.h
  323.           common definitions for skeleton files
  324.  
  325.      flexskeldef.h
  326.           definitions for compressed skeleton file
  327.  
  328.      fastskeldef.h
  329.           definitions for -f, -F skeleton file
  330.  
  331. SEE ALSO
  332.      lex(1)
  333.  
  334.      M. E. Lesk and E. Schmidt, LEX - Lexical Analyzer Generator
  335.  
  336. AUTHOR
  337.      Vern Paxson, with the help of many ideas and much inspira-
  338.      tion from Van Jacobson.  Original version by Jef Poskanzer.
  339.      Fast table representation is a partial implementation of a
  340.      design done by Van Jacobson.  The implementation was done by
  341.      Kevin Gong and Vern Paxson.
  342.  
  343.      Thanks to the many flex beta-testers, especially Casey Lee-
  344.      dom, Nick Christopher, Chris Faylor, Eric Goldman, Craig
  345.      Leres, Mohamed el Lozy, Esmond Pitt, Jef Poskanzer, and Dave
  346.      Tallman.  Thanks to John Gilmore, Bob Mulcahy, Rich Salz,
  347.      and Richard Stallman for help with various distribution
  348.      headaches.
  349.  
  350.      Send comments to:
  351.  
  352.           Vern Paxson
  353.           Real Time Systems
  354.           Bldg. 46A
  355.           Lawrence Berkeley Laboratory
  356.           1 Cyclotron Rd.
  357.           Berkeley, CA 94720
  358.  
  359.           (415) 486-6411
  360.  
  361.           vern@lbl-{csam,rtsg}.arpa
  362.           ucbvax!lbl-csam.arpa!vern
  363.  
  364.  
  365. DIAGNOSTICS
  366.      flex scanner jammed - a scanner compiled with -s has encoun-
  367.      tered an input string which wasn't matched by any of its
  368.      rules.
  369.  
  370.      flex input buffer overflowed - a scanner rule matched a
  371.      string long enough to overflow the scanner's internal input
  372.      buffer (as large as BUFSIZ in "/usr/include/stdio.h").  You
  373.      can edit flexskelcom.h and increase YY_BUF_SIZE and
  374.      YY_MAX_LINE to increase this limit.
  375.  
  376.      REJECT used and scanner was not generated using -r - just
  377.      like it sounds.  Your scanner uses REJECT. You must run flex
  378.      on the scanner description using the -r flag.
  379.  
  380.      old-style lex command ignored - the flex input contains a
  381.      lex command (e.g., "%n 1000") which is being ignored.
  382.  
  383. BUGS
  384.      Use of unput() or input() trashes the current yytext and
  385.      yyleng.
  386.  
  387.      Use of unput() to push back more text than was matched can
  388.      result in the pushed-back text matching a beginning-of-line
  389.      ('^') rule even though it didn't come at the beginning of
  390.      the line.
  391.  
  392.      Nulls are not allowed in flex inputs or in the inputs to
  393.      scanners generated by flex.  Their presence generates fatal
  394.      errors.
  395.  
  396.      Do not mix trailing context with the '|' operator used to
  397.      specify that multiple rules use the same action.  That is,
  398.      avoid constructs like:
  399.  
  400.              foo/bar      |
  401.              bletch       |
  402.              bugprone     { ... }
  403.  
  404.      They can result in subtle mismatches.  This is actually not
  405.      a problem if there is only one rule using trailing context
  406.      and it is the first in the list (so the above example will
  407.      actually work okay).  The problem is due to fall-through in
  408.      the action switch statement, causing non-trailing-context
  409.      rules to execute the trailing-context code of their fellow
  410.      rules.  This should be fixed, as it's a nasty bug and not
  411.      obvious.  The proper fix is for flex to spit out a
  412.      FLEX_TRAILING_CONTEXT_USED #define and then have the backup
  413.      logic in a separate table which is consulted for each rule-
  414.      match, rather than as part of the rule action.  The place to
  415.      do the tweaking is in add_accept() - any kind soul want to
  416.      be a hero?
  417.  
  418.      The pattern:
  419.  
  420.           x{3}
  421.  
  422.      is considered to be variable-length for the purposes of
  423.      trailing context, even though it has a clear fixed length.
  424.  
  425.      Due to both buffering of input and read-ahead, you cannot
  426.      intermix calls to, for example, getchar() with flex rules
  427.      and expect it to work.  Call input() instead.
  428.  
  429.      The total table entries listed by the -v flag excludes the
  430.      number of table entries needed to determine what rule has
  431.      been matched.  The number of entries is equal to the number
  432.      of DFA states if the scanner was not compiled with -r, and
  433.      greater than the number of states if it was.
  434.  
  435.      The scanner run-time speeds have not been optimized as much
  436.      as they deserve.  Van Jacobson's work shows that they can go
  437.      quite a bit faster still.
  438.