home *** CD-ROM | disk | FTP | other *** search
/ Fresh Fish 2 / FFMCD02.bin / new / dev / misc / cweb / cweave.w (.txt) < prev    next >
Texinfo Document  |  1993-12-21  |  161KB  |  3,593 lines

  1. % This file is part of CWEB.
  2. % This program by Silvio Levy and Donald E. Knuth
  3. % is based on a program by Knuth.
  4. % It is distributed WITHOUT ANY WARRANTY, express or implied.
  5. % Version 3.0 --- June 1993
  6. % Copyright (C) 1987,1990,1993 Silvio Levy and Donald E. Knuth
  7. % Permission is granted to make and distribute verbatim copies of this
  8. % document provided that the copyright notice and this permission notice
  9. % are preserved on all copies.
  10. % Permission is granted to copy and distribute modified versions of this
  11. % document under the conditions for verbatim copying, provided that the
  12. % entire resulting derived work is distributed under the terms of a
  13. % permission notice identical to this one.
  14. % Here is TeX material that gets inserted after \input cwebmac
  15. \def\hang{\hangindent 3em\indent\ignorespaces}
  16. \def\pb{$\.|\ldots\.|$} % C brackets (|...|)
  17. \def\v{\char'174} % vertical (|) in typewriter font
  18. \def\dleft{[\![} \def\dright{]\!]} % double brackets
  19. \mathchardef\RA="3221 % right arrow
  20. \mathchardef\BA="3224 % double arrow
  21. \def\({} % ) kludge for alphabetizing certain section names
  22. \def\TeXxstring{\\{\TEX/\_string}}
  23. \def\skipxTeX{\\{skip\_\TEX/}}
  24. \def\copyxTeX{\\{copy\_\TEX/}}
  25. \def\title{CWEAVE (Version 3.0)}
  26. \def\topofcontents{\null\vfill
  27.   \centerline{\titlefont The {\ttitlefont CWEAVE} processor}
  28.   \vskip 15pt
  29.   \centerline{(Version 3.0)}
  30.   \vfill}
  31. \def\botofcontents{\vfill
  32. \noindent
  33. Copyright \copyright\ 1987, 1990, 1993 Silvio Levy and Donald E. Knuth
  34. \bigskip\noindent
  35. Permission is granted to make and distribute verbatim copies of this
  36. document provided that the copyright notice and this permission notice
  37. are preserved on all copies.
  38. \smallskip\noindent
  39. Permission is granted to copy and distribute modified versions of this
  40. document under the conditions for verbatim copying, provided that the
  41. entire resulting derived work is distributed under the terms of a
  42. permission notice identical to this one.
  43. \pageno=\contentspagenumber \advance\pageno by 1
  44. \let\maybe=\iftrue
  45. @** Introduction.
  46. This is the \.{CWEAVE} program by Silvio Levy and Donald E. Knuth,
  47. based on \.{WEAVE} by Knuth.
  48. We are thankful to Steve Avery,
  49. Nelson Beebe, Hans-Hermann Bode (to whom the \CPLUSPLUS/ adaptation is due),
  50. Klaus Guntermann, Norman Ramsey, Tomas Rokicki, Joachim Schnitter,
  51. Joachim Schrod, Lee Wittenberg, and others who have contributed improvements.
  52. The ``banner line'' defined here should be changed whenever \.{CWEAVE}
  53. is modified.
  54. @d banner "This is CWEAVE (Version 3.0)\n"
  55. @c @<Include files@>@/
  56. @<Common code for \.{CWEAVE} and \.{CTANGLE}@>@/
  57. @<Typedef declarations@>@/
  58. @<Global variables@>@/
  59. @<Predeclaration of procedures@>
  60. @ We predeclare several standard system functions here instead of including
  61. their system header files, because the names of the header files are not as
  62. standard as the names of the functions. (For example, some \CEE/ environments
  63. have \.{<string.h>} where others have \.{<strings.h>}.)
  64. @<Predecl...@>=
  65. extern int strlen(); /* length of string */
  66. extern int strcmp(); /* compare strings lexicographically */
  67. extern char* strcpy(); /* copy one string to another */
  68. extern int strncmp(); /* compare up to $n$ string characters */
  69. extern char* strncpy(); /* copy up to $n$ string characters */
  70. @ \.{CWEAVE} has a fairly straightforward outline.  It operates in
  71. three phases: First it inputs the source file and stores cross-reference
  72. data, then it inputs the source once again and produces the \TEX/ output
  73. file, finally it sorts and outputs the index.
  74. Please read the documentation for \.{common}, the set of routines common
  75. to \.{CTANGLE} and \.{CWEAVE}, before proceeding further.
  76. int main (ac, av)
  77. int ac; /* argument count */
  78. char **av; /* argument values */
  79.   argc=ac; argv=av;
  80.   program=cweave;
  81.   make_xrefs=force_lines=1; /* controlled by command-line options */
  82.   common_init();
  83.   @<Set initial values@>;
  84.   if (show_banner) printf(banner); /* print a ``banner line'' */
  85.   @<Store all the reserved words@>;
  86.   phase_one(); /* read all the user's text and store the cross-references */
  87.   phase_two(); /* read all the text again and translate it to \TEX/ form */
  88.   phase_three(); /* output the cross-reference index */
  89.   return wrap_up(); /* and exit gracefully */
  90. @ The following parameters were sufficient in the original \.{WEAVE} to
  91. handle \TEX/, so they should be sufficient for most applications of \.{CWEAVE}.
  92. If you change |max_bytes|, |max_names|, |hash_size| or |buf_size|
  93. you have to change them also in the file |"common.w"|.
  94. @d max_bytes 90000 /* the number of bytes in identifiers,
  95.   index entries, and section names */
  96. @d max_names 4000 /* number of identifiers, strings, section names;
  97.   must be less than 10240; used in |"common.w"| */
  98. @d max_sections 2000 /* greater than the total number of sections */
  99. @d hash_size 353 /* should be prime */
  100. @d buf_size 100 /* maximum length of input line, plus one */
  101. @d longest_name 1000 /* section names and strings shouldn't be longer than this */
  102. @d long_buf_size (buf_size+longest_name)
  103. @d line_length 80 /* lines of \TEX/ output have at most this many characters;
  104.   should be less than 256 */
  105. @d max_refs 20000 /* number of cross-references; must be less than 65536 */
  106. @d max_toks 20000 /* number of symbols in \CEE/ texts being parsed;
  107.   must be less than 65536 */
  108. @d max_texts 4000 /* number of phrases in \CEE/ texts being parsed;
  109.   must be less than 10240 */
  110. @d max_scraps 2000 /* number of tokens in \CEE/ texts being parsed */
  111. @d stack_size 400 /* number of simultaneous output levels */
  112. @ The next few sections contain stuff from the file |"common.w"| that must
  113. be included in both |"ctangle.w"| and |"cweave.w"|. It appears in
  114. file |"common.h"|, which needs to be updated when |"common.w"| changes.
  115. @i common.h
  116. @* Data structures exclusive to {\tt CWEAVE}.
  117. As explained in \.{common.w}, the field of a |name_info| structure
  118. that contains the |rlink| of a section name is used for a completely
  119. different purpose in the case of identifiers.  It is then called the
  120. |ilk| of the identifier, and it is used to
  121. distinguish between various types of identifiers, as follows:
  122. \yskip\hang |normal| identifiers are part of the \CEE/ program and
  123. will appear in italic type.
  124. \yskip\hang |roman| identifiers are index entries that appear after
  125. \.{@@\^} in the \.{CWEB} file.
  126. \yskip\hang |wildcard| identifiers are index entries that appear after
  127. \.{@@:} in the \.{CWEB} file.
  128. \yskip\hang |typewriter| identifiers are index entries that appear after
  129. \.{@@.} in the \.{CWEB} file.
  130. \yskip\hang |else_like|, \dots, |typedef_like|
  131. identifiers are \CEE/ reserved words whose |ilk| explains how they are
  132. to be treated when \CEE/ code is being formatted.
  133. @d ilk dummy.Ilk
  134. @d normal 0 /* ordinary identifiers have |normal| ilk */
  135. @d roman 1 /* normal index entries have |roman| ilk */
  136. @d wildcard 2 /* user-formatted index entries have |wildcard| ilk */
  137. @d typewriter 3 /* `typewriter type' entries have |typewriter| ilk */
  138. @d abnormal(a) (a->ilk>typewriter) /* tells if a name is special */
  139. @d custom 4 /* identifiers with user-given control sequence */
  140. @d unindexed(a) (a->ilk>custom) /* tells if uses of a name are to be indexed */
  141. @d quoted 5 /* \.{NULL} */
  142. @d else_like 26 /* \&{else} */
  143. @d public_like 40 /* \&{public}, \&{private}, \&{protected} */
  144. @d operator_like 41 /* \&{operator} */
  145. @d new_like 42 /* \&{new} */
  146. @d catch_like 43 /* \&{catch} */
  147. @d for_like 45 /* \.{for}, \&{switch}, \&{while} */
  148. @d do_like 46 /* \&{do} */
  149. @d if_like 47 /* \&{if}, \&{ifdef}, \&{endif}, \&{pragma}, \dots */
  150. @d raw_rpar 48 /* `\.)' or `\.]' when looking for \&{const} following */
  151. @d raw_unorbin 49 /* `\.\&' or `\.*' when looking for \&{const} following */
  152. @d const_like 50 /* \&{const}, \&{volatile} */
  153. @d raw_int 51 /* \&{int}, \&{char}, \&{extern}, \dots  */
  154. @d int_like 52 /* same, when not followed by left parenthesis */
  155. @d case_like 53 /* \&{case}, \&{return}, \&{goto}, \&{break}, \&{continue} */
  156. @d sizeof_like 54 /* \&{sizeof} */
  157. @d struct_like 55 /* \&{struct}, \&{union}, \&{enum}, \&{class} */
  158. @d typedef_like 56 /* \&{typedef} */
  159. @d define_like 57 /* \&{define} */
  160. @ We keep track of the current section number in |section_count|, which
  161. is the total number of sections that have started.  Sections which have
  162. been altered by a change file entry have their |changed_section| flag
  163. turned on during the first phase.
  164. @<Global...@>=
  165. boolean change_exists; /* has any section changed? */
  166. @ The other large memory area in \.{CWEAVE} keeps the cross-reference data.
  167. All uses of the name |p| are recorded in a linked list beginning at
  168. |p->xref|, which points into the |xmem| array. The elements of |xmem|
  169. are structures consisting of an integer, |num|, and a pointer |xlink|
  170. to another element of |xmem|.  If |x=p->xref| is a pointer into |xmem|,
  171. the value of |x->num| is either a section number where |p| is used,
  172. or |cite_flag| plus a section number where |p| is mentioned,
  173. or |def_flag| plus a section number where |p| is defined;
  174. and |x->xlink| points to the next such cross-reference for |p|,
  175. if any. This list of cross-references is in decreasing order by
  176. section number. The next unused slot in |xmem| is |xref_ptr|.
  177. The linked list ends at |&xmem[0]|.
  178. The global variable |xref_switch| is set either to |def_flag| or to zero,
  179. depending on whether the next cross-reference to an identifier is to be
  180. underlined or not in the index. This switch is set to |def_flag| when
  181. \.{@@!} or \.{@@d} is scanned, and it is cleared to zero when
  182. the next identifier or index entry cross-reference has been made.
  183. Similarly, the global variable |section_xref_switch| is either
  184. |def_flag| or |cite_flag| or zero, depending
  185. on whether a section name is being defined, cited or used in \CEE/ text.
  186. @<Type...@>=
  187. typedef struct xref_info {
  188.   sixteen_bits num; /* section number plus zero or |def_flag| */
  189.   struct xref_info *xlink; /* pointer to the previous cross-reference */
  190. } xref_info;
  191. typedef xref_info *xref_pointer;
  192. @ @<Global...@>=
  193. xref_info xmem[max_refs]; /* contains cross-reference information */
  194. xref_pointer xmem_end = xmem+max_refs-1;
  195. xref_pointer xref_ptr; /* the largest occupied position in |xmem| */
  196. sixteen_bits xref_switch,section_xref_switch; /* either zero or |def_flag| */
  197. @ A section that is used for multi-file output (with the \.{@@(} feature)
  198. has a special first cross-reference whose |num| field is |file_flag|.
  199. @d file_flag (3*cite_flag)
  200. @d def_flag (2*cite_flag)
  201. @d cite_flag 10240 /* must be strictly larger than |max_sections| */
  202. @d xref equiv_or_xref
  203. @<Set init...@>=
  204. xref_ptr=xmem; name_dir->xref=(char*)xmem; xref_switch=0; section_xref_switch=0;
  205. xmem->num=0; /* sentinel value */
  206. @ A new cross-reference for an identifier is formed by calling |new_xref|,
  207. which discards duplicate entries and ignores non-underlined references
  208. to one-letter identifiers or \CEE/'s reserved words.
  209. If the user has sent the |no_xref| flag (the \.{-x} option of the command line),
  210. it is unnecessary to keep track of cross-references for identifiers.
  211. If one were careful, one could probably make more changes around section
  212. 100 to avoid a lot of identifier looking up.
  213. @d append_xref(c) if (xref_ptr==xmem_end) overflow("cross-reference");
  214.   else (++xref_ptr)->num=c;
  215. @d no_xref (flags['x']==0)
  216. @d make_xrefs flags['x'] /* should cross references be output? */
  217. @d is_tiny(p) ((p+1)->byte_start==(p)->byte_start+1)
  218. new_xref(p)
  219. name_pointer p;
  220.   xref_pointer q; /* pointer to previous cross-reference */
  221.   sixteen_bits m, n; /* new and previous cross-reference value */
  222.   if (no_xref) return;
  223.   if ((unindexed(p) || is_tiny(p)) && xref_switch==0) return;
  224.   m=section_count+xref_switch; xref_switch=0; q=(xref_pointer)p->xref;
  225.   if (q != xmem) {
  226.     n=q->num;
  227.     if (n==m || n==m+def_flag) return;
  228.     else if (m==n+def_flag) {
  229.         q->num=m; return;
  230.     }
  231.   append_xref(m); xref_ptr->xlink=q; p->xref=(char*)xref_ptr;
  232. @ The cross-reference lists for section names are slightly different.
  233. Suppose that a section name is defined in sections $m_1$, \dots,
  234. $m_k$, cited in sections $n_1$, \dots, $n_l$, and used in sections
  235. $p_1$, \dots, $p_j$.  Then its list will contain $m_1+|def_flag|$,
  236. \dots, $m_k+|def_flag|$, $n_1+|cite_flag|$, \dots,
  237. $n_l+|cite_flag|$, $p_1$, \dots, $p_j$, in this order.
  238. Although this method of storage take quadratic time on the length of
  239. the list, under foreseeable uses of \.{CWEAVE} this inefficiency is
  240. insignificant.
  241. new_section_xref(p)
  242. name_pointer p;
  243.   xref_pointer q,r; /* pointers to previous cross-references */
  244.   q=(xref_pointer)p->xref; r=xmem;
  245.   if (q>xmem)
  246.         while (q->num>section_xref_switch) {r=q; q=q->xlink;}
  247.   if (r->num==section_count+section_xref_switch)
  248.         return; /* don't duplicate entries */
  249.   append_xref(section_count+section_xref_switch);
  250.   xref_ptr->xlink=q; section_xref_switch=0;
  251.   if (r==xmem) p->xref=(char*)xref_ptr;
  252.   else r->xlink=xref_ptr;
  253. @ The cross-reference list for a section name may also begin with
  254. |file_flag|. Here's how that flag gets put~in.
  255. set_file_flag(p)
  256. name_pointer p;
  257.   xref_pointer q;
  258.   q=(xref_pointer)p->xref;
  259.   if (q->num==file_flag) return;
  260.   append_xref(file_flag);
  261.   xref_ptr->xlink = q;
  262.   p->xref = (char *)xref_ptr;
  263. @ A third large area of memory is used for sixteen-bit `tokens', which appear
  264. in short lists similar to the strings of characters in |byte_mem|. Token lists
  265. are used to contain the result of \CEE/ code translated into \TEX/ form;
  266. further details about them will be explained later. A |text_pointer| variable
  267. is an index into |tok_start|.
  268. @<Typed...@>=
  269. typedef sixteen_bits token;
  270. typedef token *token_pointer;
  271. typedef token_pointer *text_pointer;
  272. @ The first position of |tok_mem|
  273. that is unoccupied by replacement text is called |tok_ptr|, and the first
  274. unused location of |tok_start| is called |text_ptr|.
  275. Thus, we usually have |tok_start[text_ptr]=tok_ptr|.
  276. @<Global...@>=
  277. token tok_mem[max_toks]; /* tokens */
  278. token_pointer tok_mem_end = tok_mem+max_toks-1; /* end of |tok_mem| */
  279. token_pointer tok_start[max_texts]; /* directory into |tok_mem| */
  280. token_pointer tok_ptr; /* first unused position in |tok_mem| */
  281. text_pointer text_ptr; /* first unused position in |tok_start| */
  282. text_pointer tok_start_end = tok_start+max_texts-1; /* end of |tok_start| */
  283. token_pointer max_tok_ptr; /* largest value of |tok_ptr| */
  284. text_pointer max_text_ptr; /* largest value of |text_ptr| */
  285. @ @<Set init...@>=
  286. tok_ptr=tok_mem+1; text_ptr=tok_start+1; tok_start[0]=tok_mem+1;
  287. tok_start[1]=tok_mem+1;
  288. max_tok_ptr=tok_mem+1; max_text_ptr=tok_start+1;
  289. @ Here are the three procedures needed to complete |id_lookup|:
  290. int names_match(p,first,l,t)
  291. name_pointer p; /* points to the proposed match */
  292. char *first; /* position of first character of string */
  293. int l; /* length of identifier */
  294. eight_bits t; /* desired ilk */
  295.   if (length(p)!=l) return 0;
  296.   if (p->ilk!=t && !(t==normal && abnormal(p))) return 0;
  297.   return !strncmp(first,p->byte_start,l);
  298. init_p(p,t)
  299. name_pointer p;
  300. eight_bits t;
  301.   p->ilk=t; p->xref=(char*)xmem;
  302. init_node(p)
  303. name_pointer p;
  304.   p->xref=(char*)xmem;
  305. @ We have to get \CEE/'s
  306. reserved words into the hash table, and the simplest way to do this is
  307. to insert them every time \.{CWEAVE} is run.  Fortunately there are relatively
  308. few reserved words. (Some of these are not strictly ``reserved,'' but
  309. are defined in header files of the ISO Standard \CEE/ Library.)
  310. @^reserved words@>
  311. @<Store all the reserved words@>=
  312. id_lookup("asm",NULL,sizeof_like);
  313. id_lookup("auto",NULL,int_like);
  314. id_lookup("break",NULL,case_like);
  315. id_lookup("case",NULL,case_like);
  316. id_lookup("catch",NULL,catch_like);
  317. id_lookup("char",NULL,raw_int);
  318. id_lookup("class",NULL,struct_like);
  319. id_lookup("clock_t",NULL,raw_int);
  320. id_lookup("const",NULL,const_like);
  321. id_lookup("continue",NULL,case_like);
  322. id_lookup("default",NULL,case_like);
  323. id_lookup("define",NULL,define_like);
  324. id_lookup("defined",NULL,sizeof_like);
  325. id_lookup("delete",NULL,sizeof_like);
  326. id_lookup("div_t",NULL,raw_int);
  327. id_lookup("do",NULL,do_like);
  328. id_lookup("double",NULL,raw_int);
  329. id_lookup("elif",NULL,if_like);
  330. id_lookup("else",NULL,else_like);
  331. id_lookup("endif",NULL,if_like);
  332. id_lookup("enum",NULL,struct_like);
  333. id_lookup("error",NULL,if_like);
  334. id_lookup("extern",NULL,int_like);
  335. id_lookup("FILE",NULL,raw_int);
  336. id_lookup("float",NULL,raw_int);
  337. id_lookup("for",NULL,for_like);
  338. id_lookup("fpos_t",NULL,raw_int);
  339. id_lookup("friend",NULL,int_like);
  340. id_lookup("goto",NULL,case_like);
  341. id_lookup("if",NULL,if_like);
  342. id_lookup("ifdef",NULL,if_like);
  343. id_lookup("ifndef",NULL,if_like);
  344. id_lookup("include",NULL,if_like);
  345. id_lookup("inline",NULL,int_like);
  346. id_lookup("int",NULL,raw_int);
  347. id_lookup("jmp_buf",NULL,raw_int);
  348. id_lookup("ldiv_t",NULL,raw_int);
  349. id_lookup("line",NULL,if_like);
  350. id_lookup("long",NULL,raw_int);
  351. id_lookup("new",NULL,new_like);
  352. id_lookup("NULL",NULL,quoted);
  353. id_lookup("offsetof",NULL,sizeof_like);
  354. id_lookup("operator",NULL,operator_like);
  355. id_lookup("pragma",NULL,if_like);
  356. id_lookup("private",NULL,public_like);
  357. id_lookup("protected",NULL,public_like);
  358. id_lookup("ptrdiff_t",NULL,raw_int);
  359. id_lookup("public",NULL,public_like);
  360. id_lookup("register",NULL,int_like);
  361. id_lookup("return",NULL,case_like);
  362. id_lookup("short",NULL,raw_int);
  363. id_lookup("sig_atomic_t",NULL,raw_int);
  364. id_lookup("signed",NULL,raw_int);
  365. id_lookup("size_t",NULL,raw_int);
  366. id_lookup("sizeof",NULL,sizeof_like);
  367. id_lookup("static",NULL,int_like);
  368. id_lookup("struct",NULL,struct_like);
  369. id_lookup("switch",NULL,for_like);
  370. id_lookup("template",NULL,int_like);
  371. id_lookup("TeX",NULL,custom);
  372. id_lookup("this",NULL,quoted);
  373. id_lookup("throw",NULL,case_like);
  374. id_lookup("time_t",NULL,raw_int);
  375. id_lookup("try",NULL,else_like);
  376. id_lookup("typedef",NULL,typedef_like);
  377. id_lookup("undef",NULL,if_like);
  378. id_lookup("union",NULL,struct_like);
  379. id_lookup("unsigned",NULL,raw_int);
  380. id_lookup("va_dcl",NULL,decl); /* Berkeley's variable-arg-list convention */
  381. id_lookup("va_list",NULL,raw_int); /* ditto */
  382. id_lookup("virtual",NULL,int_like);
  383. id_lookup("void",NULL,raw_int);
  384. id_lookup("volatile",NULL,const_like);
  385. id_lookup("wchar_t",NULL,raw_int);
  386. id_lookup("while",NULL,for_like);
  387. @* Lexical scanning.
  388. Let us now consider the subroutines that read the \.{CWEB} source file
  389. and break it into meaningful units. There are four such procedures:
  390. One simply skips to the next `\.{@@\ }' or `\.{@@*}' that begins a
  391. section; another passes over the \TEX/ text at the beginning of a
  392. section; the third passes over the \TEX/ text in a \CEE/ comment;
  393. and the last, which is the most interesting, gets the next token of
  394. a \CEE/ text.  They all use the pointers |limit| and |loc| into
  395. the line of input currently being studied.
  396. @ Control codes in \.{CWEB}, which begin with `\.{@@}', are converted
  397. into a numeric code designed to simplify \.{CWEAVE}'s logic; for example,
  398. larger numbers are given to the control codes that denote more significant
  399. milestones, and the code of |new_section| should be the largest of
  400. all. Some of these numeric control codes take the place of |char|
  401. control codes that will not otherwise appear in the output of the
  402. scanning routines.
  403. @^ASCII code dependencies@>
  404. @d ignore 00 /* control code of no interest to \.{CWEAVE} */
  405. @d verbatim 02 /* takes the place of extended ASCII \.{\char2} */
  406. @d begin_short_comment 03 /* \CPLUSPLUS/ short comment */
  407. @d begin_comment '\t' /* tab marks will not appear */
  408. @d underline '\n' /* this code will be intercepted without confusion */
  409. @d noop 0177 /* takes the place of ASCII delete */
  410. @d xref_roman 0203 /* control code for `\.{@@\^}' */
  411. @d xref_wildcard 0204 /* control code for `\.{@@:}' */
  412. @d xref_typewriter 0205 /* control code for `\.{@@.}' */
  413. @d TeX_string 0206 /* control code for `\.{@@t}' */
  414. @f TeX_string TeX
  415. @d ord 0207 /* control code for `\.{@@'}' */
  416. @d join 0210 /* control code for `\.{@@\&}' */
  417. @d thin_space 0211 /* control code for `\.{@@,}' */
  418. @d math_break 0212 /* control code for `\.{@@\v}' */
  419. @d line_break 0213 /* control code for `\.{@@/}' */
  420. @d big_line_break 0214 /* control code for `\.{@@\#}' */
  421. @d no_line_break 0215 /* control code for `\.{@@+}' */
  422. @d pseudo_semi 0216 /* control code for `\.{@@;}' */
  423. @d macro_arg_open 0220 /* control code for `\.{@@[}' */
  424. @d macro_arg_close 0221 /* control code for `\.{@@]}' */
  425. @d trace 0222 /* control code for `\.{@@0}', `\.{@@1}' and `\.{@@2}' */
  426. @d translit_code 0223 /* control code for `\.{@@l}' */
  427. @d output_defs_code 0224 /* control code for `\.{@@h}' */
  428. @d format_code 0225 /* control code for `\.{@@f}' and `\.{@@s}' */
  429. @d definition 0226 /* control code for `\.{@@d}' */
  430. @d begin_C 0227 /* control code for `\.{@@c}' */
  431. @d section_name 0230 /* control code for `\.{@@<}' */
  432. @d new_section 0231 /* control code for `\.{@@\ }' and `\.{@@*}' */
  433. @ Control codes are converted to \.{CWEAVE}'s internal
  434. representation by means of the table |ccode|.
  435. @<Global...@>=
  436. eight_bits ccode[128]; /* meaning of a char following \.{@@} */
  437. @ @<Set ini...@>=
  438. {int c; for (c=0; c<=127; c++) ccode[c]=0;}
  439. ccode[' ']=ccode['\t']=ccode['\n']=ccode['\v']=ccode['\r']=ccode['\f']
  440.    =ccode['*']=new_section;
  441. ccode['@@']='@@'; /* `quoted' at sign */
  442. ccode['=']=verbatim;
  443. ccode['d']=ccode['D']=definition;
  444. ccode['f']=ccode['F']=ccode['s']=ccode['S']=format_code;
  445. ccode['c']=ccode['C']=ccode['p']=ccode['P']=begin_C;
  446. ccode['t']=ccode['T']=TeX_string;
  447. ccode['l']=ccode['L']=translit_code;
  448. ccode['q']=ccode['Q']=noop;
  449. ccode['h']=ccode['H']=output_defs_code;
  450. ccode['&']=join; ccode['<']=ccode['(']=section_name;
  451. ccode['!']=underline; ccode['^']=xref_roman;
  452. ccode[':']=xref_wildcard; ccode['.']=xref_typewriter; ccode[',']=thin_space;
  453. ccode['|']=math_break; ccode['/']=line_break; ccode['#']=big_line_break;
  454. ccode['+']=no_line_break; ccode[';']=pseudo_semi;
  455. ccode['[']=macro_arg_open; ccode[']']=macro_arg_close;
  456. ccode['\'']=ord;
  457. @<Special control codes for debugging@>@;
  458. @ Users can write
  459. \.{@@2}, \.{@@1}, and \.{@@0} to turn tracing fully on, partly on,
  460. and off, respectively.
  461. @<Special control codes...@>=
  462. ccode['0']=ccode['1']=ccode['2']=trace;
  463. @ The |skip_limbo| routine is used on the first pass to skip through
  464. portions of the input that are not in any sections, i.e., that precede
  465. the first section. After this procedure has been called, the value of
  466. |input_has_ended| will tell whether or not a section has actually been found.
  467. There's a complication that we will postpone until later: If the \.{@@s}
  468. operation appears in limbo, we want to use it to adjust the default
  469. interpretation of identifiers.
  470. @<Predec...@>=
  471. void   skip_limbo();
  472. skip_limbo() {
  473.   while(1) {
  474.     if (loc>limit && get_line()==0) return;
  475.     *(limit+1)='@@';
  476.     while (*loc!='@@') loc++; /* look for '@@', then skip two chars */
  477.     if (loc++ <=limit) { int c=ccode[*loc++];
  478.       if (c==new_section) return;
  479.       if (c==noop) skip_restricted();
  480.       else if (c==format_code) @<Process simple format in limbo@>;
  481.     }
  482. @ The |skip_TeX| routine is used on the first pass to skip through
  483. the \TEX/ code at the beginning of a section. It returns the next
  484. control code or `\.{\v}' found in the input. A |new_section| is
  485. assumed to exist at the very end of the file.
  486. @f skip_TeX TeX
  487. unsigned
  488. skip_TeX() /* skip past pure \TEX/ code */
  489.   while (1) {
  490.     if (loc>limit && get_line()==0) return(new_section);
  491.     *(limit+1)='@@';
  492.     while (*loc!='@@' && *loc!='|') loc++;
  493.     if (*loc++ =='|') return('|');
  494.     if (loc<=limit) return(ccode[*(loc++)]);
  495. @*1 Inputting the next token.
  496. As stated above, \.{CWEAVE}'s most interesting lexical scanning routine is the
  497. |get_next| function that inputs the next token of \CEE/ input. However,
  498. |get_next| is not especially complicated.
  499. The result of |get_next| is either a |char| code for some special character,
  500. or it is a special code representing a pair of characters (e.g., `\.{!=}'),
  501. or it is the numeric value computed by the |ccode|
  502. table, or it is one of the following special codes:
  503. \yskip\hang |identifier|: In this case the global variables |id_first| and
  504. |id_loc| will have been set to the beginning and ending-plus-one locations
  505. in the buffer, as required by the |id_lookup| routine.
  506. \yskip\hang |string|: The string will have been copied into the array
  507. |section_text|; |id_first| and |id_loc| are set as above (now they are
  508. pointers into |section_text|).
  509. \yskip\hang |constant|: The constant is copied into |section_text|, with
  510. slight modifications; |id_first| and |id_loc| are set.
  511. \yskip\noindent Furthermore, some of the control codes cause
  512. |get_next| to take additional actions:
  513. \yskip\hang |xref_roman|, |xref_wildcard|, |xref_typewriter|, |TeX_string|,
  514. |verbatim|: The values of |id_first| and |id_loc| will have been set to
  515. the beginning and ending-plus-one locations in the buffer.
  516. \yskip\hang |section_name|: In this case the global variable |cur_section| will
  517. point to the |byte_start| entry for the section name that has just been scanned.
  518. The value of |cur_section_char| will be |'('| if the section name was
  519. preceded by \.{@@(} instead of \.{@@<}.
  520. \yskip\noindent If |get_next| sees `\.{@@!}'
  521. it sets |xref_switch| to |def_flag| and goes on to the next token.
  522. @d constant 0200 /* \CEE/ constant */
  523. @d string 0201 /* \CEE/ string */
  524. @d identifier 0202 /* \CEE/ identifier or reserved word */
  525. @<Global...@>=
  526. name_pointer cur_section; /* name of section just scanned */
  527. char cur_section_char; /* the character just before that name */
  528. @ @<Include...@>=
  529. #include <ctype.h> /* definition of |isalpha|, |isdigit| and so on */
  530. #include <stdlib.h> /* definition of |exit| */
  531. @ As one might expect, |get_next| consists mostly of a big switch
  532. that branches to the various special cases that can arise.
  533. @d isxalpha(c) ((c)=='_') /* non-alpha character allowed in identifier */
  534. @d ishigh(c) ((eight_bits)(c)>0177)
  535. @^high-bit character handling@>
  536. @<Predecl...@>=
  537. eight_bits get_next();
  538. eight_bits
  539. get_next() /* produces the next input token */
  540. {@+eight_bits c; /* the current character */
  541.   while (1) {
  542.     @<Check if we're at the end of a preprocessor command@>;
  543.     if (loc>limit && get_line()==0) return(new_section);
  544.     c=*(loc++);
  545.     if (isdigit(c) || c=='\\' || c=='.') @<Get a constant@>@;
  546.     else if (c=='\'' || c=='"' || (c=='L'&&(*loc=='\'' || *loc=='"'))@|
  547.            || (c=='<' && sharp_include_line==1))
  548.         @<Get a string@>@;
  549.     else if (isalpha(c) || isxalpha(c) || ishigh(c))
  550.       @<Get an identifier@>@;
  551.     else if (c=='@@') @<Get control code and possible section name@>@;
  552.     else if (isspace(c)) continue; /* ignore spaces and tabs */
  553.     if (c=='#' && loc==buffer+1) @<Raise preprocessor flag@>;
  554.     mistake: @<Compress two-symbol operator@>@;
  555.     return(c);
  556. @ Because preprocessor commands do not fit in with the rest of the syntax
  557. of \CEE/,
  558. we have to deal with them separately.  One solution is to enclose such
  559. commands between special markers.  Thus, when a \.\# is seen as the
  560. first character of a line, |get_next| returns a special code
  561. |left_preproc| and raises a flag |preprocessing|.
  562. We can use the same internal code number for |left_preproc| as we do
  563. for |ord|, since |get_next| changes |ord| into a string.
  564. @d left_preproc ord /* begins a preprocessor command */
  565. @d right_preproc 0217 /* ends a preprocessor command */
  566. @<Glob...@>=
  567. boolean preprocessing=0; /* are we scanning a preprocessor command? */
  568. @ @<Raise prep...@>= {
  569.   preprocessing=1;
  570.   @<Check if next token is |include|@>;
  571.   return (left_preproc);
  572. @ An additional complication is the freakish use of \.< and \.> to delimit
  573. a file name in lines that start with \.{\#include}.  We must treat this file
  574. name as a string.
  575. @<Glob...@>=
  576. boolean sharp_include_line=0; /* are we scanning a |#include| line? */
  577. @ @<Check if next token is |include|@>=
  578. while (loc<=buffer_end-7 && isspace(*loc)) loc++;
  579. if (loc<=buffer_end-6 && strncmp(loc,"include",7)==0) sharp_include_line=1;
  580. @ When we get to the end of a preprocessor line,
  581. we lower the flag and send a code |right_preproc|, unless
  582. the last character was a \.\\.
  583. @<Check if we're at...@>=
  584.   while (loc==limit-1 && preprocessing && *loc=='\\')
  585.     if (get_line()==0) return(new_section); /* still in preprocessor mode */
  586.   if (loc>=limit && preprocessing) {
  587.     preprocessing=sharp_include_line=0;
  588.     return(right_preproc);
  589. @ The following code assigns values to the combinations \.{++},
  590. \.{--}, \.{->}, \.{>=}, \.{<=}, \.{==}, \.{<<}, \.{>>}, \.{!=}, \.{\v\v}, and
  591. \.{\&\&}, and to the \CPLUSPLUS/
  592. combinations \.{...}, \.{::}, \.{.*} and \.{->*}.
  593. The compound assignment operators (e.g., \.{+=}) are
  594. treated as separate tokens.
  595. @d compress(c) if (loc++<=limit) return(c)
  596. @<Compress tw...@>=
  597. switch(c) {
  598.   case '/': if (*loc=='*') {compress(begin_comment);}
  599.     else if (*loc=='/') compress(begin_short_comment); break;
  600.   case '+': if (*loc=='+') compress(plus_plus); break;
  601.   case '-': if (*loc=='-') {compress(minus_minus);}
  602.     else if (*loc=='>') if (*(loc+1)=='*') {loc++; compress(minus_gt_ast);}
  603.                         else compress(minus_gt); break;
  604.   case '.': if (*loc=='*') {compress(period_ast);}
  605.             else if (*loc=='.' && *(loc+1)=='.') {
  606.               loc++; compress(dot_dot_dot);
  607.             }
  608.             break;
  609.   case ':': if (*loc==':') compress(colon_colon); break;
  610.   case '=': if (*loc=='=') compress(eq_eq); break;
  611.   case '>': if (*loc=='=') {compress(gt_eq);}
  612.     else if (*loc=='>') compress(gt_gt); break;
  613.   case '<': if (*loc=='=') {compress(lt_eq);}
  614.     else if (*loc=='<') compress(lt_lt); break;
  615.   case '&': if (*loc=='&') compress(and_and); break;
  616.   case '|': if (*loc=='|') compress(or_or); break;
  617.   case '!': if (*loc=='=') compress(not_eq); break;
  618. @ @<Get an identifier@>= {
  619.   id_first=--loc;
  620.   while (isalpha(*++loc) || isdigit(*loc) || isxalpha(*loc) || ishigh(*loc));
  621.   id_loc=loc; return(identifier);
  622. @ Different conventions are followed by \TEX/ and \CEE/ to express octal
  623. and hexadecimal numbers; it is reasonable to stick to each convention
  624. within its realm.  Thus the \CEE/ part of a \.{CWEB} file has octals
  625. introduced by \.0 and hexadecimals by \.{0x}, but \.{CWEAVE} will print
  626. in italics or typewriter font, respectively, and introduced by single
  627. or double quotes.  In order to simplify the \TEX/ macro used to print
  628. such constants, we replace some of the characters.
  629. Notice that in this section and the next, |id_first| and |id_loc|
  630. are pointers into the array |section_text|, not into |buffer|.
  631. @<Get a constant@>= {
  632.   id_first=id_loc=section_text+1;
  633.   if (*(loc-1)=='\\') {*id_loc++='~';
  634.   while (isdigit(*loc)) *id_loc++=*loc++;} /* octal constant */
  635.   else if (*(loc-1)=='0') {
  636.     if (*loc=='x' || *loc=='X') {*id_loc++='^'; loc++;
  637.       while (isxdigit(*loc)) *id_loc++=*loc++;} /* hex constant */
  638.     else if (isdigit(*loc)) {*id_loc++='~';
  639.       while (isdigit(*loc)) *id_loc++=*loc++;} /* octal constant */
  640.     else goto dec; /* decimal constant */
  641.   else { /* decimal constant */
  642.     if (*(loc-1)=='.' && !isdigit(*loc)) goto mistake; /* not a constant */
  643.     dec: *id_loc++=*(loc-1);
  644.     while (isdigit(*loc) || *loc=='.') *id_loc++=*loc++;
  645.     if (*loc=='e' || *loc=='E') { /* float constant */
  646.       *id_loc++='_'; loc++;
  647.       if (*loc=='+' || *loc=='-') *id_loc++=*loc++;
  648.       while (isdigit(*loc)) *id_loc++=*loc++;
  649.     }
  650.   while (*loc=='u' || *loc=='U' || *loc=='l' || *loc=='L'
  651.          || *loc=='f' || *loc=='F') {
  652.     *id_loc++='$'; *id_loc++=toupper(*loc++);
  653.   return(constant);
  654. @ \CEE/ strings and character constants, delimited by double and single
  655. quotes, respectively, can contain newlines or instances of their own
  656. delimiters if they are protected by a backslash.  We follow this
  657. convention, but do not allow the string to be longer than |longest_name|.
  658. @<Get a string@>= {
  659.   char delim = c; /* what started the string */
  660.   id_first = section_text+1;
  661.   id_loc = section_text;
  662.   if (delim=='\'' && *(loc-2)=='@@') {*++id_loc='@@'; *++id_loc='@@';}
  663.   *++id_loc=delim;
  664.   if (delim=='L') { /* wide character constant */
  665.     delim=*loc++; *++id_loc=delim;
  666.   if (delim=='<') delim='>'; /* for file names in |#include| lines */
  667.   while (1) {
  668.     if (loc>=limit) {
  669.       if(*(limit-1)!='\\') {
  670.         err_print("! String didn't end"); loc=limit; break;
  671. @.String didn't end@>
  672.       }
  673.       if(get_line()==0) {
  674.         err_print("! Input ended in middle of string"); loc=buffer; break;
  675. @.Input ended in middle of string@>
  676.       }
  677.     }
  678.     if ((c=*loc++)==delim) {
  679.       if (++id_loc<=section_text_end) *id_loc=c;
  680.       break;
  681.     }
  682.     if (c=='\\') if (loc>=limit) continue;
  683.       else if (++id_loc<=section_text_end) {
  684.         *id_loc = '\\'; c=*loc++;
  685.       }
  686.     if (++id_loc<=section_text_end) *id_loc=c;
  687.   if (id_loc>=section_text_end) {
  688.     printf("\n! String too long: ");
  689. @.String too long@>
  690.     term_write(section_text+1,25);
  691.     printf("..."); mark_error;
  692.   id_loc++;
  693.   return(string);
  694. @ After an \.{@@} sign has been scanned, the next character tells us
  695. whether there is more work to do.
  696. @<Get control code and possible section name@>= {
  697.   c=*loc++;
  698.   switch(ccode[c]) {
  699.     case translit_code: err_print("! Use @@l in limbo only"); continue;
  700. @.Use @@l in limbo...@>
  701.     case underline: xref_switch=def_flag; continue;
  702.     case trace: tracing=c-'0'; continue;
  703.     case xref_roman: case xref_wildcard: case xref_typewriter:
  704.     case noop: case TeX_string: c=ccode[c]; skip_restricted(); return(c);
  705.     case section_name:
  706.       @<Scan the section name and make |cur_section| point to it@>;
  707.     case verbatim: @<Scan a verbatim string@>;
  708.     case ord: @<Get a string@>;
  709.     default: return(ccode[c]);
  710. @ The occurrence of a section name sets |xref_switch| to zero,
  711. because the section name might (for example) follow \&{int}.
  712. @<Scan the section name...@>= {
  713.   char *k; /* pointer into |section_text| */
  714.   cur_section_char=*(loc-1);
  715.   @<Put section name into |section_text|@>;
  716.   if (k-section_text>3 && strncmp(k-2,"...",3)==0)
  717.         cur_section=section_lookup(section_text+1,k-3,1); /* 1 indicates a prefix */
  718.   else cur_section=section_lookup(section_text+1,k,0);
  719.   xref_switch=0; return(section_name);
  720. @ Section names are placed into the |section_text| array with consecutive spaces,
  721. tabs, and carriage-returns replaced by single spaces. There will be no
  722. spaces at the beginning or the end. (We set |section_text[0]=' '| to facilitate
  723. this, since the |section_lookup| routine uses |section_text[1]| as the first
  724. character of the name.)
  725. @<Set init...@>=section_text[0]=' ';
  726. @ @<Put section name...@>=
  727. k=section_text;
  728. while (1) {
  729.   if (loc>limit && get_line()==0) {
  730.     err_print("! Input ended in section name");
  731. @.Input ended in section name@>
  732.     loc=buffer+1; break;
  733.   c=*loc;
  734.   @<If end of name or erroneous control code, |break|@>;
  735.   loc++; if (k<section_text_end) k++;
  736.   if (isspace(c)) {
  737.     c=' '; if (*(k-1)==' ') k--;
  738. *k=c;
  739. if (k>=section_text_end) {
  740.   printf("\n! Section name too long: ");
  741. @.Section name too long@>
  742.   term_write(section_text+1,25);
  743.   printf("..."); mark_harmless;
  744. if (*k==' ' && k>section_text) k--;
  745. @ @<If end of name...@>=
  746. if (c=='@@') {
  747.   c=*(loc+1);
  748.   if (c=='>') {
  749.     loc+=2; break;
  750.   if (ccode[c]==new_section) {
  751.     err_print("! Section name didn't end"); break;
  752. @.Section name didn't end@>
  753.   if (c!='@@') {
  754.     err_print("! Control codes are forbidden in section name"); break;
  755. @.Control codes are forbidden...@>
  756.   *(++k)='@@'; loc++; /* now |c==*loc| again */
  757. @ This function skips over a restricted context at relatively high speed.
  758. @<Predecl...@>=
  759. void skip_restricted();
  760. skip_restricted()
  761.   id_first=loc; *(limit+1)='@@';
  762. false_alarm:
  763.   while (*loc!='@@') loc++;
  764.   id_loc=loc;
  765.   if (loc++>limit) {
  766.     err_print("! Control text didn't end"); loc=limit;
  767. @.Control text didn't end@>
  768.   else {
  769.     if (*loc=='@@'&&loc<=limit) {loc++; goto false_alarm;}
  770.     if (*loc++!='>')
  771.       err_print("! Control codes are forbidden in control text");
  772. @.Control codes are forbidden...@>
  773. @ At the present point in the program we
  774. have |*(loc-1)=verbatim|; we set |id_first| to the beginning
  775. of the string itself, and |id_loc| to its ending-plus-one location in the
  776. buffer.  We also set |loc| to the position just after the ending delimiter.
  777. @<Scan a verbatim string@>= {
  778.   id_first=loc++; *(limit+1)='@@'; *(limit+2)='>';
  779.   while (*loc!='@@' || *(loc+1)!='>') loc++;
  780.   if (loc>=limit) err_print("! Verbatim string didn't end");
  781. @.Verbatim string didn't end@>
  782.   id_loc=loc; loc+=2;
  783.   return (verbatim);
  784. @** Phase one processing.
  785. We now have accumulated enough subroutines to make it possible to carry out
  786. \.{CWEAVE}'s first pass over the source file. If everything works right,
  787. both phase one and phase two of \.{CWEAVE} will assign the same numbers to
  788. sections, and these numbers will agree with what \.{CTANGLE} does.
  789. The global variable |next_control| often contains the most recent output of
  790. |get_next|; in interesting cases, this will be the control code that
  791. ended a section or part of a section.
  792. @<Global...@>=
  793. eight_bits next_control; /* control code waiting to be acting upon */
  794. @ The overall processing strategy in phase one has the following
  795. straightforward outline.
  796. @<Predecl...@>=
  797. void phase_one();
  798. phase_one() {
  799.   phase=1; reset_input(); section_count=0;
  800.   skip_limbo(); change_exists=0;
  801.   while (!input_has_ended)
  802.     @<Store cross-reference data for the current section@>;
  803.   changed_section[section_count]=change_exists;
  804.     /* the index changes if anything does */
  805.   phase=2; /* prepare for second phase */
  806.   @<Print error messages about unused or undefined section names@>;
  807. @ @<Store cross-reference data...@>=
  808.   if (++section_count==max_sections) overflow("section number");
  809.   changed_section[section_count]=changing;
  810.      /* it will become 1 if any line changes */
  811.   if (*(loc-1)=='*' && show_progress) {
  812.     printf("*%d",section_count);
  813.     update_terminal; /* print a progress report */
  814.   @<Store cross-references in the \TEX/ part of a section@>;
  815.   @<Store cross-references in the definition part of a section@>;
  816.   @<Store cross-references in the \CEE/ part of a section@>;
  817.   if (changed_section[section_count]) change_exists=1;
  818. @ The |C_xref| subroutine stores references to identifiers in
  819. \CEE/ text material beginning with the current value of |next_control|
  820. and continuing until |next_control| is `\.\{' or `\.{\v}', or until the next
  821. ``milestone'' is passed (i.e., |next_control>=format_code|). If
  822. |next_control>=format_code| when |C_xref| is called, nothing will happen;
  823. but if |next_control=='|'| upon entry, the procedure assumes that this is
  824. the `\.{\v}' preceding \CEE/ text that is to be processed.
  825. The parameter |spec_ctrl| is used to change this behavior. In most cases
  826. |C_xref| is called with |spec_ctrl==ignore|, which triggers the default
  827. processing described above. If |spec_ctrl==section_name|, section names will
  828. be gobbled. This is used when \CEE/ text in the \TEX/ part or inside comments
  829. is parsed: It allows for section names to appear in \pb, but these
  830. strings will not be entered into the cross reference lists since they are not
  831. definitions of section names.
  832. The program uses the fact that our internal code numbers satisfy
  833. the relations |xref_roman=identifier+roman| and |xref_wildcard=identifier
  834. +wildcard| and |xref_typewriter=identifier+typewriter| and |normal=0|.
  835. @<Predecl...@>=
  836. void C_xref();
  837. C_xref( spec_ctrl ) /* makes cross-references for \CEE/ identifiers */
  838.   eight_bits spec_ctrl;
  839.   name_pointer p; /* a referenced name */
  840.   while (next_control<format_code || next_control==spec_ctrl) {
  841.     if (next_control>=identifier && next_control<=xref_typewriter) {
  842.       if (next_control>identifier) @<Replace |"@@@@"| by |"@@"| @>@;
  843.       p=id_lookup(id_first, id_loc,next_control-identifier); new_xref(p);
  844.     }
  845.     if (next_control==section_name) {
  846.       section_xref_switch=cite_flag;
  847.       new_section_xref(cur_section);
  848.     }
  849.     next_control=get_next();
  850.     if (next_control=='|' || next_control==begin_comment ||
  851.         next_control==begin_short_comment) return;
  852. @ The |outer_xref| subroutine is like |C_xref| except that it begins
  853. with |next_control!='|'| and ends with |next_control>=format_code|. Thus, it
  854. handles \CEE/ text with embedded comments.
  855. @<Predecl...@>=
  856. void outer_xref();
  857. outer_xref() /* extension of |C_xref| */
  858.   int bal; /* brace level in comment */
  859.   while (next_control<format_code)
  860.     if (next_control!=begin_comment && next_control!=begin_short_comment)
  861.       C_xref(ignore);
  862.     else {
  863.       boolean is_long_comment=(next_control==begin_comment);
  864.       bal=copy_comment(is_long_comment,1); next_control='|';
  865.       while (bal>0) {
  866.         C_xref(section_name); /* do not reference section names in comments */
  867.         if (next_control=='|') bal=copy_comment(is_long_comment,bal);
  868.         else bal=0; /* an error message will occur in phase two */
  869.       }
  870.     }
  871. @ In the \TEX/ part of a section, cross-reference entries are made only for
  872. the identifiers in \CEE/ texts enclosed in \pb, or for control texts
  873. enclosed in \.{@@\^}$\,\ldots\,$\.{@@>} or \.{@@.}$\,\ldots\,$\.{@@>}
  874. or \.{@@:}$\,\ldots\,$\.{@@>}.
  875. @<Store cross-references in the \T...@>=
  876. while (1) {
  877.   switch (next_control=skip_TeX()) {
  878.     case translit_code: err_print("! Use @@l in limbo only"); continue;
  879. @.Use @@l in limbo...@>
  880.     case underline: xref_switch=def_flag; continue;
  881.     case trace: tracing=*(loc-1)-'0'; continue;
  882.     case '|': C_xref(section_name); break;
  883.     case xref_roman: case xref_wildcard: case xref_typewriter:
  884.     case noop: case section_name:
  885.       loc-=2; next_control=get_next(); /* scan to \.{@@>} */
  886.       if (next_control>=xref_roman && next_control<=xref_typewriter) {
  887.         @<Replace |"@@@@"| by |"@@"| @>@;
  888.         new_xref(id_lookup(id_first, id_loc,next_control-identifier));
  889.       }
  890.       break;
  891.   if (next_control>=format_code) break;
  892. @ @<Replace |"@@@@"| by |"@@"| @>=
  893.   char *src=id_first,*dst=id_first;
  894.   while(src<id_loc){
  895.     if(*src=='@@') src++;
  896.     *dst++=*src++;
  897.   id_loc=dst;
  898.   while (dst<src) *dst++=' '; /* clean up in case of error message display */
  899. @ During the definition and \CEE/ parts of a section, cross-references
  900. are made for all identifiers except reserved words. However, the right
  901. identifier in a format definition is not referenced, and the left
  902. identifier is referenced only if it has been explicitly
  903. underlined (preceded by \.{@@!}).
  904. The \TEX/ code in comments is, of course, ignored, except for
  905. \CEE/ portions enclosed in \pb; the text of a section name is skipped
  906. entirely, even if it contains \pb\ constructions.
  907. The variables |lhs| and |rhs| point to the respective identifiers involved
  908. in a format definition.
  909. @<Global...@>=
  910. name_pointer lhs, rhs; /* pointers to |byte_start| for format identifiers */
  911. @ When we get to the following code we have |next_control>=format_code|.
  912. @<Store cross-references in the d...@>=
  913. while (next_control<=definition) { /* |format_code| or |definition| */
  914.   if (next_control==definition) {
  915.     xref_switch=def_flag; /* implied \.{@@!} */
  916.     next_control=get_next();
  917.   } else @<Process a format definition@>;
  918.   outer_xref();
  919. @ Error messages for improper format definitions will be issued in phase
  920. two. Our job in phase one is to define the |ilk| of a properly formatted
  921. identifier, and to remove cross-references to identifiers that we now
  922. discover should be unindexed.
  923. @<Process a form...@>= {
  924.   next_control=get_next();
  925.   if (next_control==identifier) {
  926.     lhs=id_lookup(id_first, id_loc,normal); lhs->ilk=normal;
  927.     if (xref_switch) new_xref(lhs);
  928.     next_control=get_next();
  929.     if (next_control==identifier) {
  930.       rhs=id_lookup(id_first, id_loc,normal);
  931.       lhs->ilk=rhs->ilk;
  932.       if (unindexed(lhs)) { /* retain only underlined entries */
  933.         xref_pointer q,r=NULL;
  934.         for (q=(xref_pointer)lhs->xref;q>xmem;q=q->xlink)
  935.           if (q->num<def_flag)
  936.             if (r) r->xlink=q->xlink;
  937.             else lhs->xref=(char*)q->xlink;
  938.           else r=q;
  939.       }
  940.       next_control=get_next();
  941.     }
  942. @ A much simpler processing of format definitions occurs when the
  943. definition is found in limbo.
  944. @<Process simple format in limbo@>=
  945.   if (get_next()!=identifier)
  946.     err_print("! Missing left identifier of @@s");
  947. @.Missing left identifier...@>
  948.   else {
  949.     lhs=id_lookup(id_first,id_loc,normal);
  950.     if (get_next()!=identifier)
  951.       err_print("! Missing right identifier of @@s");
  952. @.Missing right identifier...@>
  953.     else {
  954.       rhs=id_lookup(id_first,id_loc,normal);
  955.       lhs->ilk=rhs->ilk;
  956.     }
  957. @ Finally, when the \TEX/ and definition parts have been treated, we have
  958. |next_control>=begin_C|.
  959. @<Store cross-references in the \CEE/...@>=
  960. if (next_control<=section_name) {  /* |begin_C| or |section_name| */
  961.   if (next_control==begin_C) section_xref_switch=0;
  962.   else {
  963.     section_xref_switch=def_flag;
  964.     if(cur_section_char=='(' && cur_section!=name_dir)
  965.       set_file_flag(cur_section);
  966.   do {
  967.     if (next_control==section_name && cur_section!=name_dir)
  968.       new_section_xref(cur_section);
  969.     next_control=get_next(); outer_xref();
  970.   } while ( next_control<=section_name);
  971. @ After phase one has looked at everything, we want to check that each
  972. section name was both defined and used.  The variable |cur_xref| will point
  973. to cross-references for the current section name of interest.
  974. @<Global...@>=
  975. xref_pointer cur_xref; /* temporary cross-reference pointer */
  976. boolean an_output; /* did |file_flag| precede |cur_xref|? */
  977. @ The following recursive procedure
  978. walks through the tree of section names and prints out anomalies.
  979. @^recursion@>
  980. @<Predecl...@>=
  981. void section_check();
  982. section_check(p)
  983. name_pointer p; /* print anomalies in subtree |p| */
  984.   if (p) {
  985.     section_check(p->llink);
  986.     cur_xref=(xref_pointer)p->xref;
  987.     if (cur_xref->num==file_flag) {an_output=1; cur_xref=cur_xref->xlink;}
  988.     else an_output=0;
  989.     if (cur_xref->num <def_flag) {
  990.       printf("\n! Never defined: <"); print_section_name(p); putchar('>'); mark_harmless;
  991. @.Never defined: <section name>@>
  992.     }
  993.     while (cur_xref->num >=cite_flag) cur_xref=cur_xref->xlink;
  994.     if (cur_xref==xmem && !an_output) {
  995.       printf("\n! Never used: <"); print_section_name(p); putchar('>'); mark_harmless;
  996. @.Never used: <section name>@>
  997.     }
  998.     section_check(p->rlink);
  999. @ @<Print error messages about un...@>=section_check(root)
  1000. @* Low-level output routines.
  1001. The \TEX/ output is supposed to appear in lines at most |line_length|
  1002. characters long, so we place it into an output buffer. During the output
  1003. process, |out_line| will hold the current line number of the line about to
  1004. be output.
  1005. @<Global...@>=
  1006. char out_buf[line_length+1]; /* assembled characters */
  1007. char *out_ptr; /* just after last character in |out_buf| */
  1008. char *out_buf_end = out_buf+line_length; /* end of |out_buf| */
  1009. int out_line; /* number of next line to be output */
  1010. @ The |flush_buffer| routine empties the buffer up to a given breakpoint,
  1011. and moves any remaining characters to the beginning of the next line.
  1012. If the |per_cent| parameter is 1 a |'%'| is appended to the line
  1013. that is being output; in this case the breakpoint |b| should be strictly
  1014. less than |out_buf_end|. If the |per_cent| parameter is |0|,
  1015. trailing blanks are suppressed.
  1016. The characters emptied from the buffer form a new line of output;
  1017. if the |carryover| parameter is true, a |"%"| in that line will be
  1018. carried over to the next line (so that \TEX/ will ignore the completion
  1019. of commented-out text).
  1020. @d c_line_write(c) fflush(active_file),fwrite(out_buf+1,sizeof(char),c,active_file)
  1021. @d tex_putc(c) putc(c,active_file)
  1022. @d tex_new_line putc('\n',active_file)
  1023. @d tex_printf(c) fprintf(active_file,c)
  1024. flush_buffer(b,per_cent,carryover)
  1025. char *b;  /* outputs from |out_buf+1| to |b|,where |b<=out_ptr| */
  1026. boolean per_cent,carryover;
  1027.   char *j; j=b; /* pointer into |out_buf| */
  1028.   if (! per_cent) /* remove trailing blanks */
  1029.     while (j>out_buf && *j==' ') j--;
  1030.   c_line_write(j-out_buf);
  1031.   if (per_cent) tex_putc('%');
  1032.   tex_new_line; out_line++;
  1033.   if (carryover)
  1034.     while (j>out_buf)
  1035.       if (*j--=='%' && (j==out_buf || *j!='\\')) {
  1036.         *b--='%'; break;
  1037.       }
  1038.   if (b<out_ptr) strncpy(out_buf+1,b+1,out_ptr-b);
  1039.   out_ptr-=b-out_buf;
  1040. @ When we are copying \TEX/ source material, we retain line breaks
  1041. that occur in the input, except that an empty line is not
  1042. output when the \TEX/ source line was nonempty. For example, a line
  1043. of the \TEX/ file that contains only an index cross-reference entry
  1044. will not be copied. The |finish_line| routine is called just before
  1045. |get_line| inputs a new line, and just after a line break token has
  1046. been emitted during the output of translated \CEE/ text.
  1047. finish_line() /* do this at the end of a line */
  1048.   char *k; /* pointer into |buffer| */
  1049.   if (out_ptr>out_buf) flush_buffer(out_ptr,0,0);
  1050.   else {
  1051.     for (k=buffer; k<=limit; k++)
  1052.       if (!(isspace(*k))) return;
  1053.     flush_buffer(out_buf,0,0);
  1054. @ In particular, the |finish_line| procedure is called near the very
  1055. beginning of phase two. We initialize the output variables in a slightly
  1056. tricky way so that the first line of the output file will be
  1057. `\.{\\input cwebmac}'.
  1058. @<Set init...@>=
  1059. out_ptr=out_buf+1; out_line=1; active_file=tex_file;
  1060. *out_ptr='c'; tex_printf("\\input cwebma");
  1061. @ When we wish to append one character |c| to the output buffer, we write
  1062. `|out(c)|'; this will cause the buffer to be emptied if it was already
  1063. full.  If we want to append more than one character at once, we say
  1064. |out_str(s)|, where |s| is a string containing the characters.
  1065. A line break will occur at a space or after a single-nonletter
  1066. \TEX/ control sequence.
  1067. @d out(c) {if (out_ptr>=out_buf_end) break_out(); *(++out_ptr)=c;}
  1068. out_str(s) /* output characters from |s| to end of string */
  1069. char *s;
  1070.   while (*s) out(*s++);
  1071. @ The |break_out| routine is called just before the output buffer is about
  1072. to overflow. To make this routine a little faster, we initialize position
  1073. 0 of the output buffer to `\.\\'; this character isn't really output.
  1074. @<Set init...@>=
  1075. out_buf[0]='\\';
  1076. @ A long line is broken at a blank space or just before a backslash that isn't
  1077. preceded by another backslash. In the latter case, a |'%'| is output at
  1078. the break.
  1079. @<Predecl...@>=
  1080. void break_out();
  1081. break_out() /* finds a way to break the output line */
  1082.   char *k=out_ptr; /* pointer into |out_buf| */
  1083.   while (1) {
  1084.     if (k==out_buf) @<Print warning message, break the line, |return|@>;
  1085.     if (*k==' ') {
  1086.       flush_buffer(k,0,1); return;
  1087.     }
  1088.     if (*(k--)=='\\' && *k!='\\') { /* we've decreased |k| */
  1089.       flush_buffer(k,1,1); return;
  1090.     }
  1091. @ We get to this section only in the unusual case that the entire output line
  1092. consists of a string of backslashes followed by a string of nonblank
  1093. non-backslashes. In such cases it is almost always safe to break the
  1094. line by putting a |'%'| just before the last character.
  1095. @<Print warning message...@>=
  1096.   printf("\n! Line had to be broken (output l. %d):\n",out_line);
  1097. @.Line had to be broken@>
  1098.   term_write(out_buf+1, out_ptr-out_buf-1);
  1099.   new_line; mark_harmless;
  1100.   flush_buffer(out_ptr-1,1,1); return;
  1101. @ Here is a macro that outputs a section number in decimal notation.
  1102. The number to be converted by |out_section| is known to be less than
  1103. |def_flag|, so it cannot have more than five decimal digits.  If
  1104. the section is changed, we output `\.{\\*}' just after the number.
  1105. out_section(n)
  1106. sixteen_bits n;
  1107.   char s[6];
  1108.   sprintf(s,"%d",n); out_str(s);
  1109.   if(changed_section[n]) out_str ("\\*");
  1110. @.\\*@>
  1111. @ The |out_name| procedure is used to output an identifier or index
  1112. entry, enclosing it in braces.
  1113. out_name(p)
  1114. name_pointer p;
  1115.   char *k, *k_end=(p+1)->byte_start; /* pointers into |byte_mem| */
  1116.   out('{');
  1117.   for (k=p->byte_start; k<k_end; k++) {
  1118.     if (isxalpha(*k)) out('\\');
  1119.     out(*k);
  1120.   out('}');
  1121. @* Routines that copy \TEX/ material.
  1122. During phase two, we use subroutines |copy_limbo|, |copy_TeX|, and
  1123. |copy_comment| in place of the analogous |skip_limbo|, |skip_TeX|, and
  1124. |skip_comment| that were used in phase one. (Well, |copy_comment|
  1125. was actually written in such a way that it functions as |skip_comment|
  1126. in phase one.)
  1127. The |copy_limbo| routine, for example, takes \TEX/ material that is not
  1128. part of any section and transcribes it almost verbatim to the output file.
  1129. The use of `\.{@@}' signs is severely restricted in such material:
  1130. `\.{@@@@}' pairs are replaced by singletons; `\.{@@l}' and `\.{@@q}' and
  1131. `\.{@@s}' are interpreted.
  1132. copy_limbo()
  1133.   char c;
  1134.   while (1) {
  1135.     if (loc>limit && (finish_line(), get_line()==0)) return;
  1136.     *(limit+1)='@@';
  1137.     while (*loc!='@@') out(*(loc++));
  1138.     if (loc++<=limit) {
  1139.       c=*loc++;
  1140.       if (ccode[c]==new_section) break;
  1141.       switch (ccode[c]) {
  1142.         case translit_code: out_str("\\ATL"); break;
  1143. @.\\ATL@>
  1144.         case '@@': out('@@'); break;
  1145.         case noop: skip_restricted(); break;
  1146.         case format_code: if (get_next()==identifier) get_next();
  1147.           if (loc>=limit) get_line(); /* avoid blank lines in output */
  1148.           break; /* the operands of \.{@@s} are ignored on this pass */
  1149.         default: err_print("! Double @@ should be used in limbo");
  1150. @.Double @@ should be used...@>
  1151.         out('@@');
  1152.       }
  1153.     }
  1154. @ The |copy_TeX| routine processes the \TEX/ code at the beginning of a
  1155. section; for example, the words you are now reading were copied in this
  1156. way. It returns the next control code or `\.{\v}' found in the input.
  1157. We don't copy spaces or tab marks into the beginning of a line. This
  1158. makes the test for empty lines in |finish_line| work.
  1159. @ @f copy_TeX TeX
  1160. eight_bits
  1161. copy_TeX()
  1162.   char c; /* current character being copied */
  1163.   while (1) {
  1164.     if (loc>limit && (finish_line(), get_line()==0)) return(new_section);
  1165.     *(limit+1)='@@';
  1166.     while ((c=*(loc++))!='|' && c!='@@') {
  1167.       out(c);
  1168.       if (out_ptr==out_buf+1 && (isspace(c))) out_ptr--;
  1169.     }
  1170.     if (c=='|') return('|');
  1171.     if (loc<=limit) return(ccode[*(loc++)]);
  1172. @ The |copy_comment| function issues a warning if more braces are opened than
  1173. closed, and in the case of a more serious error it supplies enough
  1174. braces to keep \TEX/ from complaining about unbalanced braces.
  1175. Instead of copying the \TEX/ material
  1176. into the output buffer, this function copies it into the token memory
  1177. (in phase two only).
  1178. The abbreviation |app_tok(t)| is used to append token |t| to the current
  1179. token list, and it also makes sure that it is possible to append at least
  1180. one further token without overflow.
  1181. @d app_tok(c) {if (tok_ptr+2>tok_mem_end) overflow("token"); *(tok_ptr++)=c;}
  1182. @<Predec...@>=
  1183. int copy_comment();
  1184. int copy_comment(is_long_comment,bal) /* copies \TEX/ code in comments */
  1185. boolean is_long_comment; /* is this a traditional \CEE/ comment? */
  1186. int bal; /* brace balance */
  1187.   char c; /* current character being copied */
  1188.   while (1) {
  1189.     if (loc>limit) {
  1190.       if (is_long_comment) {
  1191.         if (get_line()==0) {
  1192.           err_print("! Input ended in mid-comment");
  1193. @.Input ended in mid-comment@>
  1194.           loc=buffer+1; goto done;
  1195.         }
  1196.       }
  1197.       else {
  1198.         if (bal>1) err_print("! Missing } in comment");
  1199. @.Missing \} in comment@>
  1200.         goto done;
  1201.       }
  1202.     }
  1203.     c=*(loc++);
  1204.     if (c=='|') return(bal);
  1205.     if (is_long_comment) @<Check for end of comment@>;
  1206.     if (phase==2) app_tok(c);
  1207.     @<Copy special things when |c=='@@', '\\'|@>;
  1208.     if (c=='{') bal++;
  1209.     else if (c=='}') {
  1210.       if(bal>1) bal--;
  1211.       else {err_print("! Extra } in comment");
  1212. @.Extra \} in comment@>
  1213.         if (phase==2) tok_ptr--;
  1214.       }
  1215.     }
  1216. done:@<Clear |bal| and |return|@>;
  1217. @ @<Check for end of comment@>=
  1218. if (c=='*' && *loc=='/') {
  1219.   loc++;
  1220.   if (bal>1) err_print("! Missing } in comment");
  1221. @.Missing \} in comment@>
  1222.   goto done;
  1223. @ @<Copy special things when |c=='@@'...@>=
  1224. if (c=='@@') {
  1225.   if (*(loc++)!='@@') {
  1226.     err_print("! Illegal use of @@ in comment");
  1227. @.Illegal use of @@...@>
  1228.     loc-=2; if (phase==2) *(tok_ptr-1)=' '; goto done;
  1229. else if (c=='\\' && *loc!='@@')
  1230.   if (phase==2) app_tok(*(loc++)) else loc++;
  1231. @ We output
  1232. enough right braces to keep \TEX/ happy.
  1233. @<Clear |bal|...@>=
  1234. if (phase==2) while (bal-- >0) app_tok('}');
  1235. return(0);
  1236. @** Parsing.
  1237. The most intricate part of \.{CWEAVE} is its mechanism for converting
  1238. \CEE/-like code into \TEX/ code, and we might as well plunge into this
  1239. aspect of the program now. A ``bottom up'' approach is used to parse the
  1240. \CEE/-like material, since \.{CWEAVE} must deal with fragmentary
  1241. constructions whose overall ``part of speech'' is not known.
  1242. At the lowest level, the input is represented as a sequence of entities
  1243. that we shall call {\it scraps}, where each scrap of information consists
  1244. of two parts, its {\it category} and its {\it translation}. The category
  1245. is essentially a syntactic class, and the translation is a token list that
  1246. represents \TEX/ code. Rules of syntax and semantics tell us how to
  1247. combine adjacent scraps into larger ones, and if we are lucky an entire
  1248. \CEE/ text that starts out as hundreds of small scraps will join
  1249. together into one gigantic scrap whose translation is the desired \TEX/
  1250. code. If we are unlucky, we will be left with several scraps that don't
  1251. combine; their translations will simply be output, one by one.
  1252. The combination rules are given as context-sensitive productions that are
  1253. applied from left to right. Suppose that we are currently working on the
  1254. sequence of scraps $s_1\,s_2\ldots s_n$. We try first to find the longest
  1255. production that applies to an initial substring $s_1\,s_2\ldots\,$; but if
  1256. no such productions exist, we find to find the longest production
  1257. applicable to the next substring $s_2\,s_3\ldots\,$; and if that fails, we
  1258. try to match $s_3\,s_4\ldots\,$, etc.
  1259. A production applies if the category codes have a given pattern. For
  1260. example, one of the productions (see rule~3) is
  1261. $$\hbox{|exp| }\left\{\matrix{\hbox{|binop|}\cr\hbox{|unorbinop|}}\right\}
  1262. \hbox{ |exp| }\RA\hbox{ |exp|}$$
  1263. and it means that three consecutive scraps whose respective categories are
  1264. |exp|, |binop| (or |unorbinop|),
  1265. and |exp| are converted to one scrap whose category
  1266. is |exp|.  The translations of the original
  1267. scraps are simply concatenated.  The case of
  1268. $$\hbox{|exp| |comma| |exp| $\RA$ |exp|} \hskip4emE_1C\,\\{opt}9\,E_2$$
  1269. (rule 4) is only slightly more complicated:
  1270. Here the resulting |exp| translation
  1271. consists not only of the three original translations, but also of the
  1272. tokens |opt| and 9 between the translations of the
  1273. |comma| and the following |exp|.
  1274. In the \TEX/ file, this will specify an optional line break after the
  1275. comma, with penalty 90.
  1276. At each opportunity the longest possible production is applied.  For
  1277. example, if the current sequence of scraps is |int_like| |cast|
  1278. |lbrace|, rule 31 is applied; but if the sequence is |int_like| |cast|
  1279. followed by anything other than |lbrace|, rule 32 takes effect.
  1280. Translation rules such as `$E_1C\,\\{opt}9\,E_2$' above use subscripts
  1281. to distinguish between translations of scraps whose categories have the
  1282. same initial letter; these subscripts are assigned from left to right.
  1283. @ Here is a list of the category codes that scraps can have.
  1284. (A few others, like |int_like|, have already been defined; the
  1285. |cat_name| array contains a complete list.)
  1286. @d exp 1 /* denotes an expression, including perhaps a single identifier */
  1287. @d unop 2 /* denotes a unary operator */
  1288. @d binop 3 /* denotes a binary operator */
  1289. @d unorbinop 4
  1290.   /* denotes an operator that can be unary or binary, depending on context */
  1291. @d cast 5 /* denotes a cast */
  1292. @d question 6 /* denotes a question mark and possibly the expressions flanking it */
  1293. @d lbrace 7 /* denotes a left brace */
  1294. @d rbrace 8 /* denotes a right brace */
  1295. @d decl_head 9 /* denotes an incomplete declaration */
  1296. @d comma 10 /* denotes a comma */
  1297. @d lpar 11 /* denotes a left parenthesis or left bracket */
  1298. @d rpar 12 /* denotes a right parenthesis or right bracket */
  1299. @d prelangle 13 /* denotes `$<$' before we know what it is */
  1300. @d prerangle 14 /* denotes `$>$' before we know what it is */
  1301. @d langle 15 /* denotes `$<$' when it's used as angle bracket in a template */
  1302. @d colcol 18 /* denotes `::' */
  1303. @d base 19 /* denotes a colon that introduces a base specifier */
  1304. @d decl 20 /* denotes a complete declaration */
  1305. @d struct_head 21 /* denotes the beginning of a structure specifier */
  1306. @d stmt 23 /* denotes a complete statement */
  1307. @d function 24 /* denotes a complete function */
  1308. @d fn_decl 25 /* denotes a function declarator */
  1309. @d semi 27 /* denotes a semicolon */
  1310. @d colon 28 /* denotes a colon */
  1311. @d tag 29 /* denotes a statement label */
  1312. @d if_head 30 /* denotes the beginning of a compound conditional */
  1313. @d else_head 31 /* denotes a prefix for a compound statement */
  1314. @d if_clause 32 /* pending \.{if} together with a condition */
  1315. @d lproc 35 /* begins a preprocessor command */
  1316. @d rproc 36 /* ends a preprocessor command */
  1317. @d insert 37 /* a scrap that gets combined with its neighbor */
  1318. @d section_scrap 38 /* section name */
  1319. @d dead 39 /* scrap that won't combine */
  1320. @d begin_arg 58 /* \.{@@[} */
  1321. @d end_arg 59 /* \.{@@]} */
  1322. @<Glo...@>=
  1323. char cat_name[256][12];
  1324. eight_bits cat_index;
  1325. @ @<Set in...@>=
  1326.     for (cat_index=0;cat_index<255;cat_index++)
  1327.       strcpy(cat_name[cat_index],"UNKNOWN");
  1328.     strcpy(cat_name[exp],"exp");
  1329.     strcpy(cat_name[unop],"unop");
  1330.     strcpy(cat_name[binop],"binop");
  1331.     strcpy(cat_name[unorbinop],"unorbinop");
  1332.     strcpy(cat_name[cast],"cast");
  1333.     strcpy(cat_name[question],"?");
  1334.     strcpy(cat_name[lbrace],"{"@q}@>);
  1335.     strcpy(cat_name[rbrace],@q{@>"}");
  1336.     strcpy(cat_name[decl_head],"decl_head");
  1337.     strcpy(cat_name[comma],",");
  1338.     strcpy(cat_name[lpar],"(");
  1339.     strcpy(cat_name[rpar],")");
  1340.     strcpy(cat_name[prelangle],"<");
  1341.     strcpy(cat_name[prerangle],">");
  1342.     strcpy(cat_name[langle],"\\<");
  1343.     strcpy(cat_name[colcol],"::");
  1344.     strcpy(cat_name[base],"\\:");
  1345.     strcpy(cat_name[decl],"decl");
  1346.     strcpy(cat_name[struct_head],"struct_head");
  1347.     strcpy(cat_name[stmt],"stmt");
  1348.     strcpy(cat_name[function],"function");
  1349.     strcpy(cat_name[fn_decl],"fn_decl");
  1350.     strcpy(cat_name[else_like],"else_like");
  1351.     strcpy(cat_name[semi],";");
  1352.     strcpy(cat_name[colon],":");
  1353.     strcpy(cat_name[tag],"tag");
  1354.     strcpy(cat_name[if_head],"if_head");
  1355.     strcpy(cat_name[else_head],"else_head");
  1356.     strcpy(cat_name[if_clause],"if()");
  1357.     strcpy(cat_name[lproc],"#{"@q}@>);
  1358.     strcpy(cat_name[rproc],@q{@>"#}");
  1359.     strcpy(cat_name[insert],"insert");
  1360.     strcpy(cat_name[section_scrap],"section");
  1361.     strcpy(cat_name[dead],"@@d");
  1362.     strcpy(cat_name[public_like],"public");
  1363.     strcpy(cat_name[operator_like],"operator");
  1364.     strcpy(cat_name[new_like],"new");
  1365.     strcpy(cat_name[catch_like],"catch");
  1366.     strcpy(cat_name[for_like],"for");
  1367.     strcpy(cat_name[do_like],"do");
  1368.     strcpy(cat_name[if_like],"if");
  1369.     strcpy(cat_name[raw_rpar],")?");
  1370.     strcpy(cat_name[raw_unorbin],"unorbinop?");
  1371.     strcpy(cat_name[const_like],"const");
  1372.     strcpy(cat_name[raw_int],"raw");
  1373.     strcpy(cat_name[int_like],"int");
  1374.     strcpy(cat_name[case_like],"case");
  1375.     strcpy(cat_name[sizeof_like],"sizeof");
  1376.     strcpy(cat_name[struct_like],"struct");
  1377.     strcpy(cat_name[typedef_like],"typedef");
  1378.     strcpy(cat_name[define_like],"define");
  1379.     strcpy(cat_name[begin_arg],"@@["@q]@>);
  1380.     strcpy(cat_name[end_arg],@q[@>"@@]");
  1381.     strcpy(cat_name[0],"zero");
  1382. @ This code allows \.{CWEAVE} to display its parsing steps.
  1383. print_cat(c) /* symbolic printout of a category */
  1384. eight_bits c;
  1385.   printf(cat_name[c]);
  1386. @ The token lists for translated \TEX/ output contain some special control
  1387. symbols as well as ordinary characters. These control symbols are
  1388. interpreted by \.{CWEAVE} before they are written to the output file.
  1389. \yskip\hang |break_space| denotes an optional line break or an en space;
  1390. \yskip\hang |force| denotes a line break;
  1391. \yskip\hang |big_force| denotes a line break with additional vertical space;
  1392. \yskip\hang |preproc_line| denotes that the line will be printed flush left;
  1393. \yskip\hang |opt| denotes an optional line break (with the continuation
  1394. line indented two ems with respect to the normal starting position)---this
  1395. code is followed by an integer |n|, and the break will occur with penalty
  1396. $10n$;
  1397. \yskip\hang |backup| denotes a backspace of one em;
  1398. \yskip\hang |cancel| obliterates any |break_space|, |opt|, |force|, or
  1399. |big_force| tokens that immediately precede or follow it and also cancels any
  1400. |backup| tokens that follow it;
  1401. \yskip\hang |indent| causes future lines to be indented one more em;
  1402. \yskip\hang |outdent| causes future lines to be indented one less em.
  1403. \yskip\noindent All of these tokens are removed from the \TEX/ output that
  1404. comes from \CEE/ text between \pb\ signs; |break_space| and |force| and
  1405. |big_force| become single spaces in this mode. The translation of other
  1406. \CEE/ texts results in \TEX/ control sequences \.{\\1}, \.{\\2},
  1407. \.{\\3}, \.{\\4}, \.{\\5}, \.{\\6}, \.{\\7}, \.{\\8}
  1408. corresponding respectively to
  1409. |indent|, |outdent|, |opt|, |backup|, |break_space|, |force|,
  1410. |big_force| and |preproc_line|.
  1411. However, a sequence of consecutive `\.\ ', |break_space|,
  1412. |force|, and/or |big_force| tokens is first replaced by a single token
  1413. (the maximum of the given ones).
  1414. The token |math_rel| will be translated into
  1415. \.{\\MRL\{}, and it will get a matching \.\} later.
  1416. Other control sequences in the \TEX/ output will be
  1417. `\.{\\\\\{}$\,\ldots\,$\.\}'
  1418. surrounding identifiers, `\.{\\\&\{}$\,\ldots\,$\.\}' surrounding
  1419. reserved words, `\.{\\.\{}$\,\ldots\,$\.\}' surrounding strings,
  1420. `\.{\\C\{}$\,\ldots\,$\.\}$\,$|force|' surrounding comments, and
  1421. `\.{\\X$n$:}$\,\ldots\,$\.{\\X}' surrounding section names, where
  1422. |n| is the section number.
  1423. @d math_rel 0206
  1424. @d big_cancel 0210 /* like |cancel|, also overrides spaces */
  1425. @d cancel 0211 /* overrides |backup|, |break_space|, |force|, |big_force| */
  1426. @d indent 0212 /* one more tab (\.{\\1}) */
  1427. @d outdent 0213 /* one less tab (\.{\\2}) */
  1428. @d opt 0214 /* optional break in mid-statement (\.{\\3}) */
  1429. @d backup 0215 /* stick out one unit to the left (\.{\\4}) */
  1430. @d break_space 0216 /* optional break between statements (\.{\\5}) */
  1431. @d force 0217 /* forced break between statements (\.{\\6}) */
  1432. @d big_force 0220 /* forced break with additional space (\.{\\7}) */
  1433. @d preproc_line 0221 /* begin line without indentation (\.{\\8}) */
  1434. @^high-bit character handling@>
  1435. @d quoted_char 0222
  1436.         /* introduces a character token in the range |0200|--|0377| */
  1437. @d end_translation 0223 /* special sentinel token at end of list */
  1438. @d inserted 0224 /* sentinel to mark translations of inserts */
  1439. @ The raw input is converted into scraps according to the following table,
  1440. which gives category codes followed by the translations.
  1441. \def\stars {\.{**}}%
  1442. The symbol `\stars' stands for `\.{\\\&\{{\rm identifier}\}}',
  1443. i.e., the identifier itself treated as a reserved word.
  1444. The right-hand column is the so-called |mathness|, which is explained
  1445. further below.
  1446. An identifier |c| of length 1 is translated as \.{\\\v c} instead of
  1447. as \.{\\\\\{c\}}. An identifier \.{CAPS} in all caps is translated as
  1448. \.{\\.\{CAPS\}} instead of as \.{\\\\\{CAPS\}}. An identifier that has
  1449. become a reserved word via |typedef| is translated with \.{\\\&} replacing
  1450. \.{\\\\} and |raw_int| replacing |exp|.
  1451. A string of length greater than 20 is broken into pieces of size at most~20
  1452. with discretionary breaks in between.
  1453. \yskip\halign{\quad#\hfil&\quad#\hfil&\quad\hfil#\hfil\cr
  1454. \.{!=}&|binop|: \.{\\I}&yes\cr
  1455. \.{<=}&|binop|: \.{\\Z}&yes\cr
  1456. \.{>=}&|binop|: \.{\\G}&yes\cr
  1457. \.{==}&|binop|: \.{\\E}&yes\cr
  1458. \.{\&\&}&|binop|: \.{\\W}&yes\cr
  1459. \.{\v\v}&|binop|: \.{\\V}&yes\cr
  1460. \.{++}&|binop|: \.{\\PP}&yes\cr
  1461. \.{--}&|binop|: \.{\\MM}&yes\cr
  1462. \.{->}&|binop|: \.{\\MG}&yes\cr
  1463. \.{>>}&|binop|: \.{\\GG}&yes\cr
  1464. \.{<<}&|binop|: \.{\\LL}&yes\cr
  1465. \.{::}&|colcol|: \.{\\DC}&maybe\cr
  1466. \.{.*}&|binop|: \.{\\PA}&yes\cr
  1467. \.{->*}&|binop|: \.{\\MGA}&yes\cr
  1468. \.{...}&|exp|: \.{\\,\\ldots\\,}&yes\cr
  1469. \."string\."&|exp|: \.{\\.\{}string with special characters quoted\.\}&maybe\cr
  1470. \.{@@=}string\.{@@>}&|exp|: \.{\\vb\{}string with special characters
  1471.   quoted\.\}&maybe\cr
  1472. \.{@@'7'}&|exp|: \.{\\.\{@@'7'\}}&maybe\cr
  1473. \.{077} or \.{\\77}&|exp|: \.{\\T\{\\\~77\}}&maybe\cr
  1474. \.{0x7f}&|exp|: \.{\\T\{\\\^7f\}}&maybe\cr
  1475. \.{77}&|exp|: \.{\\T\{77\}}&maybe\cr
  1476. \.{77L}&|exp|: \.{\\T\{77\\\$L\}}&maybe\cr
  1477. \.{0.1E5}&|exp|: \.{\\T\{0.1\\\_5\}}&maybe\cr
  1478. \.+&|unorbinop|: \.+&yes\cr
  1479. \.-&|unorbinop|: \.-&yes\cr
  1480. \.*&|raw_unorbin|: \.*&yes\cr
  1481. \./&|binop|: \./&yes\cr
  1482. \.<&|binop|: \.<&yes\cr
  1483. \.=&|binop|: \.{\\K}&yes\cr
  1484. \.>&|binop|: \.>&yes\cr
  1485. \..&|binop|: \..&yes\cr
  1486. \.{\v}&|binop|: \.{\\OR}&yes\cr
  1487. \.\^&|binop|: \.{\\XOR}&yes\cr
  1488. \.\%&|binop|: \.{\\MOD}&yes\cr
  1489. \.?&|question|: \.{\\?}&yes\cr
  1490. \.!&|unop|: \.{\\R}&yes\cr
  1491. \.\~&|unop|: \.{\\CM}&yes\cr
  1492. \.\&&|raw_unorbin|: \.{\\AND}&yes\cr
  1493. \.(&|lpar|: \.(&maybe\cr
  1494. \.[&|lpar|: \.[&maybe\cr
  1495. \.)&|raw_rpar|: \.)&maybe\cr
  1496. \.]&|raw_rpar|: \.]&maybe\cr
  1497. \.\{&|lbrace|: \.\{&yes\cr
  1498. \.\}&|lbrace|: \.\}&yes\cr
  1499. \.,&|comma|: \.,&yes\cr
  1500. \.;&|semi|: \.;&maybe\cr
  1501. \.:&|colon|: \.:&maybe\cr
  1502. \.\# (within line)&|unorbinop|: \.{\\\#}&yes\cr
  1503. \.\# (at beginning)&|lproc|:  |force| |preproc_line| \.{\\\#}&no\cr
  1504. end of \.\# line&|rproc|:  |force|&no\cr
  1505. identifier&|exp|: \.{\\\\\{}identifier with underlines quoted\.\}&maybe\cr
  1506. \.{asm}&|sizeof_like|: \stars&maybe\cr
  1507. \.{auto}&|int_like|: \stars&maybe\cr
  1508. \.{break}&|case_like|: \stars&maybe\cr
  1509. \.{case}&|case_like|: \stars&maybe\cr
  1510. \.{catch}&|catch_like|: \stars&maybe\cr
  1511. \.{char}&|raw_int|: \stars&maybe\cr
  1512. \.{class}&|struct_like|: \stars&maybe\cr
  1513. \.{clock\_t}&|raw_int|: \stars&maybe\cr
  1514. \.{const}&|const_like|: \stars&maybe\cr
  1515. \.{continue}&|case_like|: \stars&maybe\cr
  1516. \.{default}&|case_like|: \stars&maybe\cr
  1517. \.{define}&|define_like|: \stars&maybe\cr
  1518. \.{defined}&|sizeof_like|: \stars&maybe\cr
  1519. \.{delete}&|sizeof_like|: \stars&maybe\cr
  1520. \.{div\_t}&|raw_int|: \stars&maybe\cr
  1521. \.{do}&|do_like|: \stars&maybe\cr
  1522. \.{double}&|raw_int|: \stars&maybe\cr
  1523. \.{elif}&|if_like|: \stars&maybe\cr
  1524. \.{else}&|else_like|: \stars&maybe\cr
  1525. \.{endif}&|if_like|: \stars&maybe\cr
  1526. \.{enum}&|struct_like|: \stars&maybe\cr
  1527. \.{error}&|if_like|: \stars&maybe\cr
  1528. \.{extern}&|int_like|: \stars&maybe\cr
  1529. \.{FILE}&|raw_int|: \stars&maybe\cr
  1530. \.{float}&|raw_int|: \stars&maybe\cr
  1531. \.{for}&|for_like|: \stars&maybe\cr
  1532. \.{fpos\_t}&|raw_int|: \stars&maybe\cr
  1533. \.{friend}&|int_like|: \stars&maybe\cr
  1534. \.{goto}&|case_like|: \stars&maybe\cr
  1535. \.{if}&|if_like|: \stars&maybe\cr
  1536. \.{ifdef}&|if_like|: \stars&maybe\cr
  1537. \.{ifndef}&|if_like|: \stars&maybe\cr
  1538. \.{include}&|if_like|: \stars&maybe\cr
  1539. \.{inline}&|int_like|: \stars&maybe\cr
  1540. \.{int}&|raw_int|: \stars&maybe\cr
  1541. \.{jmp\_buf}&|raw_int|: \stars&maybe\cr
  1542. \.{ldiv\_t}&|raw_int|: \stars&maybe\cr
  1543. \.{line}&|if_like|: \stars&maybe\cr
  1544. \.{long}&|raw_int|: \stars&maybe\cr
  1545. \.{new}&|new_like|: \stars&maybe\cr
  1546. \.{NULL}&|exp|: \.{\\NULL}&yes\cr
  1547. \.{offsetof}&|sizeof_like|: \stars&maybe\cr
  1548. \.{operator}&|operator_like|: \stars&maybe\cr
  1549. \.{pragma}&|if_like|: \stars&maybe\cr
  1550. \.{private}&|public_like|: \stars&maybe\cr
  1551. \.{protected}&|public_like|: \stars&maybe\cr
  1552. \.{ptrdiff\_t}&|raw_int|: \stars&maybe\cr
  1553. \.{public}&|public_like|: \stars&maybe\cr
  1554. \.{register}&|int_like|: \stars&maybe\cr
  1555. \.{return}&|case_like|: \stars&maybe\cr
  1556. \.{short}&|raw_int|: \stars&maybe\cr
  1557. \.{sig\_atomic\_t}&|raw_int|: \stars&maybe\cr
  1558. \.{signed}&|raw_int|: \stars&maybe\cr
  1559. \.{size\_t}&|raw_int|: \stars&maybe\cr
  1560. \.{sizeof}&|sizeof_like|: \stars&maybe\cr
  1561. \.{static}&|int_like|: \stars&maybe\cr
  1562. \.{struct}&|struct_like|: \stars&maybe\cr
  1563. \.{switch}&|if_like|: \stars&maybe\cr
  1564. \.{template}&|int_like|: \stars&maybe\cr
  1565. \.{TeX}&|exp|: \.{\\TeX}&yes\cr
  1566. \.{this}&|exp|: \.{\\this}&yes\cr
  1567. \.{throw}&|case_like|: \stars&maybe\cr
  1568. \.{time\_t}&|raw_int|: \stars&maybe\cr
  1569. \.{try}&|else_like|: \stars&maybe\cr
  1570. \.{typedef}&|typedef_like|: \stars&maybe\cr
  1571. \.{undef}&|if_like|: \stars&maybe\cr
  1572. \.{union}&|struct_like|: \stars&maybe\cr
  1573. \.{unsigned}&|raw_int|: \stars&maybe\cr
  1574. \.{va\_dcl}&|decl|: \stars&maybe\cr
  1575. \.{va\_list}&|raw_int|: \stars&maybe\cr
  1576. \.{virtual}&|int_like|: \stars&maybe\cr
  1577. \.{void}&|raw_int|: \stars&maybe\cr
  1578. \.{volatile}&|const_like|: \stars&maybe\cr
  1579. \.{wchar\_t}&|raw_int|: \stars&maybe\cr
  1580. \.{while}&|if_like|: \stars&maybe\cr
  1581. \.{@@,}&|insert|: \.{\\,}&maybe\cr
  1582. \.{@@\v}&|insert|:  |opt| \.0&maybe\cr
  1583. \.{@@/}&|insert|:  |force|&no\cr
  1584. \.{@@\#}&|insert|:  |big_force|&no\cr
  1585. \.{@@+}&|insert|:  |big_cancel| \.{\{\}} |break_space|
  1586.   \.{\{\}} |big_cancel|&no\cr
  1587. \.{@@;}&|semi|: &maybe\cr
  1588. \.{@@[@q]@>}&|begin_arg|: &maybe\cr
  1589. \.{@q[@>@@]}&|end_arg|: &maybe\cr
  1590. \.{@@\&}&|insert|: \.{\\J}&maybe\cr
  1591. \.{@@h}&|insert|: |force| \.{\\ATH} |force|&no\cr
  1592. \.{@@<}\thinspace section name\thinspace\.{@@>}&|section_scrap|:
  1593.  \.{\\X}$n$\.:translated section name\.{\\X}&maybe\cr
  1594. \.{@@(@q)@>}\thinspace section name\thinspace\.{@@>}&|section_scrap|:
  1595.  \.{\\X}$n$\.{:\\.\{}section name with special characters
  1596.       quoted\.{\ \}\\X}&maybe\cr
  1597. \.{/*}comment\.{*/}&|insert|: |cancel|
  1598.       \.{\\C\{}translated comment\.\} |force|&no\cr
  1599. \.{//}comment&|insert|: |cancel|
  1600.       \.{\\SHC\{}translated comment\.\} |force|&no\cr
  1601. The construction \.{@@t}\thinspace stuff\/\thinspace\.{@@>} contributes
  1602. \.{\\hbox\{}\thinspace  stuff\/\thinspace\.\} to the following scrap.
  1603. @i prod.w
  1604. @* Implementing the productions.
  1605. More specifically, a scrap is a structure consisting of a category
  1606. |cat| and a |text_pointer| |trans|, which points to the translation in
  1607. |tok_start|.  When \CEE/ text is to be processed with the grammar above,
  1608. we form an array |scrap_info| containing the initial scraps.
  1609. Our production rules have the nice property that the right-hand side is never
  1610. longer than the left-hand side. Therefore it is convenient to use sequential
  1611. allocation for the current sequence of scraps. Five pointers are used to
  1612. manage the parsing:
  1613. \yskip\hang |pp| is a pointer into |scrap_info|.  We will try to match
  1614. the category codes |pp->cat,@,@,(pp+1)->cat|$,\,\,\ldots\,$
  1615. to the left-hand sides of productions.
  1616. \yskip\hang |scrap_base|, |lo_ptr|, |hi_ptr|, and |scrap_ptr| are such that
  1617. the current sequence of scraps appears in positions |scrap_base| through
  1618. |lo_ptr| and |hi_ptr| through |scrap_ptr|, inclusive, in the |cat| and
  1619. |trans| arrays. Scraps located between |scrap_base| and |lo_ptr| have
  1620. been examined, while those in positions |>=hi_ptr| have not yet been
  1621. looked at by the parsing process.
  1622. \yskip\noindent Initially |scrap_ptr| is set to the position of the final
  1623. scrap to be parsed, and it doesn't change its value. The parsing process
  1624. makes sure that |lo_ptr>=pp+3|, since productions have as many as four terms,
  1625. by moving scraps from |hi_ptr| to |lo_ptr|. If there are
  1626. fewer than |pp+3| scraps left, the positions up to |pp+3| are filled with
  1627. blanks that will not match in any productions. Parsing stops when
  1628. |pp=lo_ptr+1| and |hi_ptr=scrap_ptr+1|.
  1629. Since the |scrap| structure will later be used for other purposes, we
  1630. declare its second element as unions.
  1631. @<Type...@>=
  1632. typedef struct {
  1633.   eight_bits cat;
  1634.   eight_bits mathness;
  1635.   union {
  1636.     text_pointer Trans;
  1637.     @<Rest of |trans_plus| union@>@;
  1638.   } trans_plus;
  1639. } scrap;
  1640. typedef scrap *scrap_pointer;
  1641. @ @d trans trans_plus.Trans /* translation texts of scraps */
  1642. @<Global...@>=
  1643. scrap scrap_info[max_scraps]; /* memory array for scraps */
  1644. scrap_pointer scrap_info_end=scrap_info+max_scraps -1; /* end of |scrap_info| */
  1645. scrap_pointer pp; /* current position for reducing productions */
  1646. scrap_pointer scrap_base; /* beginning of the current scrap sequence */
  1647. scrap_pointer scrap_ptr; /* ending of the current scrap sequence */
  1648. scrap_pointer lo_ptr; /* last scrap that has been examined */
  1649. scrap_pointer hi_ptr; /* first scrap that has not been examined */
  1650. scrap_pointer max_scr_ptr; /* largest value assumed by |scrap_ptr| */
  1651. @ @<Set init...@>=
  1652. scrap_base=scrap_info+1;
  1653. max_scr_ptr=scrap_ptr=scrap_info;
  1654. @ Token lists in |@!tok_mem| are composed of the following kinds of
  1655. items for \TEX/ output.
  1656. \yskip\item{$\bullet$}Character codes and special codes like |force| and
  1657. |math_rel| represent themselves;
  1658. \item{$\bullet$}|id_flag+p| represents \.{\\\\\{{\rm identifier $p$}\}};
  1659. \item{$\bullet$}|res_flag+p| represents \.{\\\&\{{\rm identifier $p$}\}};
  1660. \item{$\bullet$}|section_flag+p| represents section name |p|;
  1661. \item{$\bullet$}|tok_flag+p| represents token list number |p|;
  1662. \item{$\bullet$}|inner_tok_flag+p| represents token list number |p|, to be
  1663. translated without line-break controls.
  1664. @d id_flag 10240 /* signifies an identifier */
  1665. @d res_flag 2*id_flag /* signifies a reserved word */
  1666. @d section_flag 3*id_flag /* signifies a section name */
  1667. @d tok_flag 4*id_flag /* signifies a token list */
  1668. @d inner_tok_flag 5*id_flag /* signifies a token list in `\pb' */
  1669. print_text(p) /* prints a token list for debugging; not used in |main| */
  1670. text_pointer p;
  1671.   token_pointer j; /* index into |tok_mem| */
  1672.   sixteen_bits r; /* remainder of token after the flag has been stripped off */
  1673.   if (p>=text_ptr) printf("BAD");
  1674.   else for (j=*p; j<*(p+1); j++) {
  1675.     r=*j%id_flag;
  1676.     switch (*j/id_flag) {
  1677.       case 1: printf("\\\\{"@q}@>); print_id((name_dir+r)); printf(@q{@>"}");
  1678.         break; /* |id_flag| */
  1679.       case 2: printf("\\&{"@q}@>); print_id((name_dir+r)); printf(@q{@>"}");
  1680.         break; /* |res_flag| */
  1681.       case 3: printf("<"); print_section_name((name_dir+r)); printf(">");
  1682.         break; /* |section_flag| */
  1683.       case 4: printf("[[%d]]",r); break; /* |tok_flag| */
  1684.       case 5: printf("|[[%d]]|",r); break; /* |inner_tok_flag| */
  1685.       default: @<Print token |r| in symbolic form@>;
  1686.     }
  1687.   fflush(stdout);
  1688. @ @<Print token |r|...@>=
  1689. switch (r) {
  1690.   case math_rel: printf("\\mathrel{"@q}@>); break;
  1691.   case big_cancel: printf("[ccancel]"); break;
  1692.   case cancel: printf("[cancel]"); break;
  1693.   case indent: printf("[indent]"); break;
  1694.   case outdent: printf("[outdent]"); break;
  1695.   case backup: printf("[backup]"); break;
  1696.   case opt: printf("[opt]"); break;
  1697.   case break_space: printf("[break]"); break;
  1698.   case force: printf("[force]"); break;
  1699.   case big_force: printf("[fforce]"); break;
  1700.   case preproc_line: printf("[preproc]"); break;
  1701.   case quoted_char: j++; printf("[%o]",(unsigned)*j); break;
  1702.   case end_translation: printf("[quit]"); break;
  1703.   case inserted: printf("[inserted]"); break;
  1704.   default: putxchar(r);
  1705. @ The production rules listed above are embedded directly into \.{CWEAVE},
  1706. since it is easier to do this than to write an interpretive system
  1707. that would handle production systems in general. Several macros are defined
  1708. here so that the program for each production is fairly short.
  1709. All of our productions conform to the general notion that some |k|
  1710. consecutive scraps starting at some position |j| are to be replaced by a
  1711. single scrap of some category |c| whose translation is composed from the
  1712. translations of the disappearing scraps. After this production has been
  1713. applied, the production pointer |pp| should change by an amount |d|. Such
  1714. a production can be represented by the quadruple |(j,k,c,d)|. For example,
  1715. the production `|exp@,comma@,exp| $\RA$ |exp|' would be represented by
  1716. `|(pp,3,exp,-2)|'; in this case the pointer |pp| should decrease by 2
  1717. after the production has been applied, because some productions with
  1718. |exp| in their second or third positions might now match,
  1719. but no productions have
  1720. |exp| in the fourth position of their left-hand sides. Note that
  1721. the value of |d| is determined by the whole collection of productions, not
  1722. by an individual one.
  1723. The determination of |d| has been
  1724. done by hand in each case, based on the full set of productions but not on
  1725. the grammar of \CEE/ or on the rules for constructing the initial
  1726. scraps.
  1727. We also attach a serial number to each production, so that additional
  1728. information is available when debugging. For example, the program below
  1729. contains the statement `|reduce(pp,3,exp,-2,4)|' when it implements
  1730. the production just mentioned.
  1731. Before calling |reduce|, the program should have appended the tokens of
  1732. the new translation to the |tok_mem| array. We commonly want to append
  1733. copies of several existing translations, and macros are defined to
  1734. simplify these common cases. For example, \\{app2}|(pp)| will append the
  1735. translations of two consecutive scraps, |pp->trans| and |(pp+1)->trans|, to
  1736. the current token list. If the entire new translation is formed in this
  1737. way, we write `|squash(j,k,c,d,n)|' instead of `|reduce(j,k,c,d,n)|'. For
  1738. example, `|squash(pp,3,exp,-2,3)|' is an abbreviation for `\\{app3}|(pp);
  1739. reduce(pp,3,exp,-2,3)|'.
  1740. A couple more words of explanation:
  1741. Both |big_app| and |app| append a token (while |big_app1| to |big_app4|
  1742. append the specified number of scrap translations) to the current token list.
  1743. The difference between |big_app| and |app| is simply that |big_app|
  1744. checks whether there can be a conflict between math and non-math
  1745. tokens, and intercalates a `\.{\$}' token if necessary.  When in
  1746. doubt what to use, use |big_app|.
  1747. The |mathness| is an attribute of scraps that says whether they are
  1748. to be printed in a math mode context or not.  It is separate from the
  1749. ``part of speech'' (the |cat|) because to make each |cat| have
  1750. a fixed |mathness| (as in the original \.{WEAVE}) would multiply the
  1751. number of necessary production rules.
  1752. The low two bits (i.e. |mathness % 4|) control the left boundary.
  1753. (We need two bits because we allow cases |yes_math|, |no_math| and
  1754. |maybe_math|, which can go either way.)
  1755. The next two bits (i.e. |mathness / 4|) control the right boundary.
  1756. If we combine two scraps and the right boundary of the first has
  1757. a different mathness from the left boundary of the second, we
  1758. insert a \.{\$} in between.  Similarly, if at printing time some
  1759. irreducible scrap has a |yes_math| boundary the scrap gets preceded
  1760. or followed by a \.{\$}. The left boundary is |maybe_math| if and
  1761. only if the right boundary is.
  1762. The code below is an exact translation of the production rules into
  1763. \CEE/, using such macros, and the reader should have no difficulty
  1764. understanding the format by comparing the code with the symbolic
  1765. productions as they were listed earlier.
  1766. @d no_math 2 /* should be in horizontal mode */
  1767. @d yes_math 1 /* should be in math mode */
  1768. @d maybe_math 0 /* works in either horizontal or math mode */
  1769. @d big_app2(a) big_app1(a);big_app1(a+1)
  1770. @d big_app3(a) big_app2(a);big_app1(a+2)
  1771. @d big_app4(a) big_app3(a);big_app1(a+3)
  1772. @d app(a) *(tok_ptr++)=a
  1773. @d app1(a) *(tok_ptr++)=tok_flag+(int)((a)->trans-tok_start)
  1774. @<Global...@>=
  1775. int cur_mathness, init_mathness;
  1776. app_str(s)
  1777. char *s;
  1778.   while (*s) app_tok(*(s++));
  1779. big_app(a)
  1780. token a;
  1781.         if (a==' ' || (a>=big_cancel && a<=big_force)) /* non-math token */ {
  1782.                 if (cur_mathness==maybe_math) init_mathness=no_math;
  1783.                 else if (cur_mathness==yes_math) app_str("{}$");
  1784.                 cur_mathness=no_math;
  1785.         }
  1786.         else {
  1787.                 if (cur_mathness==maybe_math) init_mathness=yes_math;
  1788.                 else if (cur_mathness==no_math) app_str("${}");
  1789.                 cur_mathness=yes_math;
  1790.         }
  1791.         app(a);
  1792. big_app1(a)
  1793. scrap_pointer a;
  1794.   switch (a->mathness % 4) { /* left boundary */
  1795.   case (no_math):
  1796.     if (cur_mathness==maybe_math) init_mathness=no_math;
  1797.     else if (cur_mathness==yes_math) app_str("{}$");
  1798.     cur_mathness=a->mathness / 4; /* right boundary */
  1799.     break;
  1800.   case (yes_math):
  1801.     if (cur_mathness==maybe_math) init_mathness=yes_math;
  1802.     else if (cur_mathness==no_math) app_str("${}");
  1803.     cur_mathness=a->mathness / 4; /* right boundary */
  1804.     break;
  1805.   case (maybe_math): /* no changes */ break;
  1806.   app(tok_flag+(int)((a)->trans-tok_start));
  1807. @ Let us consider the big switch for productions now, before looking
  1808. at its context. We want to design the program so that this switch
  1809. works, so we might as well not keep ourselves in suspense about exactly what
  1810. code needs to be provided with a proper environment.
  1811. @d cat1 (pp+1)->cat
  1812. @d cat2 (pp+2)->cat
  1813. @d cat3 (pp+3)->cat
  1814. @d lhs_not_simple (pp->cat!=semi && pp->cat!=raw_int && pp->cat!=raw_unorbin
  1815.             && pp->cat!=raw_rpar && pp->cat!=const_like)
  1816. @<Match a production at |pp|, or increase |pp| if there is no match@>= {
  1817.   if (cat1==end_arg && lhs_not_simple)
  1818.     if (pp->cat==begin_arg) squash(pp,2,exp,-2,110);
  1819.     else squash(pp,2,end_arg,-1,111);
  1820.   else if (cat1==insert) squash(pp,2,pp->cat,-2,0);
  1821.   else if (cat2==insert) squash(pp+1,2,(pp+1)->cat,-1,0);
  1822.   else if (cat3==insert) squash(pp+2,2,(pp+2)->cat,0,0);
  1823.   else
  1824.   switch (pp->cat) {
  1825.     case exp: @<Cases for |exp|@>; @+break;
  1826.     case lpar: @<Cases for |lpar|@>; @+break;
  1827.     case question: @<Cases for |question|@>; @+break;
  1828.     case unop: @<Cases for |unop|@>; @+break;
  1829.     case unorbinop: @<Cases for |unorbinop|@>; @+break;
  1830.     case binop: @<Cases for |binop|@>; @+break;
  1831.     case cast: @<Cases for |cast|@>; @+break;
  1832.     case sizeof_like: @<Cases for |sizeof_like|@>; @+break;
  1833.     case int_like: @<Cases for |int_like|@>; @+break;
  1834.     case decl_head: @<Cases for |decl_head|@>; @+break;
  1835.     case decl: @<Cases for |decl|@>; @+break;
  1836.     case typedef_like: @<Cases for |typedef_like|@>; @+break;
  1837.     case struct_like: @<Cases for |struct_like|@>; @+break;
  1838.     case struct_head: @<Cases for |struct_head|@>; @+break;
  1839.     case fn_decl: @<Cases for |fn_decl|@>; @+break;
  1840.     case function: @<Cases for |function|@>; @+break;
  1841.     case lbrace: @<Cases for |lbrace|@>; @+break;
  1842.     case do_like: @<Cases for |do_like|@>; @+break;
  1843.     case if_like: @<Cases for |if_like|@>; @+break;
  1844.     case for_like: @<Cases for |for_like|@>; @+break;
  1845.     case else_like: @<Cases for |else_like|@>; @+break;
  1846.     case if_clause: @<Cases for |if_clause|@>; @+break;
  1847.     case if_head: @<Cases for |if_head|@>; @+break;
  1848.     case else_head: @<Cases for |else_head|@>; @+break;
  1849.     case case_like: @<Cases for |case_like|@>; @+break;
  1850.     case stmt: @<Cases for |stmt|@>; @+break;
  1851.     case tag: @<Cases for |tag|@>; @+break;
  1852.     case semi: @<Cases for |semi|@>; @+break;
  1853.     case lproc: @<Cases for |lproc|@>; @+break;
  1854.     case section_scrap: @<Cases for |section_scrap|@>; @+break;
  1855.     case insert: @<Cases for |insert|@>; @+break;
  1856.     case prelangle: @<Cases for |prelangle|@>; @+break;
  1857.     case prerangle: @<Cases for |prerangle|@>; @+break;
  1858.     case langle: @<Cases for |langle|@>; @+break;
  1859.     case public_like: @<Cases for |public_like|@>; @+break;
  1860.     case colcol: @<Cases for |colcol|@>; @+break;
  1861.     case new_like: @<Cases for |new_like|@>; @+break;
  1862.     case operator_like: @<Cases for |operator_like|@>; @+break;
  1863.     case catch_like: @<Cases for |catch_like|@>; @+break;
  1864.     case base: @<Cases for |base|@>; @+break;
  1865.     case raw_rpar: @<Cases for |raw_rpar|@>; @+break;
  1866.     case raw_unorbin: @<Cases for |raw_unorbin|@>; @+break;
  1867.     case const_like: @<Cases for |const_like|@>; @+break;
  1868.     case raw_int: @<Cases for |raw_int|@>; @+break;
  1869.   pp++; /* if no match was found, we move to the right */
  1870. @ In \CEE/, new specifier names can be defined via |typedef|, and we want
  1871. to make the parser recognize future occurrences of the identifier thus
  1872. defined as specifiers.  This is done by the procedure |make_reserved|,
  1873. which changes the |ilk| of the relevant identifier.
  1874. We first need a procedure to recursively seek the first
  1875. identifier in a token list, because the identifier might
  1876. be enclosed in parentheses, as when one defines a function
  1877. returning a pointer.
  1878. @d no_ident_found 0 /* distinct from any identifier token */
  1879. token_pointer
  1880. find_first_ident(p)
  1881. text_pointer p;
  1882.   token_pointer q; /* token to be returned */
  1883.   token_pointer j; /* token being looked at */
  1884.   sixteen_bits r; /* remainder of token after the flag has been stripped off */
  1885.   if (p>=text_ptr) confusion("find_first_ident");
  1886.   for (j=*p; j<*(p+1); j++) {
  1887.     r=*j%id_flag;
  1888.     switch (*j/id_flag) {
  1889.       case 1: case 2: return j;
  1890.       case 4: case 5: /* |tok_flag| or |inner_tok_flag| */
  1891.         if ((q=find_first_ident(tok_start+r))!=no_ident_found)
  1892.           return q;
  1893.       default: ; /* char, |section_flag|, fall thru: move on to next token */
  1894.         if (*j==inserted) return no_ident_found; /* ignore inserts */
  1895.     }
  1896.   return no_ident_found;
  1897. @ The scraps currently being parsed must be inspected for any
  1898. occurrence of the identifier that we're making reserved; hence
  1899. the |for| loop below.
  1900. make_reserved(p) /* make the first identifier in |p->trans| like |int| */
  1901. scrap_pointer p;
  1902.   sixteen_bits tok_value; /* the name of this identifier, plus its flag*/
  1903.   token_pointer tok_loc; /* pointer to |tok_value| */
  1904.   if ((tok_loc=find_first_ident(p->trans))==no_ident_found)
  1905.     return; /* this should not happen */
  1906.   tok_value=*tok_loc;
  1907.   for (;p<=scrap_ptr; p==lo_ptr? p=hi_ptr: p++) {
  1908.     if (p->cat==exp) {
  1909.       if (**(p->trans)==tok_value) {
  1910.         p->cat=raw_int;
  1911.         **(p->trans)=tok_value%id_flag+res_flag;
  1912.       }
  1913.     }
  1914.   (name_dir+(sixteen_bits)(tok_value%id_flag))->ilk=raw_int;
  1915.   *tok_loc=tok_value%id_flag+res_flag;
  1916. @ In the following situations we want to mark the occurrence of
  1917. an identifier as a definition: when |make_reserved| is just about to be
  1918. used; after a specifier, as in |char **argv|;
  1919. before a colon, as in \\{found}:; and in the declaration of a function,
  1920. as in \\{main}()$\{\ldots;\}$.  This is accomplished by the invocation
  1921. of |make_underlined| at appropriate times.  Notice that, in the declaration
  1922. of a function, we only find out that the identifier is being defined after
  1923. it has been swallowed up by an |exp|.
  1924. make_underlined(p)
  1925. /* underline the entry for the first identifier in |p->trans| */
  1926. scrap_pointer p;
  1927.   token_pointer tok_loc; /* where the first identifier appears */
  1928.   if ((tok_loc=find_first_ident(p->trans))==no_ident_found)
  1929.     return; /* this happens after parsing the |()| in |double f();| */
  1930.   xref_switch=def_flag;
  1931.   underline_xref(*tok_loc%id_flag+name_dir);
  1932. @ We cannot use |new_xref| to underline a cross-reference at this point
  1933. because this would just make a new cross-reference at the end of the list.
  1934. We actually have to search through the list for the existing
  1935. cross-reference.
  1936. @<Predecl...@>=
  1937. void  underline_xref();
  1938. underline_xref(p)
  1939. name_pointer p;
  1940.   xref_pointer q=(xref_pointer)p->xref; /* pointer to cross-reference being examined */
  1941.   xref_pointer r; /* temporary pointer for permuting cross-references */
  1942.   sixteen_bits m; /* cross-reference value to be installed */
  1943.   sixteen_bits n; /* cross-reference value being examined */
  1944.   if (no_xref) return;
  1945.   m=section_count+xref_switch;
  1946.   while (q != xmem) {
  1947.     n=q->num;
  1948.     if (n==m) return;
  1949.     else if (m==n+def_flag) {
  1950.         q->num=m; return;
  1951.     }
  1952.     else if (n>=def_flag && n<m) break;
  1953.     q=q->xlink;
  1954.   @<Insert new cross-reference at |q|, not at beginning of list@>;
  1955. @ We get to this section only when the identifier is one letter long,
  1956. so it didn't get a non-underlined entry during phase one.  But it may
  1957. have got some explicitly underlined entries in later sections, so in order
  1958. to preserve the numerical order of the entries in the index, we have
  1959. to insert the new cross-reference not at the beginning of the list
  1960. (namely, at |p->xref|), but rather right before |q|.
  1961. @<Insert new cross-reference at |q|...@>=
  1962.   append_xref(0); /* this number doesn't matter */
  1963.   xref_ptr->xlink=(xref_pointer)p->xref; r=xref_ptr;
  1964.   p->xref=(char*)xref_ptr;
  1965.   while (r->xlink!=q) {r->num=r->xlink->num; r=r->xlink;}
  1966.   r->num=m; /* everything from |q| on is left undisturbed */
  1967. @ Now comes the code that tries to match each production starting
  1968. with a particular type of scrap. Whenever a match is discovered,
  1969. the |squash| or |reduce| macro will cause the appropriate action
  1970. to be performed, followed by |goto found|.
  1971. @<Cases for |exp|@>=
  1972. if (cat1==lbrace || cat1==int_like || cat1==decl) {
  1973.   make_underlined(pp); big_app1(pp); big_app(indent); app(indent);
  1974.   reduce(pp,1,fn_decl,0,1);
  1975. else if (cat1==unop) squash(pp,2,exp,-2,2);
  1976. else if ((cat1==binop || cat1==unorbinop) && cat2==exp)
  1977.         squash(pp,3,exp,-2,3);
  1978. else if (cat1==comma && cat2==exp) {
  1979.   big_app2(pp);
  1980.   app(opt); app('9'); big_app1(pp+2); reduce(pp,3,exp,-2,4);
  1981. else if (cat1==exp || cat1==cast) squash(pp,2,exp,-2,5);
  1982. else if (cat1==semi) squash(pp,2,stmt,-1,6);
  1983. else if (cat1==colon) {
  1984.   make_underlined (pp);  squash(pp,2,tag,0,7);
  1985. else if (cat1==base) {
  1986.   if (cat2==int_like && cat3==comma) {
  1987.     big_app1(pp+1); big_app(' '); big_app2(pp+2);
  1988.     app(opt); app('9'); reduce(pp+1,3,base,0,8);
  1989.   else if (cat2==int_like && cat3==lbrace) {
  1990.     big_app1(pp); big_app(' '); big_app1(pp+1); big_app(' '); big_app1(pp+2);
  1991.     reduce(pp,3,exp,-1,9);
  1992. else if (cat1==rbrace) squash(pp,1,stmt,-1,10);
  1993. @ @<Cases for |lpar|@>=
  1994. if ((cat1==exp||cat1==unorbinop) && cat2==rpar) squash(pp,3,exp,-2,11);
  1995. else if (cat1==rpar) {
  1996.   big_app1(pp); app('\\'); app(','); big_app1(pp+1);
  1997. @.\\,@>
  1998.   reduce(pp,2,exp,-2,12);
  1999. else if (cat1==decl_head || cat1==int_like || cat1==exp) {
  2000.   if (cat2==rpar) squash(pp,3,cast,-2,13);
  2001.   else if (cat2==comma) {
  2002.     big_app3(pp); app(opt); app('9'); reduce(pp,3,lpar,0,14);
  2003. else if (cat1==stmt || cat1==decl) {
  2004.   big_app2(pp); big_app(' '); reduce(pp,2,lpar,0,15);
  2005. @ @<Cases for |question|@>=
  2006. if (cat1==exp && cat2==colon) squash(pp,3,binop,-2,16);
  2007. @ @<Cases for |unop|@>=
  2008. if (cat1==exp || cat1==int_like) squash(pp,2,cat1,-2,17);
  2009. @ @<Cases for |unorbinop|@>=
  2010. if (cat1==exp || cat1==int_like) {
  2011.   big_app('{'); big_app1(pp); big_app('}'); big_app1(pp+1);
  2012.   reduce(pp,2,cat1,-2,18);
  2013. else if (cat1==binop) {
  2014.   big_app(math_rel); big_app1(pp); big_app('{'); big_app1(pp+1); big_app('}');
  2015.   big_app('}'); reduce(pp,2,binop,-1,19);
  2016. @ @<Cases for |binop|@>=
  2017. if (cat1==binop) {
  2018.   big_app(math_rel); big_app('{'); big_app1(pp); big_app('}');
  2019.   big_app('{'); big_app1(pp+1); big_app('}');
  2020.   big_app('}'); reduce(pp,2,binop,-1,20);
  2021. @ @<Cases for |cast|@>=
  2022. if (cat1==exp) {
  2023.   big_app1(pp); big_app(' '); big_app1(pp+1); reduce(pp,2,exp,-2,21);
  2024. else if (cat1==semi) squash(pp,1,exp,-2,22);
  2025. @ @<Cases for |sizeof_like|@>=
  2026. if (cat1==cast) squash(pp,2,exp,-2,23);
  2027. else if (cat1==exp) {
  2028.   big_app1(pp); big_app(' '); big_app1(pp+1); reduce(pp,2,exp,-2,24);
  2029. @ @<Cases for |int_like|@>=
  2030. if (cat1==int_like|| cat1==struct_like) {
  2031.   big_app1(pp); big_app(' '); big_app1(pp+1); reduce(pp,2,cat1,-2,25);
  2032. else if (cat1==exp && (cat2==raw_int||cat2==struct_like))
  2033.   squash(pp,2,int_like,-2,26);
  2034. else if (cat1==exp || cat1==unorbinop || cat1==semi) {
  2035.   big_app1(pp);
  2036.   if (cat1!=semi) big_app(' ');
  2037.   reduce(pp,1,decl_head,-1,27);
  2038. else if (cat1==colon) {
  2039.   big_app1(pp); big_app(' '); reduce(pp,1,decl_head,0,28);
  2040. else if (cat1==prelangle) squash(pp+1,1,langle,1,29);
  2041. else if (cat1==colcol && (cat2==exp||cat2==int_like)) squash(pp,3,cat2,-2,30);
  2042. else if (cat1==cast) {
  2043.   if (cat2==lbrace) {
  2044.   big_app2(pp); big_app(indent); big_app(indent);
  2045.   reduce(pp,2,fn_decl,1,31);
  2046.   else squash(pp,2,int_like,-2,32);
  2047. @ @<Cases for |decl_head|@>=
  2048. if (cat1==comma) {
  2049.   big_app2(pp); big_app(' '); reduce(pp,2,decl_head,-1,33);
  2050. else if (cat1==unorbinop) {
  2051.   big_app1(pp); big_app('{'); big_app1(pp+1); big_app('}');
  2052.   reduce(pp,2,decl_head,-1,34);
  2053. else if (cat1==exp && cat2!=lpar && cat2!=exp) {
  2054.   make_underlined(pp+1); squash(pp,2,decl_head,-1,35);
  2055. else if ((cat1==binop||cat1==colon) && cat2==exp && (cat3==comma ||
  2056.     cat3==semi || cat3==rpar))
  2057.   squash(pp,3,decl_head,-1,36);
  2058. else if (cat1==cast) squash(pp,2,decl_head,-1,37);
  2059. else if (cat1==lbrace || (cat1==int_like&&cat2!=colcol) || cat1==decl) {
  2060.   big_app1(pp); big_app(indent); app(indent); reduce(pp,1,fn_decl,0,38);
  2061. else if (cat1==semi) squash(pp,2,decl,-1,39);
  2062. @ @<Cases for |decl|@>=
  2063. if (cat1==decl) {
  2064.   big_app1(pp); big_app(force); big_app1(pp+1);
  2065.   reduce(pp,2,decl,-1,40);
  2066. else if (cat1==stmt || cat1==function) {
  2067.   big_app1(pp); big_app(big_force);
  2068.   big_app1(pp+1); reduce(pp,2,cat1,-1,41);
  2069. @ @<Cases for |typedef_like|@>=
  2070. if (cat1==decl_head)
  2071.   if ((cat2==exp&&cat3!=lpar&&cat3!=exp)||cat2==int_like) {
  2072.     make_underlined(pp+2); make_reserved(pp+2);
  2073.     big_app2(pp+1); reduce(pp+1,2,decl_head,0,42);
  2074.   else if (cat2==semi) {
  2075.     big_app1(pp); big_app(' '); big_app2(pp+1); reduce(pp,3,decl,-1,43);
  2076. @ @<Cases for |struct_like|@>=
  2077. if (cat1==lbrace) {
  2078.   big_app1(pp); big_app(' '); big_app1(pp+1); reduce(pp,2,struct_head,0,44);
  2079. else if (cat1==exp||cat1==int_like) {
  2080.   if (cat2==lbrace || cat2==semi) {
  2081.     make_underlined(pp+1); make_reserved(pp+1);
  2082.     big_app1(pp); big_app(' '); big_app1(pp+1);
  2083.     if (cat2==semi) reduce(pp,2,decl_head,0,45);
  2084.     else {
  2085.       big_app(' '); big_app1(pp+2);reduce(pp,3,struct_head,0,46);
  2086.     }
  2087.   else if (cat2==colon) squash(pp+2,1,base,-1,47);
  2088.   else if (cat2!=base) {
  2089.     big_app1(pp); big_app(' '); big_app1(pp+1); reduce(pp,2,int_like,-2,48);
  2090. @ @<Cases for |struct_head|@>=
  2091. if ((cat1==decl || cat1==stmt || cat1==function) && cat2==rbrace) {
  2092.   big_app1(pp); big_app(indent); big_app(force); big_app1(pp+1);
  2093.   big_app(outdent); big_app(force);  big_app1(pp+2);
  2094.   reduce(pp,3,int_like,-2,49);
  2095. else if (cat1==rbrace) {
  2096.   big_app1(pp); app_str("\\,"); big_app1(pp+1);
  2097. @.\\,@>
  2098.   reduce(pp,2,int_like,-2,50);
  2099. @ @<Cases for |fn_decl|@>=
  2100. if (cat1==decl) {
  2101.   big_app1(pp); big_app(force); big_app1(pp+1); reduce(pp,2,fn_decl,0,51);
  2102. else if (cat1==stmt) {
  2103.   big_app1(pp); app(outdent); app(outdent); big_app(force);
  2104.   big_app1(pp+1); reduce(pp,2,function,-1,52);
  2105. @ @<Cases for |function|@>=
  2106. if (cat1==function || cat1==decl || cat1==stmt) {
  2107.   big_app1(pp); big_app(big_force); big_app1(pp+1); reduce(pp,2,cat1,-1,53);
  2108. @ @<Cases for |lbrace|@>=
  2109. if (cat1==rbrace) {
  2110.   big_app1(pp); app('\\'); app(','); big_app1(pp+1);
  2111. @.\\,@>
  2112.   reduce(pp,2,stmt,-1,54);
  2113. else if ((cat1==stmt||cat1==decl||cat1==function) && cat2==rbrace) {
  2114.   big_app(force); big_app1(pp);  big_app(indent); big_app(force);
  2115.   big_app1(pp+1); big_app(force); big_app(backup);  big_app1(pp+2);
  2116.   big_app(outdent); big_app(force); reduce(pp,3,stmt,-1,55);
  2117. else if (cat1==exp) {
  2118.   if (cat2==rbrace) squash(pp,3,exp,-2,56);
  2119.   else if (cat2==comma && cat3==rbrace) squash(pp,4,exp,-2,56);
  2120. @ @<Cases for |if_like|@>=
  2121. if (cat1==exp) {
  2122.   big_app1(pp); big_app(' '); big_app1(pp+1); reduce(pp,2,if_clause,0,57);
  2123. @ @<Cases for |for_like|@>=
  2124. if (cat1==exp) {
  2125.   big_app1(pp); big_app(' '); big_app1(pp+1); reduce(pp,2,else_like,-2,58);
  2126. @ @<Cases for |else_like|@>=
  2127. if (cat1==lbrace) squash(pp,1,else_head,0,59);
  2128. else if (cat1==stmt) {
  2129.   big_app(force); big_app1(pp); big_app(indent); big_app(break_space);
  2130.   big_app1(pp+1); big_app(outdent); big_app(force);
  2131.   reduce(pp,2,stmt,-1,60);
  2132. @ @<Cases for |else_head|@>=
  2133. if (cat1==stmt || cat1==exp) {
  2134.   big_app(force); big_app1(pp); big_app(break_space); app(noop);
  2135.   big_app(cancel); big_app1(pp+1); big_app(force);
  2136.   reduce(pp,2,stmt,-1,61);
  2137. @ @<Cases for |if_clause|@>=
  2138. if (cat1==lbrace) squash(pp,1,if_head,0,62);
  2139. else if (cat1==stmt) {
  2140.   if (cat2==else_like) {
  2141.     big_app(force); big_app1(pp); big_app(indent); big_app(break_space);
  2142.     big_app1(pp+1); big_app(outdent); big_app(force); big_app1(pp+2);
  2143.     if (cat3==if_like) {
  2144.       big_app(' '); big_app1(pp+3); reduce(pp,4,if_like,0,63);
  2145.     }@+else reduce(pp,3,else_like,0,64);
  2146.   else squash(pp,1,else_like,0,65);
  2147. @ @<Cases for |if_head|@>=
  2148. if (cat1==stmt || cat1==exp) {
  2149.   if (cat2==else_like) {
  2150.     big_app(force); big_app1(pp); big_app(break_space); app(noop);
  2151.     big_app(cancel); big_app1(pp+1); big_app(force); big_app1(pp+2);
  2152.     if (cat3==if_like) {
  2153.       big_app(' '); big_app1(pp+3); reduce(pp,4,if_like,0,66);
  2154.     }@+else reduce(pp,3,else_like,0,67);
  2155.   else squash(pp,1,else_head,0,68);
  2156. @ @<Cases for |do_like|@>=
  2157. if (cat1==stmt && cat2==else_like && cat3==semi) {
  2158.   big_app1(pp); big_app(break_space); app(noop); big_app(cancel);
  2159.   big_app1(pp+1); big_app(cancel); app(noop); big_app(break_space);
  2160.   big_app2(pp+2); reduce(pp,4,stmt,-1,69);
  2161. @ @<Cases for |case_like|@>=
  2162. if (cat1==semi) squash(pp,2,stmt,-1,70);
  2163. else if (cat1==colon) squash(pp,2,tag,-1,71);
  2164. else if (cat1==exp) {
  2165.   if (cat2==semi) {
  2166.     big_app1(pp); big_app(' ');  big_app1(pp+1);  big_app1(pp+2);
  2167.     reduce(pp,3,stmt,-1,72);
  2168.   else if (cat2==colon) {
  2169.     big_app1(pp); big_app(' ');  big_app1(pp+1);  big_app1(pp+2);
  2170.     reduce(pp,3,tag,-1,73);
  2171. @ @<Cases for |tag|@>=
  2172. if (cat1==tag) {
  2173.   big_app1(pp); big_app(break_space); big_app1(pp+1); reduce(pp,2,tag,-1,74);
  2174. else if (cat1==stmt||cat1==decl||cat1==function) {
  2175.   big_app(force); big_app(backup); big_app1(pp); big_app(break_space);
  2176.   big_app1(pp+1); reduce(pp,2,cat1,-1,75);
  2177. @ The user can decide at run-time whether short statements should be
  2178. grouped together on the same line.
  2179. @d force_lines flags['f'] /* should each statement be on its own line? */
  2180. @<Cases for |stmt|@>=
  2181. if (cat1==stmt||cat1==decl||cat1==function) {
  2182.   big_app1(pp);
  2183.   if (cat1==function) big_app(big_force);
  2184.   else if (cat1==decl) big_app(big_force);
  2185.   else if (force_lines) big_app(force);
  2186.   else big_app(break_space);
  2187.   big_app1(pp+1); reduce(pp,2,cat1,-1,76);
  2188. @ @<Cases for |semi|@>=
  2189. big_app(' '); big_app1(pp); reduce(pp,1,stmt,-1,77);
  2190. @ @<Cases for |lproc|@>=
  2191. if (cat1==define_like) make_underlined(pp+2);
  2192. if (cat1==else_like || cat1==if_like ||cat1==define_like)
  2193.   squash(pp,2,lproc,0,78);
  2194. else if (cat1==rproc) {
  2195.   app(inserted); big_app2(pp); reduce(pp,2,insert,-1,79);
  2196. } else if (cat1==exp || cat1==function) {
  2197.   if (cat2==rproc) {
  2198.     app(inserted); big_app1(pp); big_app(' '); big_app2(pp+1);
  2199.     reduce(pp,3,insert,-1,80);
  2200.   else if (cat2==exp && cat3==rproc && cat1==exp) {
  2201.     app(inserted); big_app1(pp); big_app(' '); big_app1(pp+1); app_str(" \\5");
  2202. @.\\5@>
  2203.     big_app2(pp+2); reduce(pp,4,insert,-1,80);
  2204. @ @<Cases for |section_scrap|@>=
  2205. if (cat1==semi) {
  2206.   big_app2(pp); big_app(force); reduce(pp,2,stmt,-2,81);
  2207. else squash(pp,1,exp,-2,82);
  2208. @ @<Cases for |insert|@>=
  2209. if (cat1)
  2210.   squash(pp,2,cat1,0,83);
  2211. @ @<Cases for |prelangle|@>=
  2212. init_mathness=cur_mathness=yes_math;
  2213. app('<'); reduce(pp,1,binop,-2,84);
  2214. @ @<Cases for |prerangle|@>=
  2215. init_mathness=cur_mathness=yes_math;
  2216. app('>'); reduce(pp,1,binop,-2,85);
  2217. @ @<Cases for |langle|@>=
  2218. if (cat1==exp && cat2==prerangle) squash(pp,3,cast,-1,86);
  2219. else if (cat1==prerangle) {
  2220.   big_app1(pp); app('\\'); app(','); big_app1(pp+1);
  2221. @.\\,@>
  2222.   reduce(pp,2,cast,-1,87);
  2223. else if (cat1==decl_head || cat1==int_like) {
  2224.   if (cat2==prerangle) squash(pp,3,cast,-1,88);
  2225.   else if (cat2==comma) {
  2226.     big_app3(pp); app(opt); app('9'); reduce(pp,3,langle,0,89);
  2227. @ @<Cases for |public_like|@>=
  2228. if (cat1==colon) squash(pp,2,tag,-1,90);
  2229. else squash(pp,1,int_like,-2,91);
  2230. @ @<Cases for |colcol|@>=
  2231. if (cat1==exp||cat1==int_like) squash(pp,2,cat1,-2,92);
  2232. @ @<Cases for |new_like|@>=
  2233. if (cat1==exp || (cat1==raw_int&&cat2!=prelangle&&cat2!=langle)) {
  2234.   big_app1(pp); big_app(' '); big_app1(pp+1); reduce(pp,2,new_like,0,93);
  2235. else if (cat1==raw_unorbin || cat1==colcol)
  2236.   squash(pp,2,new_like,0,94);
  2237. else if (cat1==cast) squash(pp,2,exp,-2,95);
  2238. else if (cat1!=lpar && cat1!=raw_int && cat1!=struct_like)
  2239.   squash(pp,1,exp,-2,96);
  2240. @ @<Cases for |operator_like|@>=
  2241. if (cat1==binop || cat1==unop || cat1==unorbinop) {
  2242.   if (cat2==binop) break;
  2243.   big_app1(pp); big_app('{'); big_app1(pp+1); big_app('}');
  2244.   reduce(pp,2,exp,-2,97);
  2245. else if (cat1==new_like || cat1==sizeof_like) {
  2246.   big_app1(pp); big_app(' '); big_app1(pp+1); reduce(pp,2,exp,-2,98);
  2247. else squash(pp,1,new_like,0,99);
  2248. @ @<Cases for |catch_like|@>=
  2249. if (cat1==cast || cat1==exp) {
  2250.   big_app2(pp); big_app(indent); big_app(indent);
  2251.   reduce(pp,2,fn_decl,0,100);
  2252. @ @<Cases for |base|@>=
  2253. if (cat1==public_like && cat2==exp) {
  2254.   if (cat3==comma) {
  2255.     big_app2(pp); big_app(' '); big_app2(pp+2);
  2256.     reduce(pp,4,base,0,101);
  2257.   } else {
  2258.     big_app1(pp+1); big_app(' '); big_app1(pp+2);
  2259.     reduce(pp+1,2,int_like,-1,102);
  2260. @ @<Cases for |raw_rpar|@>=
  2261. if (cat1==const_like) {
  2262.   big_app1(pp); big_app(' ');
  2263.   big_app1(pp+1); reduce(pp,2,raw_rpar,0,103);
  2264. } else squash(pp,1,rpar,-3,104);
  2265. @ @<Cases for |raw_unorbin|@>=
  2266. if (cat1==const_like) {
  2267.   big_app2(pp); app_str("\\ "); reduce(pp,2,raw_unorbin,0,105);
  2268. @.\\ @>
  2269. } else squash(pp,1,unorbinop,-2,106);
  2270. @ @<Cases for |const_like|@>=
  2271. squash(pp,1,int_like,-2,107);
  2272. @ @<Cases for |raw_int|@>=
  2273. if (cat1==lpar) squash(pp,1,exp,-2,108);
  2274. else squash(pp,1,int_like,-3,109);
  2275. @ The `|freeze_text|' macro is used to give official status to a token list.
  2276. Before saying |freeze_text|, items are appended to the current token list,
  2277. and we know that the eventual number of this token list will be the current
  2278. value of |text_ptr|. But no list of that number really exists as yet,
  2279. because no ending point for the current list has been
  2280. stored in the |tok_start| array. After saying |freeze_text|, the
  2281. old current token list becomes legitimate, and its number is the current
  2282. value of |text_ptr-1| since |text_ptr| has been increased. The new
  2283. current token list is empty and ready to be appended to.
  2284. Note that |freeze_text| does not check to see that |text_ptr| hasn't gotten
  2285. too large, since it is assumed that this test was done beforehand.
  2286. @d freeze_text *(++text_ptr)=tok_ptr
  2287. @ Here's the |reduce| procedure used in our code for productions:
  2288. reduce(j,k,c,d,n)
  2289. scrap_pointer j;
  2290. eight_bits c;
  2291. short k, d, n;
  2292.   scrap_pointer i, i1; /* pointers into scrap memory */
  2293.   j->cat=c; j->trans=text_ptr;
  2294.   j->mathness=4*cur_mathness+init_mathness;
  2295.   freeze_text;
  2296.   if (k>1) {
  2297.     for (i=j+k, i1=j+1; i<=lo_ptr; i++, i1++) {
  2298.       i1->cat=i->cat; i1->trans=i->trans;
  2299.       i1->mathness=i->mathness;
  2300.     }
  2301.     lo_ptr=lo_ptr-k+1;
  2302.   @<Change |pp| to $\max(|scrap_base|,|pp|+d)$@>;
  2303.   @<Print a snapshot of the scrap list if debugging @>;
  2304.   pp--; /* we next say |pp++| */
  2305. @ @<Change |pp| to $\max...@>=
  2306. if (pp+d>=scrap_base) pp=pp+d;
  2307. else pp=scrap_base;
  2308. @ Here's the |squash| procedure, which
  2309. takes advantage of the simplification that occurs when |k=1|.
  2310. squash(j,k,c,d,n)
  2311. scrap_pointer j;
  2312. eight_bits c;
  2313. short k, d, n;
  2314.   scrap_pointer i; /* pointers into scrap memory */
  2315.   if (k==1) {
  2316.     j->cat=c; @<Change |pp|...@>;
  2317.     @<Print a snapshot...@>;
  2318.     pp--; /* we next say |pp++| */
  2319.     return;
  2320.   for (i=j; i<j+k; i++) big_app1(i);
  2321.   reduce(j,k,c,d,n);
  2322. @ Here now is the code that applies productions as long as possible.
  2323. Before applying the production mechanism, we must make sure
  2324. it has good input (at least four scraps, the length of the lhs of the
  2325. longest rules), and that there is enough room in the memory arrays
  2326. to hold the appended tokens and texts.  Here we use a very
  2327. conservative test: it's more important to make sure the program
  2328. will still work if we change the production rules (within reason)
  2329. than to squeeze the last bit of space from the memory arrays.
  2330. @d safe_tok_incr 20
  2331. @d safe_text_incr 10
  2332. @d safe_scrap_incr 10
  2333. @<Reduce the scraps using the productions until no more rules apply@>=
  2334. while (1) {
  2335.   @<Make sure the entries |pp| through |pp+3| of |cat| are defined@>;
  2336.   if (tok_ptr+safe_tok_incr>tok_mem_end) {
  2337.     if (tok_ptr>max_tok_ptr) max_tok_ptr=tok_ptr;
  2338.     overflow("token");
  2339.   if (text_ptr+safe_text_incr>tok_start_end) {
  2340.     if (text_ptr>max_text_ptr) max_text_ptr=text_ptr;
  2341.     overflow("text");
  2342.   if (pp>lo_ptr) break;
  2343.   init_mathness=cur_mathness=maybe_math;
  2344.   @<Match a production...@>;
  2345. @ If we get to the end of the scrap list, category codes equal to zero are
  2346. stored, since zero does not match anything in a production.
  2347. @<Make sure the entries...@>=
  2348. if (lo_ptr<pp+3) {
  2349.   while (hi_ptr<=scrap_ptr && lo_ptr!=pp+3) {
  2350.     (++lo_ptr)->cat=hi_ptr->cat; lo_ptr->mathness=(hi_ptr)->mathness;
  2351.     lo_ptr->trans=(hi_ptr++)->trans;
  2352.   for (i=lo_ptr+1;i<=pp+3;i++) i->cat=0;
  2353. @ If \.{CWEAVE} is being run in debugging mode, the production numbers and
  2354. current stack categories will be printed out when |tracing| is set to 2;
  2355. a sequence of two or more irreducible scraps will be printed out when
  2356. |tracing| is set to 1.
  2357. @<Global...@>=
  2358. int tracing; /* can be used to show parsing details */
  2359. @ @<Print a snapsh...@>=
  2360. { scrap_pointer k; /* pointer into |scrap_info| */
  2361.   if (tracing==2) {
  2362.     printf("\n%d:",n);
  2363.     for (k=scrap_base; k<=lo_ptr; k++) {
  2364.       if (k==pp) putxchar('*'); else putxchar(' ');
  2365.       if (k->mathness %4 ==  yes_math) putchar('+');
  2366.       else if (k->mathness %4 ==  no_math) putchar('-');
  2367.       print_cat(k->cat);
  2368.       if (k->mathness /4 ==  yes_math) putchar('+');
  2369.       else if (k->mathness /4 ==  no_math) putchar('-');
  2370.     }
  2371.     if (hi_ptr<=scrap_ptr) printf("..."); /* indicate that more is coming */
  2372. @ The |translate| function assumes that scraps have been stored in
  2373. positions |scrap_base| through |scrap_ptr| of |cat| and |trans|. It
  2374. applies productions as much as
  2375. possible. The result is a token list containing the translation of
  2376. the given sequence of scraps.
  2377. After calling |translate|, we will have |text_ptr+3<=max_texts| and
  2378. |tok_ptr+6<=max_toks|, so it will be possible to create up to three token
  2379. lists with up to six tokens without checking for overflow. Before calling
  2380. |translate|, we should have |text_ptr<max_texts| and |scrap_ptr<max_scraps|,
  2381. since |translate| might add a new text and a new scrap before it checks
  2382. for overflow.
  2383. text_pointer
  2384. translate() /* converts a sequence of scraps */
  2385.   scrap_pointer i, /* index into |cat| */
  2386.   j; /* runs through final scraps */
  2387.   pp=scrap_base; lo_ptr=pp-1; hi_ptr=pp;
  2388.   @<If tracing, print an indication of where we are@>;
  2389.   @<Reduce the scraps...@>;
  2390.   @<Combine the irreducible scraps that remain@>;
  2391. @ If the initial sequence of scraps does not reduce to a single scrap,
  2392. we concatenate the translations of all remaining scraps, separated by
  2393. blank spaces, with dollar signs surrounding the translations of scraps
  2394. where appropriate.
  2395. @<Combine the irreducible...@>= {
  2396.   @<If semi-tracing, show the irreducible scraps@>;
  2397.   for (j=scrap_base; j<=lo_ptr; j++) {
  2398.     if (j!=scrap_base) app(' ');
  2399.     if (j->mathness % 4 == yes_math) app('$');
  2400.     app1(j);
  2401.     if (j->mathness / 4 == yes_math) app('$');
  2402.     if (tok_ptr+6>tok_mem_end) overflow("token");
  2403.   freeze_text; return(text_ptr-1);
  2404. @ @<If semi-tracing, show the irreducible scraps@>=
  2405. if (lo_ptr>scrap_base && tracing==1) {
  2406.   printf("\nIrreducible scrap sequence in section %d:",section_count);
  2407. @.Irreducible scrap sequence...@>
  2408.   mark_harmless;
  2409.   for (j=scrap_base; j<=lo_ptr; j++) {
  2410.     printf(" "); print_cat(j->cat);
  2411. @ @<If tracing,...@>=
  2412. if (tracing==2) {
  2413.   printf("\nTracing after l. %d:\n",cur_line); mark_harmless;
  2414. @.Tracing after...@>
  2415.   if (loc>buffer+50) {
  2416.     printf("...");
  2417.     term_write(loc-51,51);
  2418.   else term_write(buffer,loc-buffer);
  2419. @* Initializing the scraps.
  2420. If we are going to use the powerful production mechanism just developed, we
  2421. must get the scraps set up in the first place, given a \CEE/ text. A table
  2422. of the initial scraps corresponding to \CEE/ tokens appeared above in the
  2423. section on parsing; our goal now is to implement that table. We shall do this
  2424. by implementing a subroutine called |C_parse| that is analogous to the
  2425. |C_xref| routine used during phase one.
  2426. Like |C_xref|, the |C_parse| procedure starts with the current
  2427. value of |next_control| and it uses the operation |next_control=get_next()|
  2428. repeatedly to read \CEE/ text until encountering the next `\.{\v}' or
  2429. `\.{/*}', or until |next_control>=format_code|. The scraps corresponding to
  2430. what it reads are appended into the |cat| and |trans| arrays, and |scrap_ptr|
  2431. is advanced.
  2432. C_parse(spec_ctrl) /* creates scraps from \CEE/ tokens */
  2433.   eight_bits spec_ctrl;
  2434.   int count; /* characters remaining before string break */
  2435.   while (next_control<format_code || next_control==spec_ctrl) {
  2436.     @<Append the scrap appropriate to |next_control|@>;
  2437.     next_control=get_next();
  2438.     if (next_control=='|' || next_control==begin_comment ||
  2439.         next_control==begin_short_comment) return;
  2440. @ The following macro is used to append a scrap whose tokens have just
  2441. been appended:
  2442. @d app_scrap(c,b) {
  2443.   (++scrap_ptr)->cat=(c); scrap_ptr->trans=text_ptr;
  2444.   scrap_ptr->mathness=5*(b); /* no no, yes yes, or maybe maybe */
  2445.   freeze_text;
  2446. @ @<Append the scr...@>=
  2447. @<Make sure that there is room for the new scraps, tokens, and texts@>;
  2448. switch (next_control) {
  2449.   case section_name:
  2450.     app(section_flag+(int)(cur_section-name_dir));
  2451.     app_scrap(section_scrap,maybe_math);
  2452.     app_scrap(exp,yes_math);@+break;
  2453.   case string: case constant: case verbatim: @<Append a string or constant@>;
  2454.    @+break;
  2455.   case identifier: app_cur_id(1);@+break;
  2456.   case TeX_string: @<Append a \TEX/ string, without forming a scrap@>;@+break;
  2457.   case '/': case '.':
  2458.     app(next_control); app_scrap(binop,yes_math);@+break;
  2459.   case '<': app_str("\\langle");@+app_scrap(prelangle,yes_math);@+break;
  2460. @.\\langle@>
  2461.   case '>': app_str("\\rangle");@+app_scrap(prerangle,yes_math);@+break;
  2462. @.\\rangle@>
  2463.   case '=': app_str("\\K"); app_scrap(binop,yes_math);@+break;
  2464. @.\\K@>
  2465.   case '|': app_str("\\OR"); app_scrap(binop,yes_math);@+break;
  2466. @.\\OR@>
  2467.   case '^': app_str("\\XOR"); app_scrap(binop,yes_math);@+break;
  2468. @.\\XOR@>
  2469.   case '%': app_str("\\MOD"); app_scrap(binop,yes_math);@+break;
  2470. @.\\MOD@>
  2471.   case '!': app_str("\\R"); app_scrap(unop,yes_math);@+break;
  2472. @.\\R@>
  2473.   case '~': app_str("\\CM"); app_scrap(unop,yes_math);@+break;
  2474. @.\\CM@>
  2475.   case '+': case '-': app(next_control); app_scrap(unorbinop,yes_math);@+break;
  2476.   case '*': app(next_control); app_scrap(raw_unorbin,yes_math);@+break;
  2477.   case '&': app_str("\\AND"); app_scrap(raw_unorbin,yes_math);@+break;
  2478. @.\\AND@>
  2479.   case '?': app_str("\\?"); app_scrap(question,yes_math);@+break;
  2480. @.\\?@>
  2481.   case '#': app_str("\\#"); app_scrap(unorbinop,yes_math);@+break;
  2482. @.\\\#@>
  2483.   case ignore: case xref_roman: case xref_wildcard:
  2484.   case xref_typewriter: case noop:@+break;
  2485.   case '(': case '[': app(next_control); app_scrap(lpar,maybe_math);@+break;
  2486.   case ')': case ']': app(next_control); app_scrap(raw_rpar,maybe_math);@+break;
  2487.   case '{': app_str("\\{"@q}@>); app_scrap(lbrace,yes_math);@+break;
  2488. @.\\\{@>@q}@>
  2489.   case '}': app_str(@q{@>"\\}"); app_scrap(rbrace,yes_math);@+break;
  2490. @q{@>@.\\\}@>
  2491.   case ',': app(','); app_scrap(comma,yes_math);@+break;
  2492.   case ';': app(';'); app_scrap(semi,maybe_math);@+break;
  2493.   case ':': app(':'); app_scrap(colon,maybe_math);@+break;@/
  2494.   @t\4@>  @<Cases involving nonstandard characters@>@;
  2495.   case thin_space: app_str("\\,"); app_scrap(insert,maybe_math);@+break;
  2496. @.\\,@>
  2497.   case math_break: app(opt); app_str("0");
  2498.     app_scrap(insert,maybe_math);@+break;
  2499.   case line_break: app(force); app_scrap(insert,no_math);@+break;
  2500.   case left_preproc: app(force); app(preproc_line);
  2501.     app_str("\\#"); app_scrap(lproc,no_math);@+break;
  2502. @.\\\#@>
  2503.   case right_preproc: app(force); app_scrap(rproc,no_math);@+break;
  2504.   case big_line_break: app(big_force); app_scrap(insert,no_math);@+break;
  2505.   case no_line_break: app(big_cancel); app(noop); app(break_space);
  2506.     app(noop); app(big_cancel);
  2507.     app_scrap(insert,no_math);@+break;
  2508.   case pseudo_semi: app_scrap(semi,maybe_math);@+break;
  2509.   case macro_arg_open: app_scrap(begin_arg,maybe_math);@+break;
  2510.   case macro_arg_close: app_scrap(end_arg,maybe_math);@+break;
  2511.   case join: app_str("\\J"); app_scrap(insert,no_math);@+break;
  2512. @.\\J@>
  2513.   case output_defs_code: app(force); app_str("\\ATH"); app(force);
  2514.     app_scrap(insert,no_math);@+break;
  2515. @.\\ATH@>
  2516.   default: app(inserted); app(next_control);
  2517.     app_scrap(insert,maybe_math);@+break;
  2518. @ @<Make sure that there is room for the new...@>=
  2519. if (scrap_ptr+safe_scrap_incr>scrap_info_end ||
  2520.   tok_ptr+safe_tok_incr>tok_mem_end @| ||
  2521.   text_ptr+safe_text_incr>tok_start_end) {
  2522.   if (scrap_ptr>max_scr_ptr) max_scr_ptr=scrap_ptr;
  2523.   if (tok_ptr>max_tok_ptr) max_tok_ptr=tok_ptr;
  2524.   if (text_ptr>max_text_ptr) max_text_ptr=text_ptr;
  2525.   overflow("scrap/token/text");
  2526. @ Some nonstandard characters may have entered \.{CWEAVE} by means of
  2527. standard ones. They are converted to \TEX/ control sequences so that it is
  2528. possible to keep \.{CWEAVE} from outputting unusual |char| codes.
  2529. @<Cases involving nonstandard...@>=
  2530. case not_eq: app_str("\\I");@+app_scrap(binop,yes_math);@+break;
  2531. @.\\I@>
  2532. case lt_eq: app_str("\\Z");@+app_scrap(binop,yes_math);@+break;
  2533. @.\\Z@>
  2534. case gt_eq: app_str("\\G");@+app_scrap(binop,yes_math);@+break;
  2535. @.\\G@>
  2536. case eq_eq: app_str("\\E");@+app_scrap(binop,yes_math);@+break;
  2537. @.\\E@>
  2538. case and_and: app_str("\\W");@+app_scrap(binop,yes_math);@+break;
  2539. @.\\W@>
  2540. case or_or: app_str("\\V");@+app_scrap(binop,yes_math);@+break;
  2541. @.\\V@>
  2542. case plus_plus: app_str("\\PP");@+app_scrap(unop,yes_math);@+break;
  2543. @.\\PP@>
  2544. case minus_minus: app_str("\\MM");@+app_scrap(unop,yes_math);@+break;
  2545. @.\\MM@>
  2546. case minus_gt: app_str("\\MG");@+app_scrap(binop,yes_math);@+break;
  2547. @.\\MG@>
  2548. case gt_gt: app_str("\\GG");@+app_scrap(binop,yes_math);@+break;
  2549. @.\\GG@>
  2550. case lt_lt: app_str("\\LL");@+app_scrap(binop,yes_math);@+break;
  2551. @.\\LL@>
  2552. case dot_dot_dot: app_str("\\,\\ldots\\,");@+app_scrap(exp,yes_math);@+break;
  2553. @.\\,@>
  2554. @.\\ldots@>
  2555. case colon_colon: app_str("\\DC");@+app_scrap(colcol,maybe_math);@+break;
  2556. @.\\DC@>
  2557. case period_ast: app_str("\\PA");@+app_scrap(binop,yes_math);@+break;
  2558. @.\\PA@>
  2559. case minus_gt_ast: app_str("\\MGA");@+app_scrap(binop,yes_math);@+break;
  2560. @.\\MGA@>
  2561. @ The following code must use |app_tok| instead of |app| in order to
  2562. protect against overflow. Note that |tok_ptr+1<=max_toks| after |app_tok|
  2563. has been used, so another |app| is legitimate before testing again.
  2564. Many of the special characters in a string must be prefixed by `\.\\' so that
  2565. \TEX/ will print them properly.
  2566. @^special string characters@>
  2567. @<Append a string or...@>=
  2568. count= -1;
  2569. if (next_control==constant) app_str("\\T{"@q}@>);
  2570. @.\\T@>
  2571. else if (next_control==string) {
  2572.   count=20; app_str("\\.{"@q}@>);
  2573. @.\\.@>
  2574. else app_str("\\vb{"@q}@>);
  2575. @.\\vb@>
  2576. while (id_first<id_loc) {
  2577.   if (count==0) { /* insert a discretionary break in a long string */
  2578.      app_str(@q(@>@q{@>"}\\)\\.{"@q}@>); count=20;
  2579. @q(@>@.\\)@>
  2580. @^high-bit character handling@>
  2581.   if((eight_bits)(*id_first)>0177) {
  2582.     app_tok(quoted_char);
  2583.     app_tok((eight_bits)(*id_first++));
  2584.   else {
  2585.     switch (*id_first) {
  2586.       case  ' ':case '\\':case '#':case '%':case '$':case '^':
  2587.       case '{': case '}': case '~': case '&': case '_': app('\\'); break;
  2588. @.\\\ @>
  2589. @.\\\\@>
  2590. @.\\\#@>
  2591. @.\\\%@>
  2592. @.\\\$@>
  2593. @.\\\^@>
  2594. @.\\\{@>@q}@>
  2595. @q{@>@.\\\}@>
  2596. @.\\\~@>
  2597. @.\\\&@>
  2598. @.\\_@>  @q CWEAVE does quote an underscore! @>
  2599.       case '@@': if (*(id_first+1)=='@@') id_first++;
  2600.         else err_print("! Double @@ should be used in strings");
  2601. @.Double @@ should be used...@>
  2602.     }
  2603.     app_tok(*id_first++);
  2604.   count--;
  2605. app(@q{@>'}');
  2606. app_scrap(exp,maybe_math);
  2607. @ We do not make the \TEX/ string into a scrap, because there is no
  2608. telling what the user will be putting into it; instead we leave it
  2609. open, to be picked up by next scrap. If it comes at the end of a
  2610. section, it will be made into a scrap when |finish_C| is called.
  2611. @<Append a \TEX/ string, without forming a scrap@>=
  2612. app_str("\\hbox{"@q}@>);
  2613. @^high-bit character handling@>
  2614. while (id_first<id_loc)
  2615.   if((eight_bits)(*id_first)>0177) {
  2616.     app_tok(quoted_char);
  2617.     app_tok((eight_bits)(*id_first++));
  2618.   else {
  2619.     if (*id_first=='@@') id_first++;
  2620.     app_tok(*id_first++);
  2621. app(@q{@>'}');
  2622. @ The function |app_cur_id| appends the current identifier to the
  2623. token list; it also builds a new scrap if |scrapping==1|.
  2624. @<Predec...@>=
  2625. void app_cur_id();
  2626. app_cur_id(scrapping)
  2627. boolean scrapping; /* are we making this into a scrap? */
  2628.   name_pointer p=id_lookup(id_first,id_loc,normal);
  2629.   if (p->ilk<=quoted) { /* not a reserved word */
  2630.     app(id_flag+(int)(p-name_dir));
  2631.     if (scrapping) app_scrap(exp,p->ilk>=custom? yes_math: maybe_math);
  2632. @.\\NULL@>
  2633.   } else {
  2634.     app(res_flag+(int)(p-name_dir));
  2635.     if (scrapping) app_scrap(p->ilk,maybe_math);
  2636. @ When the `\.{\v}' that introduces \CEE/ text is sensed, a call on
  2637. |C_translate| will return a pointer to the \TEX/ translation of
  2638. that text. If scraps exist in |scrap_info|, they are
  2639. unaffected by this translation process.
  2640. text_pointer
  2641. C_translate()
  2642.   text_pointer p; /* points to the translation */
  2643.   scrap_pointer save_base; /* holds original value of |scrap_base| */
  2644.   save_base=scrap_base; scrap_base=scrap_ptr+1;
  2645.   C_parse(section_name); /* get the scraps together */
  2646.   if (next_control!='|') err_print("! Missing '|' after C text");
  2647. @.Missing '|'...@>
  2648.   app_tok(cancel); app_scrap(insert,maybe_math);
  2649.         /* place a |cancel| token as a final ``comment'' */
  2650.   p=translate(); /* make the translation */
  2651.   if (scrap_ptr>max_scr_ptr) max_scr_ptr=scrap_ptr;
  2652.   scrap_ptr=scrap_base-1; scrap_base=save_base; /* scrap the scraps */
  2653.   return(p);
  2654. @ The |outer_parse| routine is to |C_parse| as |outer_xref|
  2655. is to |C_xref|: it constructs a sequence of scraps for \CEE/ text
  2656. until |next_control>=format_code|. Thus, it takes care of embedded comments.
  2657. outer_parse() /* makes scraps from \CEE/ tokens and comments */
  2658.   int bal; /* brace level in comment */
  2659.   text_pointer p, q; /* partial comments */
  2660.   while (next_control<format_code)
  2661.     if (next_control!=begin_comment && next_control!=begin_short_comment)
  2662.       C_parse(ignore);
  2663.     else {
  2664.       boolean is_long_comment=(next_control==begin_comment);
  2665.       @<Make sure that there is room for the new...@>;
  2666.       app(cancel); app(inserted);
  2667.       if (is_long_comment) app_str("\\C{"@q}@>);
  2668. @.\\C@>
  2669.       else app_str("\\SHC{"@q}@>);
  2670. @.\\SHC@>
  2671.       bal=copy_comment(is_long_comment,1); next_control=ignore;
  2672.       while (bal>0) {
  2673.         p=text_ptr; freeze_text; q=C_translate();
  2674.          /* at this point we have |tok_ptr+6<=max_toks| */
  2675.         app(tok_flag+(int)(p-tok_start));
  2676.         app_str("\\PB{"); app(inner_tok_flag+(int)(q-tok_start)); app_tok('}');
  2677. @.\\PB@>
  2678.         if (next_control=='|') {
  2679.           bal=copy_comment(is_long_comment,bal);
  2680.           next_control=ignore;
  2681.         }
  2682.         else bal=0; /* an error has been reported */
  2683.       }
  2684.       app(force); app_scrap(insert,no_math);
  2685.         /* the full comment becomes a scrap */
  2686.     }
  2687. @* Output of tokens.
  2688. So far our programs have only built up multi-layered token lists in
  2689. \.{CWEAVE}'s internal memory; we have to figure out how to get them into
  2690. the desired final form. The job of converting token lists to characters in
  2691. the \TEX/ output file is not difficult, although it is an implicitly
  2692. recursive process. Four main considerations had to be kept in mind when
  2693. this part of \.{CWEAVE} was designed.  (a) There are two modes of output:
  2694. |outer| mode, which translates tokens like |force| into line-breaking
  2695. control sequences, and |inner| mode, which ignores them except that blank
  2696. spaces take the place of line breaks. (b) The |cancel| instruction applies
  2697. to adjacent token or tokens that are output, and this cuts across levels
  2698. of recursion since `|cancel|' occurs at the beginning or end of a token
  2699. list on one level. (c) The \TEX/ output file will be semi-readable if line
  2700. breaks are inserted after the result of tokens like |break_space| and
  2701. |force|.  (d) The final line break should be suppressed, and there should
  2702. be no |force| token output immediately after `\.{\\Y\\B}'.
  2703. @ The output process uses a stack to keep track of what is going on at
  2704. different ``levels'' as the token lists are being written out. Entries on
  2705. this stack have three parts:
  2706. \yskip\hang |end_field| is the |tok_mem| location where the token list of a
  2707. particular level will end;
  2708. \yskip\hang |tok_field| is the |tok_mem| location from which the next token
  2709. on a particular level will be read;
  2710. \yskip\hang |mode_field| is the current mode, either |inner| or |outer|.
  2711. \yskip\noindent The current values of these quantities are referred to
  2712. quite frequently, so they are stored in a separate place instead of in the
  2713. |stack| array. We call the current values |cur_end|, |cur_tok|, and
  2714. |cur_mode|.
  2715. The global variable |stack_ptr| tells how many levels of output are
  2716. currently in progress. The end of output occurs when an |end_translation|
  2717. token is found, so the stack is never empty except when we first begin the
  2718. output process.
  2719. @d inner 0 /* value of |mode| for \CEE/ texts within \TEX/ texts */
  2720. @d outer 1 /* value of |mode| for \CEE/ texts in sections */
  2721. @<Typed...@>= typedef int mode;
  2722. typedef struct {
  2723.   token_pointer end_field; /* ending location of token list */
  2724.   token_pointer tok_field; /* present location within token list */
  2725.   boolean mode_field; /* interpretation of control tokens */
  2726. } output_state;
  2727. typedef output_state *stack_pointer;
  2728. @ @d cur_end cur_state.end_field /* current ending location in |tok_mem| */
  2729. @d cur_tok cur_state.tok_field /* location of next output token in |tok_mem| */
  2730. @d cur_mode cur_state.mode_field /* current mode of interpretation */
  2731. @d init_stack stack_ptr=stack;cur_mode=outer /* initialize the stack */
  2732. @<Global...@>=
  2733. output_state cur_state; /* |cur_end|, |cur_tok|, |cur_mode| */
  2734. output_state stack[stack_size]; /* info for non-current levels */
  2735. stack_pointer stack_ptr; /* first unused location in the output state stack */
  2736. stack_pointer stack_end=stack+stack_size-1; /* end of |stack| */
  2737. stack_pointer max_stack_ptr; /* largest value assumed by |stack_ptr| */
  2738. @ @<Set init...@>=
  2739. max_stack_ptr=stack;
  2740. @ To insert token-list |p| into the output, the |push_level| subroutine
  2741. is called; it saves the old level of output and gets a new one going.
  2742. The value of |cur_mode| is not changed.
  2743. push_level(p) /* suspends the current level */
  2744. text_pointer p;
  2745.   if (stack_ptr==stack_end) overflow("stack");
  2746.   if (stack_ptr>stack) { /* save current state */
  2747.     stack_ptr->end_field=cur_end;
  2748.     stack_ptr->tok_field=cur_tok;
  2749.     stack_ptr->mode_field=cur_mode;
  2750.   stack_ptr++;
  2751.   if (stack_ptr>max_stack_ptr) max_stack_ptr=stack_ptr;
  2752.   cur_tok=*p; cur_end=*(p+1);
  2753. @ Conversely, the |pop_level| routine restores the conditions that were in
  2754. force when the current level was begun. This subroutine will never be
  2755. called when |stack_ptr=1|.
  2756. pop_level()
  2757.   cur_end=(--stack_ptr)->end_field;
  2758.   cur_tok=stack_ptr->tok_field; cur_mode=stack_ptr->mode_field;
  2759. @ The |get_output| function returns the next byte of output that is not a
  2760. reference to a token list. It returns the values |identifier| or |res_word|
  2761. or |section_code| if the next token is to be an identifier (typeset in
  2762. italics), a reserved word (typeset in boldface) or a section name (typeset
  2763. by a complex routine that might generate additional levels of output).
  2764. In these cases |cur_name| points to the identifier or section name in
  2765. question.
  2766. @<Global...@>=
  2767. name_pointer cur_name;
  2768. @ @d res_word 0201 /* returned by |get_output| for reserved words */
  2769. @d section_code 0200 /* returned by |get_output| for section names */
  2770. eight_bits
  2771. get_output() /* returns the next token of output */
  2772.   sixteen_bits a; /* current item read from |tok_mem| */
  2773.   restart: while (cur_tok==cur_end) pop_level();
  2774.   a=*(cur_tok++);
  2775.   if (a>=0400) {
  2776.     cur_name=a % id_flag + name_dir;
  2777.     switch (a / id_flag) {
  2778.       case 2: return(res_word); /* |a==res_flag+cur_name| */
  2779.       case 3: return(section_code); /* |a==section_flag+cur_name| */
  2780.       case 4: push_level(a % id_flag + tok_start); goto restart;
  2781.         /* |a==tok_flag+cur_name| */
  2782.       case 5: push_level(a % id_flag + tok_start); cur_mode=inner; goto restart;
  2783.         /* |a==inner_tok_flag+cur_name| */
  2784.       default: return(identifier); /* |a==id_flag+cur_name| */
  2785.     }
  2786.   return(a);
  2787. @ The real work associated with token output is done by |make_output|.
  2788. This procedure appends an |end_translation| token to the current token list,
  2789. and then it repeatedly calls |get_output| and feeds characters to the output
  2790. buffer until reaching the |end_translation| sentinel. It is possible for
  2791. |make_output| to be called recursively, since a section name may include
  2792. embedded \CEE/ text; however, the depth of recursion never exceeds one
  2793. level, since section names cannot be inside of section names.
  2794. A procedure called |output_C| does the scanning, translation, and
  2795. output of \CEE/ text within `\pb' brackets, and this procedure uses
  2796. |make_output| to output the current token list. Thus, the recursive call
  2797. of |make_output| actually occurs when |make_output| calls |output_C|
  2798. while outputting the name of a section.
  2799. @^recursion@>
  2800. The token list created from within `\pb' brackets is output as an argument
  2801. to \.{\\PB}. Although \.{cwebmac} ignores \.{\\PB}, other macro packages
  2802. might use it to localize the special meaning of the macros that mark up
  2803. program text.
  2804. output_C() /* outputs the current token list */
  2805.   token_pointer save_tok_ptr;
  2806.   text_pointer save_text_ptr;
  2807.   sixteen_bits save_next_control; /* values to be restored */
  2808.   text_pointer p; /* translation of the \CEE/ text */
  2809.   save_tok_ptr=tok_ptr; save_text_ptr=text_ptr;
  2810.   save_next_control=next_control; next_control=ignore; p=C_translate();
  2811.   app(inner_tok_flag+(int)(p-tok_start));
  2812.   out_str("\\PB{"); make_output(); out('}'); /* output the list */
  2813. @.\\PB@>
  2814.   if (text_ptr>max_text_ptr) max_text_ptr=text_ptr;
  2815.   if (tok_ptr>max_tok_ptr) max_tok_ptr=tok_ptr;
  2816.   text_ptr=save_text_ptr; tok_ptr=save_tok_ptr; /* forget the tokens */
  2817.   next_control=save_next_control; /* restore |next_control| to original state */
  2818. @ Here is \.{CWEAVE}'s major output handler.
  2819. @<Predecl...@>=
  2820. void make_output();
  2821. make_output() /* outputs the equivalents of tokens */
  2822.   eight_bits a, /* current output byte */
  2823.   b; /* next output byte */
  2824.   int c; /* count of |indent| and |outdent| tokens */
  2825.   char *k, *k_limit; /* indices into |byte_mem| */
  2826.   char *j; /* index into |buffer| */
  2827.   char delim; /* first and last character of string being copied */
  2828.   char *save_loc, *save_limit; /* |loc| and |limit| to be restored */
  2829.   char scratch[longest_name]; /* scratch area for section names */
  2830.   name_pointer cur_section_name; /* name of section being output */
  2831.   boolean save_mode; /* value of |cur_mode| before a sequence of breaks */
  2832.   app(end_translation); /* append a sentinel */
  2833.   freeze_text; push_level(text_ptr-1);
  2834.   while (1) {
  2835.     a=get_output();
  2836.     reswitch: switch(a) {
  2837.       case end_translation: return;
  2838.       case identifier: case res_word: @<Output an identifier@>; break;
  2839.       case section_code: @<Output a section name@>; break;
  2840.       case math_rel: out_str("\\MRL{"@q}@>);
  2841. @.\\MRL@>
  2842.       case noop: case inserted: break;
  2843.       case cancel: case big_cancel: c=0; b=a;
  2844.         while (1) {
  2845.           a=get_output();
  2846.           if (a==inserted) continue;
  2847.           if ((a<indent && !(b==big_cancel&&a==' ')) || a>big_force) break;
  2848.           if (a==indent) c++; else if (a==outdent) c--;
  2849.           else if (a==opt) a=get_output();
  2850.         }
  2851.         @<Output saved |indent| or |outdent| tokens@>;
  2852.         goto reswitch;
  2853.       case indent: case outdent: case opt: case backup: case break_space:
  2854.       case force: case big_force: case preproc_line: @<Output a control,
  2855.         look ahead in case of line breaks, possibly |goto reswitch|@>; break;
  2856.       case quoted_char: out(*(cur_tok++)); break;
  2857.       default: out(a); /* otherwise |a| is an ordinary character */
  2858.     }
  2859. @ An identifier of length one does not have to be enclosed in braces, and it
  2860. looks slightly better if set in a math-italic font instead of a (slightly
  2861. narrower) text-italic font. Thus we output `\.{\\\v}\.{a}' but
  2862. `\.{\\\\\{aa\}}'.
  2863. @<Output an identifier@>=
  2864. out('\\');
  2865. if (a==identifier) {
  2866.   if (cur_name->ilk>=custom && cur_name->ilk<=quoted && !doing_format) {
  2867.     for (j=cur_name->byte_start;j<(cur_name+1)->byte_start;j++)
  2868.       out(isxalpha(*j)? 'x':*j);
  2869.     break;
  2870.   } else if (is_tiny(cur_name)) out('|')
  2871. @.\\|@>
  2872.   else { delim='.';
  2873.     for (j=cur_name->byte_start;j<(cur_name+1)->byte_start;j++)
  2874.       if (islower(*j)) { /* not entirely uppercase */
  2875.          delim='\\'; break;
  2876.       }
  2877.   out(delim);
  2878. @.\\\\@>
  2879. @.\\.@>
  2880. else out('&') /* |a==res_word| */
  2881. @.\\\&@>
  2882. if (is_tiny(cur_name)) {
  2883.   if (isxalpha((cur_name->byte_start)[0]))
  2884.     out('\\');
  2885.   out((cur_name->byte_start)[0]);
  2886. else out_name(cur_name);
  2887. @ The current mode does not affect the behavior of \.{CWEAVE}'s output routine
  2888. except when we are outputting control tokens.
  2889. @<Output a control...@>=
  2890. if (a<break_space || a==preproc_line) {
  2891.   if (cur_mode==outer) {
  2892.     out('\\'); out(a-cancel+'0');
  2893. @.\\1@>
  2894. @.\\2@>
  2895. @.\\3@>
  2896. @.\\4@>
  2897. @.\\8@>
  2898.     if (a==opt) {
  2899.       b=get_output(); /* |opt| is followed by a digit */
  2900.       if (b!='0' || force_lines==0) out(b)@;
  2901.       else out_str("{-1}"); /* |force_lines| encourages more \.{@@\v} breaks */
  2902.     }
  2903.   } else if (a==opt) b=get_output(); /* ignore digit following |opt| */
  2904. else @<Look ahead for strongest line break, |goto reswitch|@>
  2905. @ If several of the tokens |break_space|, |force|, |big_force| occur in a
  2906. row, possibly mixed with blank spaces (which are ignored),
  2907. the largest one is used. A line break also occurs in the output file,
  2908. except at the very end of the translation. The very first line break
  2909. is suppressed (i.e., a line break that follows `\.{\\Y\\B}').
  2910. @<Look ahead for st...@>= {
  2911.   b=a; save_mode=cur_mode; c=0;
  2912.   while (1) {
  2913.     a=get_output();
  2914.     if (a==inserted) continue;
  2915.     if (a==cancel || a==big_cancel) {
  2916.       @<Output saved |indent| or |outdent| tokens@>;
  2917.       goto reswitch; /* |cancel| overrides everything */
  2918.     }
  2919.     if ((a!=' ' && a<indent) || a==backup || a>big_force) {
  2920.       if (save_mode==outer) {
  2921.         if (out_ptr>out_buf+3 && strncmp(out_ptr-3,"\\Y\\B",4)==0)
  2922.           goto reswitch;
  2923.         @<Output saved |indent| or |outdent| tokens@>;
  2924.         out('\\'); out(b-cancel+'0');
  2925. @.\\5@>
  2926. @.\\6@>
  2927. @.\\7@>
  2928.         if (a!=end_translation) finish_line();
  2929.       }
  2930.       else if (a!=end_translation && cur_mode==inner) out(' ');
  2931.       goto reswitch;
  2932.     }
  2933.     if (a==indent) c++;
  2934.     else if (a==outdent) c--;
  2935.     else if (a==opt) a=get_output();
  2936.     else if (a>b) b=a; /* if |a==' '| we have |a<b| */
  2937. @ @<Output saved...@>=
  2938.   for (;c>0;c--) out_str("\\1");
  2939. @.\\1@>
  2940.   for (;c<0;c++) out_str("\\2");
  2941. @.\\2@>
  2942. @ The remaining part of |make_output| is somewhat more complicated. When we
  2943. output a section name, we may need to enter the parsing and translation
  2944. routines, since the name may contain \CEE/ code embedded in
  2945. \pb\ constructions. This \CEE/ code is placed at the end of the active
  2946. input buffer and the translation process uses the end of the active
  2947. |tok_mem| area.
  2948. @<Output a section name@>= {
  2949.   out_str("\\X");
  2950. @.\\X@>
  2951.   cur_xref=(xref_pointer)cur_name->xref;
  2952.   if (cur_xref->num==file_flag) {an_output=1; cur_xref=cur_xref->xlink;}
  2953.   else an_output=0;
  2954.   if (cur_xref->num>=def_flag) {
  2955.     out_section(cur_xref->num-def_flag);
  2956.     if (phase==3) {
  2957.       cur_xref=cur_xref->xlink;
  2958.       while (cur_xref->num>=def_flag) {
  2959.         out_str(", ");
  2960.         out_section(cur_xref->num-def_flag);
  2961.       cur_xref=cur_xref->xlink;
  2962.       }
  2963.     }
  2964.   else out('0'); /* output the section number, or zero if it was undefined */
  2965.   out(':');
  2966.   if (an_output) out_str("\\.{"@q}@>);
  2967. @.\\.@>
  2968.   @<Output the text of the section name@>;
  2969.   if (an_output) out_str(@q{@>" }");
  2970.   out_str("\\X");
  2971. @ @<Output the text...@>=
  2972. sprint_section_name(scratch,cur_name);
  2973. k=scratch;
  2974. k_limit=scratch+strlen(scratch);
  2975. cur_section_name=cur_name;
  2976. while (k<k_limit) {
  2977.   b=*(k++);
  2978.   if (b=='@@') @<Skip next character, give error if not `\.{@@}'@>;
  2979.   if (an_output)
  2980.     switch (b) {
  2981.  case  ' ':case '\\':case '#':case '%':case '$':case '^':
  2982.  case '{': case '}': case '~': case '&': case '_':
  2983.     out('\\'); /* falls through */
  2984. @.\\\ @>
  2985. @.\\\\@>
  2986. @.\\\#@>
  2987. @.\\\%@>
  2988. @.\\\$@>
  2989. @.\\\^@>
  2990. @.\\\{@>@q}@>
  2991. @q{@>@.\\\}@>
  2992. @.\\\~@>
  2993. @.\\\&@>
  2994. @.\\_@>  @q CWEAVE does quote an underscore! @>
  2995.  default: out(b);
  2996.     }
  2997.   else if (b!='|') out(b)
  2998.   else {
  2999.     @<Copy the \CEE/ text into the |buffer| array@>;
  3000.     save_loc=loc; save_limit=limit; loc=limit+2; limit=j+1;
  3001.     *limit='|'; output_C();
  3002.     loc=save_loc; limit=save_limit;
  3003. @ @<Skip next char...@>=
  3004. if (*k++!='@@') {
  3005.   printf("\n! Illegal control code in section name: <");
  3006. @.Illegal control code...@>
  3007.   print_section_name(cur_section_name); printf("> "); mark_error;
  3008. @ The \CEE/ text enclosed in \pb\ should not contain `\.{\v}' characters,
  3009. except within strings. We put a `\.{\v}' at the front of the buffer, so that an
  3010. error message that displays the whole buffer will look a little bit sensible.
  3011. The variable |delim| is zero outside of strings, otherwise it
  3012. equals the delimiter that began the string being copied.
  3013. @<Copy the \CEE/ text into...@>=
  3014. j=limit+1; *j='|'; delim=0;
  3015. while (1) {
  3016.   if (k>=k_limit) {
  3017.     printf("\n! C text in section name didn't end: <");
  3018. @.C text...didn't end@>
  3019.     print_section_name(cur_section_name); printf("> "); mark_error; break;
  3020.   b=*(k++);
  3021.   if (b=='@@') @<Copy a control code into the buffer@>
  3022.   else {
  3023.     if (b=='\'' || b=='"')
  3024.       if (delim==0) delim=b;
  3025.       else if (delim==b) delim=0;
  3026.     if (b!='|' || delim!=0) {
  3027.       if (j>buffer+long_buf_size-3) overflow("buffer");
  3028.       *(++j)=b;
  3029.     }
  3030.     else break;
  3031. @ @<Copy a control code into the buffer@>= {
  3032.   if (j>buffer+long_buf_size-4) overflow("buffer");
  3033.   *(++j)='@@'; *(++j)=*(k++);
  3034. @** Phase two processing.
  3035. We have assembled enough pieces of the puzzle in order to be ready to specify
  3036. the processing in \.{CWEAVE}'s main pass over the source file. Phase two
  3037. is analogous to phase one, except that more work is involved because we must
  3038. actually output the \TEX/ material instead of merely looking at the
  3039. \.{CWEB} specifications.
  3040. @<Predecl...@>=
  3041. void phase_two();
  3042. phase_two() {
  3043. reset_input(); if (show_progress) printf("\nWriting the output file...");
  3044. @.Writing the output file...@>
  3045. section_count=0; format_visible=1; copy_limbo();
  3046. finish_line(); flush_buffer(out_buf,0,0); /* insert a blank line, it looks nice */
  3047. while (!input_has_ended) @<Translate the current section@>;
  3048. @ The output file will contain the control sequence \.{\\Y} between non-null
  3049. sections of a section, e.g., between the \TEX/ and definition parts if both
  3050. are nonempty. This puts a little white space between the parts when they are
  3051. printed. However, we don't want \.{\\Y} to occur between two definitions
  3052. within a single section. The variables |out_line| or |out_ptr| will
  3053. change if a section is non-null, so the following macros `|save_position|'
  3054. and `|emit_space_if_needed|' are able to handle the situation:
  3055. @d save_position save_line=out_line; save_place=out_ptr
  3056. @d emit_space_if_needed if (save_line!=out_line || save_place!=out_ptr)
  3057.   out_str("\\Y");
  3058.   space_checked=1
  3059. @.\\Y@>
  3060. @<Global...@>=
  3061. int save_line; /* former value of |out_line| */
  3062. char *save_place; /* former value of |out_ptr| */
  3063. int sec_depth; /* the integer, if any, following \.{@@*} */
  3064. boolean space_checked; /* have we done |emit_space_if_needed|? */
  3065. boolean format_visible; /* should the next format declaration be output? */
  3066. boolean doing_format=0; /* are we outputting a format declaration? */
  3067. boolean group_found=0; /* has a starred section occurred? */
  3068. @ @<Translate the current section@>= {
  3069.   section_count++;
  3070.   @<Output the code for the beginning of a new section@>;
  3071.   save_position;
  3072.   @<Translate the \TEX/ part of the current section@>;
  3073.   @<Translate the definition part of the current section@>;
  3074.   @<Translate the \CEE/ part of the current section@>;
  3075.   @<Show cross-references to this section@>;
  3076.   @<Output the code for the end of a section@>;
  3077. @ Sections beginning with the \.{CWEB} control sequence `\.{@@\ }' start in the
  3078. output with the \TEX/ control sequence `\.{\\M}', followed by the section
  3079. number. Similarly, `\.{@@*}' sections lead to the control sequence `\.{\\N}'.
  3080. In this case there's an additional parameter, representing one plus the
  3081. specified depth, immediately after the \.{\\N}.
  3082. If the section has changed, we put \.{\\*} just after the section number.
  3083. @<Output the code for the beginning...@>=
  3084. if (*(loc-1)!='*') out_str("\\M");
  3085. @.\\M@>
  3086. else {
  3087.   while (*loc == ' ') loc++;
  3088.   if (*loc=='*') { /* ``top'' level */
  3089.     sec_depth = -1;
  3090.     loc++;
  3091.   else {
  3092.     for (sec_depth=0; isdigit(*loc);loc++)
  3093.       sec_depth = sec_depth*10 + (*loc) -'0';
  3094.   while (*loc == ' ') loc++; /* remove spaces before group title */
  3095.   group_found=1;
  3096.   out_str("\\N");
  3097. @.\\N@>
  3098.   {@+ char s[32];@+sprintf(s,"{%d}",sec_depth+1);@+out_str(s);@+}
  3099.   if (show_progress)
  3100.   printf("*%d",section_count); update_terminal; /* print a progress report */
  3101. out_str("{");out_section(section_count); out_str("}");
  3102. @ In the \TEX/ part of a section, we simply copy the source text, except that
  3103. index entries are not copied and \CEE/ text within \pb\ is translated.
  3104. @<Translate the \T...@>= do {
  3105.   next_control=copy_TeX();
  3106.   switch (next_control) {
  3107.     case '|': init_stack; output_C(); break;
  3108.     case '@@': out('@@'); break;
  3109.     case TeX_string: case noop:
  3110.     case xref_roman: case xref_wildcard: case xref_typewriter:
  3111.     case section_name: loc-=2; next_control=get_next(); /* skip to \.{@@>} */
  3112.       if (next_control==TeX_string)
  3113.         err_print("! TeX string should be in C text only"); break;
  3114. @.TeX string should be...@>
  3115.     case thin_space: case math_break: case ord:
  3116.     case line_break: case big_line_break: case no_line_break: case join:
  3117.     case pseudo_semi: case macro_arg_open: case macro_arg_close:
  3118.     case output_defs_code:
  3119.         err_print("! You can't do that in TeX text"); break;
  3120. @.You can't do that...@>
  3121. } while (next_control<format_code);
  3122. @ When we get to the following code we have |next_control>=format_code|, and
  3123. the token memory is in its initial empty state.
  3124. @<Translate the d...@>=
  3125. space_checked=0;
  3126. while (next_control<=definition) { /* |format_code| or |definition| */
  3127.   init_stack;
  3128.   if (next_control==definition) @<Start a macro definition@>@;
  3129.   else @<Start a format definition@>;
  3130.   outer_parse(); finish_C(format_visible); format_visible=1;
  3131.   doing_format=0;
  3132. @ The |finish_C| procedure outputs the translation of the current
  3133. scraps, preceded by the control sequence `\.{\\B}' and followed by the
  3134. control sequence `\.{\\par}'. It also restores the token and scrap
  3135. memories to their initial empty state.
  3136. A |force| token is appended to the current scraps before translation
  3137. takes place, so that the translation will normally end with \.{\\6} or
  3138. \.{\\7} (the \TEX/ macros for |force| and |big_force|). This \.{\\6} or
  3139. \.{\\7} is replaced by the concluding \.{\\par} or by \.{\\Y\\par}.
  3140. @<Predecl...@>=
  3141. void finish_C();
  3142. finish_C(visible) /* finishes a definition or a \CEE/ part */
  3143.   boolean visible; /* nonzero if we should produce \TEX/ output */
  3144.   text_pointer p; /* translation of the scraps */
  3145.   if (visible) {
  3146.     out_str("\\B"); app_tok(force); app_scrap(insert,no_math);
  3147.     p=translate();
  3148. @.\\B@>
  3149.     app(tok_flag+(int)(p-tok_start)); make_output(); /* output the list */
  3150.     if (out_ptr>out_buf+1)
  3151.       if (*(out_ptr-1)=='\\')
  3152. @.\\6@>
  3153. @.\\7@>
  3154. @.\\Y@>
  3155.         if (*out_ptr=='6') out_ptr-=2;
  3156.         else if (*out_ptr=='7') *out_ptr='Y';
  3157.     out_str("\\par"); finish_line();
  3158.   if (text_ptr>max_text_ptr) max_text_ptr=text_ptr;
  3159.   if (tok_ptr>max_tok_ptr) max_tok_ptr=tok_ptr;
  3160.   if (scrap_ptr>max_scr_ptr) max_scr_ptr=scrap_ptr;
  3161.   tok_ptr=tok_mem+1; text_ptr=tok_start+1; scrap_ptr=scrap_info;
  3162.     /* forget the tokens and the scraps */
  3163. @ Keeping in line with the conventions of the \CEE/ preprocessor (and
  3164. otherwise contrary to the rules of \.{CWEB}) we distinguish here
  3165. between the case that `\.(' immediately follows an identifier and the
  3166. case that the two are separated by a space.  In the latter case, and
  3167. if the identifier is not followed by `\.(' at all, the replacement
  3168. text starts immediately after the identifier.  In the former case,
  3169. it starts after we scan the matching `\.)'.
  3170. @<Start a macro...@>= {
  3171.   if (save_line!=out_line || save_place!=out_ptr)  app(backup);
  3172.   if(!space_checked){emit_space_if_needed;save_position;}
  3173.   app_str("\\D"); /* this will produce `\&{define }' */
  3174. @.\\D@>
  3175.   if ((next_control=get_next())!=identifier)
  3176.     err_print("! Improper macro definition");
  3177. @.Improper macro definition@>
  3178.   else {
  3179.     app('$'); app_cur_id(0);
  3180.     if (*loc=='(')
  3181.   reswitch: switch (next_control=get_next()) {
  3182.       case '(': case ',': app(next_control); goto reswitch;
  3183.       case identifier: app_cur_id(0); goto reswitch;
  3184.       case ')': app(next_control); next_control=get_next(); break;
  3185.       default: err_print("! Improper macro definition"); break;
  3186.     }
  3187.     else next_control=get_next();
  3188.     app_str("$ "); app(break_space);
  3189.     app_scrap(dead,no_math); /* scrap won't take part in the parsing */
  3190. @ @<Start a format...@>= {
  3191.   doing_format=1;
  3192.   if(*(loc-1)=='s' || *(loc-1)=='S') format_visible=0;
  3193.   if(!space_checked){emit_space_if_needed;save_position;}
  3194.   app_str("\\F"); /* this will produce `\&{format }' */
  3195. @.\\F@>
  3196.   next_control=get_next();
  3197.   if (next_control==identifier) {
  3198.     app(id_flag+(int)(id_lookup(id_first, id_loc,normal)-name_dir));
  3199.     app(' ');
  3200.     app(break_space); /* this is syntactically separate from what follows */
  3201.     next_control=get_next();
  3202.     if (next_control==identifier) {
  3203.       app(id_flag+(int)(id_lookup(id_first, id_loc,normal)-name_dir));
  3204.       app_scrap(exp,maybe_math); app_scrap(semi,maybe_math);
  3205.       next_control=get_next();
  3206.     }
  3207.   if (scrap_ptr!=scrap_info+2) err_print("! Improper format definition");
  3208. @.Improper format definition@>
  3209. @ Finally, when the \TEX/ and definition parts have been treated, we have
  3210. |next_control>=begin_C|. We will make the global variable |this_section|
  3211. point to the current section name, if it has a name.
  3212. @<Global...@>=
  3213. name_pointer this_section; /* the current section name, or zero */
  3214. @ @<Translate the \CEE/...@>=
  3215. this_section=name_dir;
  3216. if (next_control<=section_name) {
  3217.   emit_space_if_needed; init_stack;
  3218.   if (next_control==begin_C) next_control=get_next();
  3219.   else {
  3220.     this_section=cur_section;
  3221.     @<Check that |=| or |==| follows this section name, and
  3222.       emit the scraps to start the section definition@>;
  3223.   while  (next_control<=section_name) {
  3224.     outer_parse();
  3225.     @<Emit the scrap for a section name if present@>;
  3226.   finish_C(1);
  3227. @ The title of the section and an $\E$ or $\mathrel+\E$ are made
  3228. into a scrap that should not take part in the parsing.
  3229. @<Check that |=|...@>=
  3230. do next_control=get_next();
  3231.   while (next_control=='+'); /* allow optional `\.{+=}' */
  3232. if (next_control!='=' && next_control!=eq_eq)
  3233.   err_print("! You need an = sign after the section name");
  3234. @.You need an = sign...@>
  3235.   else next_control=get_next();
  3236. if (out_ptr>out_buf+1 && *out_ptr=='Y' && *(out_ptr-1)=='\\') app(backup);
  3237.     /* the section name will be flush left */
  3238. @.\\Y@>
  3239. app(section_flag+(int)(this_section-name_dir));
  3240. cur_xref=(xref_pointer)this_section->xref;
  3241. if(cur_xref->num==file_flag) cur_xref=cur_xref->xlink;
  3242. app_str("${}");
  3243. if (cur_xref->num!=section_count+def_flag) {
  3244.   app_str("\\mathrel+"); /*section name is multiply defined*/
  3245.   this_section=name_dir; /*so we won't give cross-reference info here*/
  3246. app_str("\\E"); /* output an equivalence sign */
  3247. @.\\E@>
  3248. app_str("{}$");
  3249. app(force); app_scrap(dead,no_math);
  3250.         /* this forces a line break unless `\.{@@+}' follows */
  3251. @ @<Emit the scrap...@>=
  3252. if (next_control<section_name) {
  3253.   err_print("! You can't do that in C text");
  3254. @.You can't do that...@>
  3255.   next_control=get_next();
  3256. else if (next_control==section_name) {
  3257.   app(section_flag+(int)(cur_section-name_dir));
  3258.   app_scrap(section_scrap,maybe_math);
  3259.   next_control=get_next();
  3260. @ Cross references relating to a named section are given
  3261. after the section ends.
  3262. @<Show cross...@>=
  3263. if (this_section>name_dir) {
  3264.   cur_xref=(xref_pointer)this_section->xref;
  3265.   if (cur_xref->num==file_flag){an_output=1;cur_xref=cur_xref->xlink;}
  3266.   else an_output=0;
  3267.   if (cur_xref->num>def_flag)
  3268.     cur_xref=cur_xref->xlink; /* bypass current section number */
  3269.   footnote(def_flag); footnote(cite_flag); footnote(0);
  3270. @ The |footnote| procedure gives cross-reference information about
  3271. multiply defined section names (if the |flag| parameter is
  3272. |def_flag|), or about references to a section name
  3273. (if |flag==cite_flag|), or to its uses (if |flag==0|). It assumes that
  3274. |cur_xref| points to the first cross-reference entry of interest, and it
  3275. leaves |cur_xref| pointing to the first element not printed.  Typical outputs:
  3276. `\.{\\A101.}'; `\.{\\Us 370\\ET1009.}';
  3277. `\.{\\As 8, 27\\*\\ETs64.}'.
  3278. Note that the output of \.{CWEAVE} is not English-specific; users may
  3279. supply new definitions for the macros \.{\\A}, \.{\\As}, etc.
  3280. @<Predecl...@>=
  3281. void footnote();
  3282. footnote(flag) /* outputs section cross-references */
  3283. sixteen_bits flag;
  3284.   xref_pointer q; /* cross-reference pointer variable */
  3285.   if (cur_xref->num<=flag) return;
  3286.   finish_line(); out('\\');
  3287. @.\\A@>
  3288. @.\\Q@>
  3289. @.\\U@>
  3290.   out(flag==0? 'U': flag==cite_flag? 'Q': 'A');
  3291.   @<Output all the section numbers on the reference list |cur_xref|@>;
  3292.   out('.');
  3293. @ The following code distinguishes three cases, according as the number
  3294. of cross-references is one, two, or more than two. Variable |q| points
  3295. to the first cross-reference, and the last link is a zero.
  3296. @<Output all the section numbers...@>=
  3297. q=cur_xref; if (q->xlink->num>flag) out('s'); /* plural */
  3298. while (1) {
  3299.   out_section(cur_xref->num-flag);
  3300.   cur_xref=cur_xref->xlink; /* point to the next cross-reference to output */
  3301.   if (cur_xref->num<=flag) break;
  3302.   if (cur_xref->xlink->num>flag) out_str(", "); /* not the last */
  3303.   else {out_str("\\ET"); /* the last */
  3304. @.\\ET@>
  3305.   if (cur_xref != q->xlink) out('s'); /* the last of more than two */
  3306. @ @<Output the code for the end of a section@>=
  3307. out_str("\\fi"); finish_line();
  3308. @.\\fi@>
  3309. flush_buffer(out_buf,0,0); /* insert a blank line, it looks nice */
  3310. @** Phase three processing.
  3311. We are nearly finished! \.{CWEAVE}'s only remaining task is to write out the
  3312. index, after sorting the identifiers and index entries.
  3313. If the user has set the |no_xref| flag (the |-x| option on the command line),
  3314. just finish off the page, omitting the index, section name list, and table of
  3315. contents.
  3316. @<Predecl...@>=
  3317. void phase_three();
  3318. phase_three() {
  3319. if (no_xref) {
  3320.   finish_line();
  3321.   out_str("\\end");
  3322. @.\\end@>
  3323.   finish_line();
  3324. else {
  3325.   phase=3; if (show_progress) printf("\nWriting the index...");
  3326. @.Writing the index...@>
  3327.   finish_line();
  3328.   if ((idx_file=fopen(idx_file_name,"w"))==NULL)
  3329.     fatal("! Cannot open index file ",idx_file_name);
  3330. @.Cannot open index file@>
  3331.   if (change_exists) {
  3332.     @<Tell about changed sections@>; finish_line(); finish_line();
  3333.   out_str("\\inx"); finish_line();
  3334. @.\\inx@>
  3335.   active_file=idx_file; /* change active file to the index file */
  3336.   @<Do the first pass of sorting@>;
  3337.   @<Sort and output the index@>;
  3338.   finish_line(); fclose(active_file); /* finished with |idx_file| */
  3339.   active_file=tex_file; /* switch back to |tex_file| for a tic */
  3340.   out_str("\\fin"); finish_line();
  3341. @.\\fin@>
  3342.   if ((scn_file=fopen(scn_file_name,"w"))==NULL)
  3343.     fatal("! Cannot open section file ",scn_file_name);
  3344. @.Cannot open section file@>
  3345.   active_file=scn_file; /* change active file to section listing file */
  3346.   @<Output all the section names@>;
  3347.   finish_line(); fclose(active_file); /* finished with |scn_file| */
  3348.   active_file=tex_file;
  3349.   if (group_found) out_str("\\con");@+else out_str("\\end");
  3350. @.\\con@>
  3351. @.\\end@>
  3352.   finish_line();
  3353.   fclose(active_file);
  3354. if (show_happiness) printf("\nDone.");
  3355. check_complete(); /* was all of the change file used? */
  3356. @ Just before the index comes a list of all the changed sections, including
  3357. the index section itself.
  3358. @<Global...@>=
  3359. sixteen_bits k_section; /* runs through the sections */
  3360. @ @<Tell about changed sections@>= {
  3361.   /* remember that the index is already marked as changed */
  3362.   k_section=0;
  3363.   while (!changed_section[++k_section]);
  3364.   out_str("\\ch ");
  3365. @.\\ch@>
  3366.   out_section(k_section);
  3367.   while (k_section<section_count) {
  3368.     while (!changed_section[++k_section]);
  3369.     out_str(", "); out_section(k_section);
  3370.   out('.');
  3371. @ A left-to-right radix sorting method is used, since this makes it easy to
  3372. adjust the collating sequence and since the running time will be at worst
  3373. proportional to the total length of all entries in the index. We put the
  3374. identifiers into 102 different lists based on their first characters.
  3375. (Uppercase letters are put into the same list as the corresponding lowercase
  3376. letters, since we want to have `$t<\\{TeX}<\&{to}$'.) The
  3377. list for character |c| begins at location |bucket[c]| and continues through
  3378. the |blink| array.
  3379. @<Global...@>=
  3380. name_pointer bucket[256];
  3381. name_pointer next_name; /* successor of |cur_name| when sorting */
  3382. name_pointer blink[max_names]; /* links in the buckets */
  3383. @ To begin the sorting, we go through all the hash lists and put each entry
  3384. having a nonempty cross-reference list into the proper bucket.
  3385. @<Do the first pass...@>= {
  3386. int c;
  3387. for (c=0; c<=255; c++) bucket[c]=NULL;
  3388. for (h=hash; h<=hash_end; h++) {
  3389.   next_name=*h;
  3390.   while (next_name) {
  3391.     cur_name=next_name; next_name=cur_name->link;
  3392.     if (cur_name->xref!=(char*)xmem) {
  3393.       c=(eight_bits)((cur_name->byte_start)[0]);
  3394.       if (isupper(c)) c=tolower(c);
  3395.       blink[cur_name-name_dir]=bucket[c]; bucket[c]=cur_name;
  3396.     }
  3397. @ During the sorting phase we shall use the |cat| and |trans| arrays from
  3398. \.{CWEAVE}'s parsing algorithm and rename them |depth| and |head|. They now
  3399. represent a stack of identifier lists for all the index entries that have
  3400. not yet been output. The variable |sort_ptr| tells how many such lists are
  3401. present; the lists are output in reverse order (first |sort_ptr|, then
  3402. |sort_ptr-1|, etc.). The |j|th list starts at |head[j]|, and if the first
  3403. |k| characters of all entries on this list are known to be equal we have
  3404. |depth[j]=k|.
  3405. @ @<Rest of |trans_plus| union@>=
  3406. name_pointer Head;
  3407. @ @d depth cat /* reclaims memory that is no longer needed for parsing */
  3408. @d head trans_plus.Head /* ditto */
  3409. @f sort_pointer int
  3410. @d sort_pointer scrap_pointer /* ditto */
  3411. @d sort_ptr scrap_ptr /* ditto */
  3412. @d max_sorts max_scraps /* ditto */
  3413. @<Global...@>=
  3414. eight_bits cur_depth; /* depth of current buckets */
  3415. char *cur_byte; /* index into |byte_mem| */
  3416. sixteen_bits cur_val; /* current cross-reference number */
  3417. sort_pointer max_sort_ptr; /* largest value of |sort_ptr| */
  3418. @ @<Set init...@>=
  3419. max_sort_ptr=scrap_info;
  3420. @ The desired alphabetic order is specified by the |collate| array; namely,
  3421. |collate[0]<collate[1]<@t$\cdots$@><collate[100]|.
  3422. @<Global...@>=
  3423. eight_bits collate[102+128]; /* collation order */
  3424. @^high-bit character handling@>
  3425. @ We use the order $\hbox{null}<\.\ <\hbox{other characters}<{}$\.\_${}<
  3426. \.A=\.a<\cdots<\.Z=\.z<\.0<\cdots<\.9.$ Warning: The collation mapping
  3427. needs to be changed if ASCII code is not being used.
  3428. @^ASCII code dependencies@>
  3429. @^high-bit character handling@>
  3430. @<Set init...@>=
  3431. collate[0]=0; strcpy(collate+1," \1\2\3\4\5\6\7\10\11\12\13\14\15\16\17\
  3432. \20\21\22\23\24\25\26\27\30\31\32\33\34\35\36\37\
  3433. !\42#$%&'()*+,-./:;<=>?@@[\\]^`{|}~_\
  3434. abcdefghijklmnopqrstuvwxyz0123456789\
  3435. \200\201\202\203\204\205\206\207\210\211\212\213\214\215\216\217\
  3436. \220\221\222\223\224\225\226\227\230\231\232\233\234\235\236\237\
  3437. \240\241\242\243\244\245\246\247\250\251\252\253\254\255\256\257\
  3438. \260\261\262\263\264\265\266\267\270\271\272\273\274\275\276\277\
  3439. \300\301\302\303\304\305\306\307\310\311\312\313\314\315\316\317\
  3440. \320\321\322\323\324\325\326\327\330\331\332\333\334\335\336\337\
  3441. \340\341\342\343\344\345\346\347\350\351\352\353\354\355\356\357\
  3442. \360\361\362\363\364\365\366\367\370\371\372\373\374\375\376\377\
  3443. @ Procedure |unbucket| goes through the buckets and adds nonempty lists
  3444. to the stack, using the collating sequence specified in the |collate| array.
  3445. The parameter to |unbucket| tells the current depth in the buckets.
  3446. Any two sequences that agree in their first 255 character positions are
  3447. regarded as identical.
  3448. @d infinity 255 /* $\infty$ (approximately) */
  3449. @<Predecl...@>=
  3450. void  unbucket();
  3451. unbucket(d) /* empties buckets having depth |d| */
  3452. eight_bits d;
  3453.   int c;  /* index into |bucket|; cannot be a simple |char| because of sign
  3454.     comparison below*/
  3455.   for (c=100+128; c>= 0; c--) if (bucket[collate[c]]) {
  3456. @^high-bit character handling@>
  3457.     if (sort_ptr>=scrap_info_end) overflow("sorting");
  3458.     sort_ptr++;
  3459.     if (sort_ptr>max_sort_ptr) max_sort_ptr=sort_ptr;
  3460.     if (c==0) sort_ptr->depth=infinity;
  3461.     else sort_ptr->depth=d;
  3462.     sort_ptr->head=bucket[collate[c]]; bucket[collate[c]]=NULL;
  3463. @ @<Sort and output...@>=
  3464. sort_ptr=scrap_info; unbucket(1);
  3465. while (sort_ptr>scrap_info) {
  3466.   cur_depth=sort_ptr->depth;
  3467.   if (blink[sort_ptr->head-name_dir]==0 || cur_depth==infinity)
  3468.     @<Output index entries for the list at |sort_ptr|@>@;
  3469.   else @<Split the list at |sort_ptr| into further lists@>;
  3470. @ @<Split the list...@>= {
  3471.   eight_bits c;
  3472.   next_name=sort_ptr->head;
  3473.   do {
  3474.     cur_name=next_name; next_name=blink[cur_name-name_dir];
  3475.     cur_byte=cur_name->byte_start+cur_depth;
  3476.     if (cur_byte==(cur_name+1)->byte_start) c=0; /* hit end of the name */
  3477.     else {
  3478.       c=(eight_bits) *cur_byte;
  3479.       if (isupper(c)) c=tolower(c);
  3480.     }
  3481.   blink[cur_name-name_dir]=bucket[c]; bucket[c]=cur_name;
  3482.   } while (next_name);
  3483.   --sort_ptr; unbucket(cur_depth+1);
  3484. @ @<Output index...@>= {
  3485.   cur_name=sort_ptr->head;
  3486.   do {
  3487.     out_str("\\I");
  3488. @.\\I@>
  3489.     @<Output the name at |cur_name|@>;
  3490.     @<Output the cross-references at |cur_name|@>;
  3491.     cur_name=blink[cur_name-name_dir];
  3492.   } while (cur_name);
  3493.   --sort_ptr;
  3494. @ @<Output the name...@>=
  3495. switch (cur_name->ilk) {
  3496.   case normal: if (is_tiny(cur_name)) out_str("\\|");
  3497.     else {char *j;
  3498.       for (j=cur_name->byte_start;j<(cur_name+1)->byte_start;j++)
  3499.         if (islower(*j)) goto lowcase;
  3500.       out_str("\\."); break;
  3501. lowcase: out_str("\\\\");
  3502.     }
  3503.   break;
  3504. @.\\|@>
  3505. @.\\.@>
  3506. @.\\\\@>
  3507.   case roman: break;
  3508.   case wildcard: out_str("\\9"); break;
  3509. @.\\9@>
  3510.   case typewriter: out_str("\\."); break;
  3511. @.\\.@>
  3512.   case custom: case quoted: {char *j; out_str("$\\");
  3513.     for (j=cur_name->byte_start;j<(cur_name+1)->byte_start;j++)
  3514.       out(isxalpha(*j)? 'x' : *j);
  3515.     out('$');
  3516.     goto name_done;
  3517.     }
  3518.   default: out_str("\\&");
  3519. @.\\\&@>
  3520. out_name(cur_name);
  3521. name_done:
  3522. @ Section numbers that are to be underlined are enclosed in
  3523. `\.{\\[}$\,\ldots\,$\.]'.
  3524. @<Output the cross-references...@>=
  3525. @<Invert the cross-reference list at |cur_name|, making |cur_xref| the head@>;
  3526.   out_str(", "); cur_val=cur_xref->num;
  3527.   if (cur_val<def_flag) out_section(cur_val);
  3528.   else {out_str("\\["); out_section(cur_val-def_flag); out(']');}
  3529. @.\\[@>
  3530.   cur_xref=cur_xref->xlink;
  3531. } while (cur_xref!=xmem);
  3532. out('.'); finish_line();
  3533. @ List inversion is best thought of as popping elements off one stack and
  3534. pushing them onto another. In this case |cur_xref| will be the head of
  3535. the stack that we push things onto.
  3536. @<Global...@>=
  3537. xref_pointer next_xref, this_xref;
  3538.   /* pointer variables for rearranging a list */
  3539. @ @<Invert the cross-reference list at |cur_name|, making |cur_xref| the head@>=
  3540. this_xref=(xref_pointer)cur_name->xref; cur_xref=xmem;
  3541.   next_xref=this_xref->xlink; this_xref->xlink=cur_xref;
  3542.   cur_xref=this_xref; this_xref=next_xref;
  3543. } while (this_xref!=xmem);
  3544. @ The following recursive procedure walks through the tree of section names and
  3545. prints them.
  3546. @^recursion@>
  3547. @<Predecl...@>=
  3548. void section_print();
  3549. section_print(p) /* print all section names in subtree |p| */
  3550. name_pointer p;
  3551.   if (p) {
  3552.     section_print(p->llink); out_str("\\I");
  3553. @.\\I@>
  3554.     tok_ptr=tok_mem+1; text_ptr=tok_start+1; scrap_ptr=scrap_info; init_stack;
  3555.     app(p-name_dir+section_flag); make_output();
  3556.     footnote(cite_flag);
  3557.     footnote(0); /* |cur_xref| was set by |make_output| */
  3558.     finish_line();@/
  3559.     section_print(p->rlink);
  3560. @ @<Output all the section names@>=section_print(root)
  3561. @ Because on some systems the difference between two pointers is a |long|
  3562. rather than an |int|, we use \.{\%ld} to print these quantities.
  3563. print_stats() {
  3564.   printf("\nMemory usage statistics:\n");
  3565. @.Memory usage statistics:@>
  3566.   printf("%ld names (out of %ld)\n",
  3567.             (long)(name_ptr-name_dir),(long)max_names);
  3568.   printf("%ld cross-references (out of %ld)\n",
  3569.             (long)(xref_ptr-xmem),(long)max_refs);
  3570.   printf("%ld bytes (out of %ld)\n",
  3571.             (long)(byte_ptr-byte_mem),(long)max_bytes);
  3572.   printf("Parsing:\n");
  3573.   printf("%ld scraps (out of %ld)\n",
  3574.             (long)(max_scr_ptr-scrap_info),(long)max_scraps);
  3575.   printf("%ld texts (out of %ld)\n",
  3576.             (long)(max_text_ptr-tok_start),(long)max_texts);
  3577.   printf("%ld tokens (out of %ld)\n",
  3578.             (long)(max_tok_ptr-tok_mem),(long)max_toks);
  3579.   printf("%ld levels (out of %ld)\n",
  3580.             (long)(max_stack_ptr-stack),(long)stack_size);
  3581.   printf("Sorting:\n");
  3582.   printf("%ld levels (out of %ld)\n",
  3583.             (long)(max_sort_ptr-scrap_info),(long)max_scraps);
  3584. @** Index.
  3585. If you have read and understood the code for Phase III above, you know what
  3586. is in this index and how it got here. All sections in which an identifier is
  3587. used are listed with that identifier, except that reserved words are
  3588. indexed only when they appear in format definitions, and the appearances
  3589. of identifiers in section names are not indexed. Underlined entries
  3590. correspond to where the identifier was declared. Error messages, control
  3591. sequences put into the output, and a few
  3592. other things like ``recursion'' are indexed here too.
  3593.