fis-gtm/sr_port/is_canonic_name.c

/****************************************************************
 *								*
 *	Copyright 2001, 2011 Fidelity Information Services, Inc	*
 *								*
 *	This source code contains the intellectual property	*
 *	of its copyright holder(s), and is made available	*
 *	under a license.  If you do not know the terms of	*
 *	the license, please stop and do not read further.	*
 *								*
 ****************************************************************/

#include "mdef.h"
#include "gtm_ctype.h"
#include "is_canonic_name.h"

#ifdef	DEBUG
#include "subscript.h"
#endif

#ifdef UNICODE_SUPPORTED
#include "gtm_utf8.h"
GBLREF	boolean_t	badchar_inhibit;
error_def(ERR_BADCHAR);
#endif

/*
 * -----------------------------------------------
 * is_canonic_name()
 * validate a variable name
 *
 * Arguments:
 *	src	   - Pointer to Source Name string mval
 *	subscripts - Pointer to sequence number of subscript to find & return of subscript count
 *	start_off  - Pointer offset of the component requested by op_fnqsubscript
 *	stop_off   - Pointer offset of the end of the component requested by op_fnqsubscript
 * Return:
 *	boolean_t  - TRUE indicates good name; FALSE indicates defective
 * -----------------------------------------------
 */
boolean_t is_canonic_name(mval *src, int *subscripts, int *start_off, int *stop_off)
{	/* subscripts is overloaded - out to op_fnqlength, which doesn't use the last 2 arguments & in from op_fnqsubscript */
	char		term;
	int		envpart;
	boolean_t	instring;
	int		isrc;
	boolean_t	keep_quotes;
	char		letter;
	int		point;
	char		previous;
	int		seq;
	int		start;
	int		state;
	int		stop;
	int		subs_count;
	int		utf8_len;

	/* state:
	 *    0      before start of name
	 *    1      found ^ allow environment
	 *    2      dispatch for starting a component
	 *    3      in string
	 *    4      in number
	 *    5      expect first letter of name
	 *    6      expect next letter of name
	 *    7      in $CHAR()
	 *    8      at end of processing
	 */

	MV_FORCE_STR(src);
	seq = *subscripts;
	keep_quotes = FALSE;
	start = stop = 0;
	state = 0;
	subs_count = -1;
	for (isrc = 0; isrc < src->str.len; )
	{
		letter = src->str.addr[isrc];
		switch (state)
		{
			case 0:		/* start of name */
				if ('^' == letter)	/* before start of name */
				{
					state = 1;	/* check for environment */
					break;
				}
				if (('%' == letter) || ISALPHA_ASCII(letter))
				{
					if (0 == seq)
						start = isrc;
					state = 6;	/* rest of name */
					break;
				}
				return FALSE;
			case 1:		/* global name */
				if (('%' == letter) ||ISALPHA_ASCII(letter))	/* found ^ allow environment */
				{	/* found ^ allow environment */
					if (0 == seq)
						start = isrc;
					state = 6;	/* rest of name */
					break;
				}
				if (('|' == letter) || ('[' == letter))
				{
					term = (letter == '[') ? ']' : letter;
					envpart = 0;
					if (subs_count == seq)
						start = isrc + 1;
					state = 2;	/* process environment */
					break;
				}
				return FALSE;
			case 2:		 /* dispatch for starting a component */
				point = 0;
				instring = FALSE;
				if (envpart > 1)
					return FALSE;	/* too many environment components */
				if (')' == term)
					subs_count++;	/* new subscript */
				else
					envpart++;	/* next environment component */
				if ((subs_count == seq) && (0 == stop))
					start = isrc;
				if ('"' == letter)
				{
					if ((subs_count == seq) && (1 == envpart))
						start++;
					instring = TRUE;
					state = 3;	/* string */
					break;
				}
				if ('$' ==letter)
				{
					state = 7;	/* $[z]char() */
					break;
				}
				if ('0' == letter) /* Canonic number cannot start with 0 unless is single char */
				{
					if (++isrc < src->str.len)
						letter = src->str.addr[isrc];
					else
						return FALSE;	/* Cannot end with "0" */
					if (term == letter)
						state = (')' == term) ? 8 : 5;		/* end or name */
					else if (',' != letter)
						return FALSE;	/* Not a single char number */
					if ((subs_count == seq) && (0 == stop))
						stop = isrc;
					break;
				}
				if (('-' == letter) || ('.' == letter) || ISDIGIT_ASCII(letter))
				{
					if ('.' == letter)
						point++;
					previous = letter;
					state = 4;	/* numeric */
					break;
				}
				return FALSE;
			case 3:		/* [quoted] string */
				if ('"' == letter)	/* in string */
				{
					instring = !instring;
					if (instring)
						break;
					if (isrc + 1 >= src->str.len)
						return FALSE;
					if ('_' != src->str.addr[isrc + 1])
						break;
					isrc++;
					if (++isrc < src->str.len)
						letter = src->str.addr[isrc];
					else
						return FALSE;
					if ('$' != letter)
						return FALSE;
					state = 7;	/* $[z]char() */
					break;
				}
				if (!instring)
				{
					if (',' == letter)
						state = 2;	/* on to next */
					else if (term == letter)
						state = (')' == term) ? 8 : 5;	/* end or name */
					else
						return FALSE;
					if ((subs_count == seq) && (0 == stop))
						/* Not returning 2nd env part - maybe problem */
						stop = isrc - (keep_quotes ? 0 : 1);
				}
				break;
			case 4:		/* numeric */
				if (ISDIGIT_ASCII(letter))	/* in number */
				{
					if (('-' == previous) && ('0' == letter))
						return FALSE;
					previous = letter;
					break;
				}
				if ('.' == letter)
				{
					if ((++point > 1))
						return FALSE;
					previous = letter;
					break;
				}
				if (point && ('0' == previous))
					return FALSE;
				if (',' == letter)
					state = 2;	/* next */
				else if (term == letter)
					state = (')' == term) ? 8 : 5;		/* end or name */
				else
					return FALSE;
				if ((subs_count == seq) && (0 == stop))
					stop = isrc;
				previous = letter;
				break;
			case 5:		/* expect first letter of name */
				if (('%' == letter) || ISALPHA_ASCII(letter))
				{
					if (0 == seq)
						start = isrc;
					state = 6;	/* rest of name */
					break;
				}
				return FALSE;
			case 6:		/* expect next letter of name */
				if ('(' == letter)
				{
					term = ')';
					envpart = 1;
					subs_count = 0;
					state = 2;	/* done with name */
					if (0 == seq)
						stop = isrc;
				} else if (!ISALNUM_ASCII(letter))
					return FALSE;
				break;
			case 7:		/* $[Z]CHAR() */
				previous = letter;	/* in $CHAR() - must be ASCII */
				if (('Z' == letter) || ('z' == letter))
				{	if (++isrc < src->str.len)
						letter = src->str.addr[isrc];
					else
						return FALSE;
					if ('z' == previous)
						previous = 'Z';
				}
				if (!(('C' == letter) || ('c' == letter)))
					return FALSE;
				if (++isrc < src->str.len)
					letter = src->str.addr[isrc];
				else
					return FALSE;
				if (('H' == letter) || ('h' == letter))
				{
					if (++isrc < src->str.len)
						letter = src->str.addr[isrc];
					else
						return FALSE;
					if (!(('A' == letter) || ('a' == letter) || (('(' == letter) && ('Z' == previous))))
						return FALSE;
				} else if ('Z' == previous)
					return FALSE;
				if ('(' != letter)
				{
					if (++isrc < src->str.len)
						letter = src->str.addr[isrc];
					else
						return FALSE;
					if (!('R' == letter) || ('r' == letter))
						return FALSE;
					if (++isrc < src->str.len)
						letter = src->str.addr[isrc];
					else
						return FALSE;
				}
				if ('(' != letter)
					return FALSE;
				if (subs_count == seq)
					keep_quotes = TRUE;
				for (++isrc ;isrc < src->str.len; isrc++)
				{
					letter = src->str.addr[isrc];
					if (ISDIGIT_ASCII(letter))
						continue;
					if (!((',' == letter) || (')' == letter)))
						return FALSE;
					previous = letter;
					if (++isrc < src->str.len)
						letter = src->str.addr[isrc];
					else
						return FALSE;
					if (')' == previous)
						break;
					if (!ISDIGIT_ASCII(letter))
						return FALSE;
				}
				if (isrc > src->str.len)
					return FALSE;
				if ('_' == letter)
				{
					if (++isrc < src->str.len)
						letter = src->str.addr[isrc];
					else
						return FALSE;
					if ('$' == letter)
						break;
					if ('"' != letter)
						return FALSE;
					instring = TRUE;
					state = 3;	/* back to string */
					break;
				}
				if (',' == letter)
					state = 2;
				else if (term == letter)
					state = (')' == term) ? 8 : 5;		/* end or name */
				else
					return FALSE;
				if ((subs_count == seq) && (0 == stop))
					stop = isrc - (keep_quotes ? 0 : 1);	/* Not returning 2nd env part - maybe problem */
				break;
			case 8:		/* end of subscript but no closing paren - ")" */
				return FALSE;
				break;
		}
#		ifdef UNICODE_SUPPORTED
		if (!gtm_utf8_mode || (0 == (letter & 0x80)))
			isrc++;
		else if (0 < (utf8_len = UTF8_MBFOLLOW(&src->str.addr[isrc++])))
		{	/* multi-byte increment */
			assert(4 > utf8_len);
			if (0 > utf8_len)
				rts_error(VARLSTCNT(6) ERR_BADCHAR, 4, 1, &src->str.addr[isrc - 1], LEN_AND_LIT(UTF8_NAME));
			isrc += utf8_len;
		}
#		endif
		NON_UNICODE_ONLY(isrc++);
	}
	if ((8 != state) && (6 != state))
		return FALSE;
	if ((0 <= seq) && (0 == stop))
		stop = src->str.len - (8 == state ? 1 : 0);
	if (keep_quotes && ('"' == src->str.addr[start - 1]))
		start--;
	assert((0 < subs_count) || ((6 == state) && (-1 == subs_count)));
	if (6 == state)
		subs_count = 0;
	assert((('^' == src->str.addr[0]) ? MAX_GVSUBSCRIPTS : MAX_LVSUBSCRIPTS) > subs_count);
	assert((0 < isrc) && (isrc == src->str.len));
	assert(stop <= isrc);
	assert((0 <= start) && (start <= stop));
	*subscripts = subs_count;
	*start_off = start;
	*stop_off = stop;
	return TRUE;
}
ENH: Initial import from sourceforge. These source tree was directly imported from http://sourceforge.net/projects/fis-gtm/files/GT.M-x86-Linux-src/V5.4-002B/ by extracting the file: gtm_V54002B_linux_i686_src.tar.gz 2012-02-05 11:35:58 -05:00			`/****************************************************************`
			`* *`
			`* Copyright 2001, 2011 Fidelity Information Services, Inc *`
			`* *`
			`* This source code contains the intellectual property *`
			`* of its copyright holder(s), and is made available *`
			`* under a license. If you do not know the terms of *`
			`* the license, please stop and do not read further. *`
			`* *`
			`****************************************************************/`

			`#include "mdef.h"`
			`#include "gtm_ctype.h"`
			`#include "is_canonic_name.h"`

			`#ifdef DEBUG`
			`#include "subscript.h"`
			`#endif`

			`#ifdef UNICODE_SUPPORTED`
			`#include "gtm_utf8.h"`
			`GBLREF boolean_t badchar_inhibit;`
			`error_def(ERR_BADCHAR);`
			`#endif`

			`/*`
			`* -----------------------------------------------`
			`* is_canonic_name()`
			`* validate a variable name`
			`*`
			`* Arguments:`
			`* src - Pointer to Source Name string mval`
			`* subscripts - Pointer to sequence number of subscript to find & return of subscript count`
			`* start_off - Pointer offset of the component requested by op_fnqsubscript`
			`* stop_off - Pointer offset of the end of the component requested by op_fnqsubscript`
			`* Return:`
			`* boolean_t - TRUE indicates good name; FALSE indicates defective`
			`* -----------------------------------------------`
			`*/`
			`boolean_t is_canonic_name(mval src, int subscripts, int start_off, int stop_off)`
			`{ /* subscripts is overloaded - out to op_fnqlength, which doesn't use the last 2 arguments & in from op_fnqsubscript */`
			`char term;`
			`int envpart;`
			`boolean_t instring;`
			`int isrc;`
			`boolean_t keep_quotes;`
			`char letter;`
			`int point;`
			`char previous;`
			`int seq;`
			`int start;`
			`int state;`
			`int stop;`
			`int subs_count;`
			`int utf8_len;`

			`/* state:`
			`* 0 before start of name`
			`* 1 found ^ allow environment`
			`* 2 dispatch for starting a component`
			`* 3 in string`
			`* 4 in number`
			`* 5 expect first letter of name`
			`* 6 expect next letter of name`
			`* 7 in $CHAR()`
			`* 8 at end of processing`
			`*/`

			`MV_FORCE_STR(src);`
			`seq = *subscripts;`
			`keep_quotes = FALSE;`
			`start = stop = 0;`
			`state = 0;`
			`subs_count = -1;`
			`for (isrc = 0; isrc < src->str.len; )`
			`{`
			`letter = src->str.addr[isrc];`
			`switch (state)`
			`{`
			`case 0: /* start of name */`
			`if ('^' == letter) /* before start of name */`
			`{`
			`state = 1; /* check for environment */`
			`break;`
			`}`
			`if (('%' == letter) \|\| ISALPHA_ASCII(letter))`
			`{`
			`if (0 == seq)`
			`start = isrc;`
			`state = 6; /* rest of name */`
			`break;`
			`}`
			`return FALSE;`
			`case 1: /* global name */`
			`if (('%' == letter) \|\|ISALPHA_ASCII(letter)) /* found ^ allow environment */`
			`{ /* found ^ allow environment */`
			`if (0 == seq)`
			`start = isrc;`
			`state = 6; /* rest of name */`
			`break;`
			`}`
			`if (('\|' == letter) \|\| ('[' == letter))`
			`{`
			`term = (letter == '[') ? ']' : letter;`
			`envpart = 0;`
			`if (subs_count == seq)`
			`start = isrc + 1;`
			`state = 2; /* process environment */`
			`break;`
			`}`
			`return FALSE;`
			`case 2: /* dispatch for starting a component */`
			`point = 0;`
			`instring = FALSE;`
			`if (envpart > 1)`
			`return FALSE; /* too many environment components */`
			`if (')' == term)`
			`subs_count++; /* new subscript */`
			`else`
			`envpart++; /* next environment component */`
			`if ((subs_count == seq) && (0 == stop))`
			`start = isrc;`
			`if ('"' == letter)`
			`{`
			`if ((subs_count == seq) && (1 == envpart))`
			`start++;`
			`instring = TRUE;`
			`state = 3; /* string */`
			`break;`
			`}`
			`if ('$' ==letter)`
			`{`
			`state = 7; /* $[z]char() */`
			`break;`
			`}`
			`if ('0' == letter) /* Canonic number cannot start with 0 unless is single char */`
			`{`
			`if (++isrc < src->str.len)`
			`letter = src->str.addr[isrc];`
			`else`
			`return FALSE; /* Cannot end with "0" */`
			`if (term == letter)`
			`state = (')' == term) ? 8 : 5; /* end or name */`
			`else if (',' != letter)`
			`return FALSE; /* Not a single char number */`
			`if ((subs_count == seq) && (0 == stop))`
			`stop = isrc;`
			`break;`
			`}`
			`if (('-' == letter) \|\| ('.' == letter) \|\| ISDIGIT_ASCII(letter))`
			`{`
			`if ('.' == letter)`
			`point++;`
			`previous = letter;`
			`state = 4; /* numeric */`
			`break;`
			`}`
			`return FALSE;`
			`case 3: /* [quoted] string */`
			`if ('"' == letter) /* in string */`
			`{`
			`instring = !instring;`
			`if (instring)`
			`break;`
			`if (isrc + 1 >= src->str.len)`
			`return FALSE;`
			`if ('_' != src->str.addr[isrc + 1])`
			`break;`
			`isrc++;`
			`if (++isrc < src->str.len)`
			`letter = src->str.addr[isrc];`
			`else`
			`return FALSE;`
			`if ('$' != letter)`
			`return FALSE;`
			`state = 7; /* $[z]char() */`
			`break;`
			`}`
			`if (!instring)`
			`{`
			`if (',' == letter)`
			`state = 2; /* on to next */`
			`else if (term == letter)`
			`state = (')' == term) ? 8 : 5; /* end or name */`
			`else`
			`return FALSE;`
			`if ((subs_count == seq) && (0 == stop))`
			`/* Not returning 2nd env part - maybe problem */`
			`stop = isrc - (keep_quotes ? 0 : 1);`
			`}`
			`break;`
			`case 4: /* numeric */`
			`if (ISDIGIT_ASCII(letter)) /* in number */`
			`{`
			`if (('-' == previous) && ('0' == letter))`
			`return FALSE;`
			`previous = letter;`
			`break;`
			`}`
			`if ('.' == letter)`
			`{`
			`if ((++point > 1))`
			`return FALSE;`
			`previous = letter;`
			`break;`
			`}`
			`if (point && ('0' == previous))`
			`return FALSE;`
			`if (',' == letter)`
			`state = 2; /* next */`
			`else if (term == letter)`
			`state = (')' == term) ? 8 : 5; /* end or name */`
			`else`
			`return FALSE;`
			`if ((subs_count == seq) && (0 == stop))`
			`stop = isrc;`
			`previous = letter;`
			`break;`
			`case 5: /* expect first letter of name */`
			`if (('%' == letter) \|\| ISALPHA_ASCII(letter))`
			`{`
			`if (0 == seq)`
			`start = isrc;`
			`state = 6; /* rest of name */`
			`break;`
			`}`
			`return FALSE;`
			`case 6: /* expect next letter of name */`
			`if ('(' == letter)`
			`{`
			`term = ')';`
			`envpart = 1;`
			`subs_count = 0;`
			`state = 2; /* done with name */`
			`if (0 == seq)`
			`stop = isrc;`
			`} else if (!ISALNUM_ASCII(letter))`
			`return FALSE;`
			`break;`
			`case 7: /* $[Z]CHAR() */`
			`previous = letter; /* in $CHAR() - must be ASCII */`
			`if (('Z' == letter) \|\| ('z' == letter))`
			`{ if (++isrc < src->str.len)`
			`letter = src->str.addr[isrc];`
			`else`
			`return FALSE;`
			`if ('z' == previous)`
			`previous = 'Z';`
			`}`
			`if (!(('C' == letter) \|\| ('c' == letter)))`
			`return FALSE;`
			`if (++isrc < src->str.len)`
			`letter = src->str.addr[isrc];`
			`else`
			`return FALSE;`
			`if (('H' == letter) \|\| ('h' == letter))`
			`{`
			`if (++isrc < src->str.len)`
			`letter = src->str.addr[isrc];`
			`else`
			`return FALSE;`
			`if (!(('A' == letter) \|\| ('a' == letter) \|\| (('(' == letter) && ('Z' == previous))))`
			`return FALSE;`
			`} else if ('Z' == previous)`
			`return FALSE;`
			`if ('(' != letter)`
			`{`
			`if (++isrc < src->str.len)`
			`letter = src->str.addr[isrc];`
			`else`
			`return FALSE;`
			`if (!('R' == letter) \|\| ('r' == letter))`
			`return FALSE;`
			`if (++isrc < src->str.len)`
			`letter = src->str.addr[isrc];`
			`else`
			`return FALSE;`
			`}`
			`if ('(' != letter)`
			`return FALSE;`
			`if (subs_count == seq)`
			`keep_quotes = TRUE;`
			`for (++isrc ;isrc < src->str.len; isrc++)`
			`{`
			`letter = src->str.addr[isrc];`
			`if (ISDIGIT_ASCII(letter))`
			`continue;`
			`if (!((',' == letter) \|\| (')' == letter)))`
			`return FALSE;`
			`previous = letter;`
			`if (++isrc < src->str.len)`
			`letter = src->str.addr[isrc];`
			`else`
			`return FALSE;`
			`if (')' == previous)`
			`break;`
			`if (!ISDIGIT_ASCII(letter))`
			`return FALSE;`
			`}`
			`if (isrc > src->str.len)`
			`return FALSE;`
			`if ('_' == letter)`
			`{`
			`if (++isrc < src->str.len)`
			`letter = src->str.addr[isrc];`
			`else`
			`return FALSE;`
			`if ('$' == letter)`
			`break;`
			`if ('"' != letter)`
			`return FALSE;`
			`instring = TRUE;`
			`state = 3; /* back to string */`
			`break;`
			`}`
			`if (',' == letter)`
			`state = 2;`
			`else if (term == letter)`
			`state = (')' == term) ? 8 : 5; /* end or name */`
			`else`
			`return FALSE;`
			`if ((subs_count == seq) && (0 == stop))`
			`stop = isrc - (keep_quotes ? 0 : 1); /* Not returning 2nd env part - maybe problem */`
			`break;`
			`case 8: /* end of subscript but no closing paren - ")" */`
			`return FALSE;`
			`break;`
			`}`
			`# ifdef UNICODE_SUPPORTED`
			`if (!gtm_utf8_mode \|\| (0 == (letter & 0x80)))`
			`isrc++;`
			`else if (0 < (utf8_len = UTF8_MBFOLLOW(&src->str.addr[isrc++])))`
			`{ /* multi-byte increment */`
			`assert(4 > utf8_len);`
			`if (0 > utf8_len)`
			`rts_error(VARLSTCNT(6) ERR_BADCHAR, 4, 1, &src->str.addr[isrc - 1], LEN_AND_LIT(UTF8_NAME));`
			`isrc += utf8_len;`
			`}`
			`# endif`
			`NON_UNICODE_ONLY(isrc++);`
			`}`
			`if ((8 != state) && (6 != state))`
			`return FALSE;`
			`if ((0 <= seq) && (0 == stop))`
			`stop = src->str.len - (8 == state ? 1 : 0);`
			`if (keep_quotes && ('"' == src->str.addr[start - 1]))`
			`start--;`
			`assert((0 < subs_count) \|\| ((6 == state) && (-1 == subs_count)));`
			`if (6 == state)`
			`subs_count = 0;`
			`assert((('^' == src->str.addr[0]) ? MAX_GVSUBSCRIPTS : MAX_LVSUBSCRIPTS) > subs_count);`
			`assert((0 < isrc) && (isrc == src->str.len));`
			`assert(stop <= isrc);`
			`assert((0 <= start) && (start <= stop));`
			`*subscripts = subs_count;`
			`*start_off = start;`
			`*stop_off = stop;`
			`return TRUE;`
			`}`