模板引擎实现（一）词法分析

如果你想实现模版引擎、编译器前端、文本解析器（比如 Markdown ）或想要了解它们的实现原理，请一定不要错过本系列的文章 😁

另外，

本系列的文章面向的是撸起袖子就开干的朋友，所以不会介绍基础理论，比如 DFA/NFA，算法复杂度等（确切的说是没法介绍理论，因为作者能力有限 😂）

在使用到的术语/定义方面作者是认真查过资料并再三斟酌的，不会出现胡编乱造，请放心理解和使用 ✅

本系列文章的对应项目是 freemarker.go（FreeMarker 的 golang 实现），欢迎大家关注点赞 🌟

text/template/parse

词法分析

将面向源码的字符流转成 token 流的过程是词法分析。用“流”来描述主要说明了处理过程是有序和连续的。比如读取源码文件时是一个字符一个字符读取的，生成的 token 也是一个接一个的。

当我们在源码中看到 scanner、lex/lexeme、token/tokenize、item 等描述的时候我们就应该知道这是在干词法分析相关的事情了。

Token

一个 Token 是带了一个分类的字符串，这个字符串叫做词素（lexeme）。

sum = 3 + 2

Lexeme	Token 分类
sum	Identifier
=	Assignment operator
3	Integer literal

| Addition operator
2 | Integer literal

golang 的模版包中是使用 item 结构体来描述 token 的。

状态机

词法分析中用到状态机是为了解决“当前 token 识别后下一步怎么处理”的问题。

switch-case

传统状态机的实现是在状态处理函数中返回下一个待执行的状态：

for state != nil {
	switch state {
	case state1:
		state = action1()
	case state2:
		state = action2()
	case state3:
		state = action3()
	}
}

这是一个典型的命令式编程范式的过程化实现（也可以用面向对象实现，下面会提到）。

状态函数

而 lex.go 的实现方式是通过“置换”下一个待执行的行为，将状态迁移的实现从状态决定改进为行为决定：

type stateFn func() stateFn
func action1() stateFn { return actionN }
func action2() stateFn { return actionM }

for state = action1; state != nil; {
	state = state()
}

stateFn

其他状态机实现

另外还有两种常见的状态机实现：

状态表/表驱动：可理解为将所有可能出现的状态及其变迁状态表格化，状态变迁就是查表找到下一个状态
状态模式：使用面向对象设计模式中的状态模式来实现，本质上和上面的 switch-case 无差异

回退

'a'a

case isAlphaNumeric(r):
	l.backup() // 退格

	return lexIdentifier

并发分析

text/template/parse

并发分析的好处是：

词法分析和语法分析较为独立，没有执行顺序的依赖
lexer 只需要通过一个 chan 就能将 token 给到 parser，简化了数据结构
能够更早地发现语法错误，因为不必等词法分析都跑完
性能相对于词法分析完再进行语法分析可能会更好（我瞎猜的 😂 ）

结语

golang 模版的词法分析实现是非常简洁的，亮点主要在于通过函数式编程实现状态机，并使用了 channel 进行词法、语法并发分析，简化了设计并提高了效率。

模版引擎的词法分析部分我们就此结束，下一次我们将介绍语法分析，谢谢大家阅读 😅