数学之美

ISBN：9787115282828

作者：吴军

出版社：人民邮电出版社

出版时间：2012-5

评价：☆☆☆☆☆

数学、文字和自然语言一样，都是信息的载体，它们之间原本有着天然的联系。语言和数学的产生都是为了同一个目的——记录和传播信息。

文字的数量和记录一个文明的信息量显然是相关的。然而随着文明的进步，信息量的增加，文字的数量便不再随着文明的发展而增加了，因为没有人能够学会和记住这么多的文字。于是，概念的第一次概括和归类就开始了。在中国，“日”本意是太阳，但是它同时又是一个时间周期，也就是我们讲的一天。这种概念的聚类，在原理上与今天自然语言处理或者机器学习的聚类有很大的相似性。

文字按照意思来聚类，最终会带来一些歧义，也就是有时会弄不清多义字在当前环境下表示的含义。而解决这个问题的方法一直都是依靠上下文，大部分时候可以做到去除歧义。当然，总有个别做不到的时候，这就导致了人们对同一段文字理解的不同。古代不同人对儒家经典的注释和说明，就是按照自己理解消除歧义。今天的情况也类似，对上下文建立的概率模型再好，也有失灵的时候。这些是语言从产生就固有的特点。

文字的载体是石头还是纸张并不重要，它所承载的信息才是最重要的。

无法消除二义性的例子：此地安能居住，其人好不悲伤此地-安能-居住，其人-好不-悲伤此地安-能居住，其人好-不悲伤

很难讲一个准确率在97%的分词器就一定比另一个准确率95%的要好。因为这要看它们选用的所谓正确的人工分词的数据是如何来的。中文分词现在是一个已经解决了的问题，提高的空间微乎其微了。只要采用统计语言模型，效果都查不到哪里去。

在不同的应用中，会有一种颗粒度比另一只更好的情况。比如在机器翻译中，一般来讲颗粒度大翻译效果好。比如“联想公司”作为一个整体，很容易翻译，如果分开成“联想”“公司”，就会翻译失败。但是在另外一些应用中，比如网页搜索，小的颗粒度更好。比如“清华大学”如果作为一个词，用户使用“清华”就找不到了。

自然语言处理的问题其实就是一种通信系统中的解码问题。一般来说编码和解码都是人对人，语音识别就变成人编码，机器解码，其他类似的问题比如从汉语翻译到英语，它们原理都是一样的。

“汉语信息熵和语言模型的复杂度”，使用信息熵来说明汉语是最简洁的语言。

信息的作用在于消除不确定性，自然语言处理的大量问题就是找相关的信息。

网络爬虫——图论：广度优先遍历和深度优先遍历

判断两个集合是否相等，最笨的方法是对集合中的元素一一对比，时间复杂度O(N^2)。稍微好一点的是两个集合分别排序，然后循序比较，时间复杂度O(NlogN)。完美的方法是计算这两个集合的指纹，然后直接进行比较，即使用MD5或者SHA-1生成指纹进行比较。网盘的秒传就用到了这个方法。

最大熵原理指出，需要对一个随机事件的概率分布进行预测时，我们的预测应当满足全部已知的条件，而对未知的情况不要做任何主观假设。在这种情况下，概率分布最均匀，预测的风险最小。因为这时概率分布的信息熵最大，所以人们称这种模型叫做“最大熵模型”。我们常说，不要把所有鸡蛋放在一个篮子里，其实就是最大熵原理的一个朴素说法，因为当我们遇到不确定性时，就要保留各种可能性。

名词：维特比算法有限状态机动态规划

延伸阅读：
第3章：统计语言模型的工程诀窍。知识背景：概率论和数理统计。
第5章：隐含马尔科夫模型的训练。知识背景：概率论。
第6章：信息论在信息处理中的应用。知识背景：概率论。
第10章：PageRank的计算方法。知识背景：线性代数。
第11章：TF-IDF的信息论依据。知识背景：信息论和概率论。
第12章：有限状态传感器。知识背景：图论。
第14章：计算向量余弦的技巧。知识背景：数值分析。
第15章：奇异值分解的方法和应用场景。知识背景：线性代数。
第16章：信息指纹的重复性和相似哈希。知识背景：概率论、组合数学。
第21章：个性化的语言模型。知识背景：概率论。
第23章：布隆过滤器的误识别问题。知识背景：概率论。
第24章：贝叶斯网络的训练。知识背景：概率论。
第27章：期望最大化和收敛的必然性。知识背景：机器学习或者模式分类。