第三千一百零八章 统一码大会 (第2/3页)
是亚洲泛汉语文化圈内方方面面,都派了代表前来参加大会。
这也是顺理成章的事情,毕竟现在统一码一共就十几万个,而亚洲表意区间内的字符代码就高达十三万之多,而且还在继续增长,而世界范围内其余字符,加起来也就亚洲表意区间字符集的一个零头,因此自然要以中文为主。
虽然周至是瀚文大字库的主导者和设计者,但是四叶草派出的演讲代表,却是麦小苗。
用周至的话说,自己搞出来瀚文大字库,只代表着过去,而麦小苗基于瀚文大字库上搞出来的搜索引擎,以及驱动引擎的非线性匹配算法,才真正代表着未来。
麦小苗演讲的题目叫做《汉语在未来信息世界里的重要性》。
“作为最古老的象形文字,汉语有一项对于信息技术来讲最神奇的特性,那就是它的单位信息量。”
“以《联合国宪章》为例,中文版的《联合国宪章》有26650个字符,而英文版则需要55600个字符,在排版统一的情况下,中文文件的厚度一般只有英文等字母形语言的一半。”
“因此作为书面文字,汉字是这个星球上最高效,信息密度最高的文字。”
“究其根本原因,是因为字母形文字是‘一维’的,只代表了声音,而汉字是二维的,不仅仅代表声音,还封装了海量的信息。”
“这种信息还可以自由组合,用极简的方式完成派生词的产生。”
“比如国际化这个词,用英文表述需要二十个字符,用中文只需要三个字符,换成信息技术的表述,英文需要二十比特,而中文只需要六比特。”
“根据香农信息熵的研究,字符的信息熵为4比特,而汉字的信息熵为9.65比特,也就是说,在以计算机技术为主的信息世界里,中文可以比其余文字,以更小容量的信息载体,更快的速度,记录和传播更大的信息量。”
“比如中文的舅舅一词,只有四个比特,而要用英文来准确瞄准,则需要以‘妈妈的哥哥’来表示,中文词汇在这里还包含了血缘,辈分,性别三
(本章未完,请点击下一页继续阅读)