读者在此项目中,可通过以上表盘查看自己想要了解的专业词汇。在单个首字母中,表格的组织形式为:英文/缩写、汉语、来源&扩展。
来源&扩展是对该词汇的注解,内容为机器之心往期的相关文章。例如字母A中的「算法」,我们关联到的三篇文章是《回归、分类与聚类:三大方向剖解机器学习算法的优缺点》和《机器学习算法附速查表》和《深度学习算法全景图:从理论证明其正确性》。因此,我们希望不仅能提供相对应的术语,同时还希望能为读者提供每一个术语的来源和概念上的扩展。但由于这一部分工作量较大,我们还将与读者共同推进这一部分扩展的进程。
本项目中所有英文专业词汇对照的中文都来自机器之心编译的文章和系列机器学习教科书(如周志华的《机器学习》和李航的《统计学习方法》等),我们力求在提供准确翻译的同时保留最常用的形式。同时,为了保证词汇翻译的准确性,我们将此项目向读者开源,并希望能与读者共同迭代术语的准确度。除此之外,我们还将为每一个词汇提供来源与扩展进一步提升词汇的置信度。
因为该项目很多术语都是机器之心平常编译文章所积累的,所以我们首先需要向读者说明机器之心术语编译的标准。
机器之心常见术语的编译首先会确保术语的正确性,其次再考虑术语的传播广度。例如常见术语。logistic regression,首先机器之心会保证该术语的准确度。我们常见 logistic regression 会翻译为逻辑回归,但中文「逻辑」与 logistic 的含义还是有些差别,因此我们并不太倾向于采用这种译法。在准确度的基础上,我们会考虑术语的传播广度。例如有学者建议可以将 logistic regression 译为对数几率回归,但鉴于该译法的传播度不广,看到中文并不会马上检索到对应英文和概念,所以我们最终在常见术语编译标准下将 logistic regression 译为 logistical 回归。机器之心在对常见术语编译时并不会保留英文,也不会做进一步说明。
机器之心在编译技术文章或论文时,常常会遇到非常见的术语。因为像论文那样的文章是在特定领域下为解决特定问题而规范化书写的,所以就会存在较多的非常见的术语。而机器之心在编译非常见术语时,唯一的标准就是准确性,通常我们也会保留英文。因为非常见术语通常是数学、神经科学和物理学等领域上的专业术语,机器之心会尽可能地借鉴其他领域内的译法和意义而确定如何编译。例如 fixed-point theorem,在参考数学的情况下,我们会更倾向于译为不动点定理,fixed-point 译为不动点而不是定点。
还有很多术语其实是有歧义的,而对于这一类词,机器之心的编译标准会根据语义进行确定,因此也会有一些误差。例如 bias 在描述神经网络层级单元时可以译为偏置项。而在描述训练误差和与叉验证误差间的关系或学习曲线时,bias 可以译为偏差。这样的例子还有很多,比如 Stationary 在马尔可夫模型中可译为稳态分布(Stationary distribution),在最优化问题中可译为驻点(Stationary point),而在涉及博弈论或对抗性训练时,其又可能表达为静态。
以上是机器之心大概编译术语的标准,虽然我们在常用术语的编译上错误率相对较少,但在非常见术语和歧义术语上仍然会出现一些错误。尤其是在非常见术语的编译上,没有特定的背景知识很容易在编译上出现误差。因此我们希望能与读者共同加强术语的编译质量。
本词汇库目前拥有的专业词汇共计 500 个,主要为机器学习基础概念和术语,同时也是该项目的基本词汇。机器之心将继续完善术语的收录和扩展阅读的构建。词汇更新主要分为两个阶段,第一阶段机器之心将继续完善基础词汇的构建,即通过权威教科书或其它有公信力的资料抽取常见术语。第二阶段机器之心将持续性地把编译论文或其他资料所出现的非常见术语更新到词汇表中。
读者的反馈意见和更新建议将贯穿整个阶段,并且我们将在项目致谢页中展示对该项目起积极作用的读者。因为我们希望术语的更新更具准确度和置信度,所以我们希望读者能附上该术语的来源地址与扩展地址。因此,我们能更客观地更新词汇,并附上可信的来源与扩展。