• Stars
    star
    2,712
  • Rank 16,813 (Top 0.4 %)
  • Language
    TeX
  • Created over 4 years ago
  • Updated 2 months ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

《机器翻译:基础与模型》肖桐 朱靖波 著 - Machine Translation: Foundations and Models

机器翻译:基础与模型

Machine Translation: Foundations and Models

作者:肖桐 (Tong Xiao) 朱靖波 (Jingbo Zhu)

单位:东北大学自然语言处理实验室 (NEUNLPLab) / 小牛翻译 (NiuTrans Research)

顾问:姚天顺 (Tianshun Yao) 王宝库 (Baoku Wang)

网站:https://opensource.niutrans.com/mtbook/homepage.html

GitHub:https://github.com/NiuTrans/MTBook

百度网盘: https://pan.baidu.com/s/1a0OG5Qnb9WGlitPsvbtx6A 提取码:MTBK

纸质版📗: 京东 当当

豆瓣评分✏️: 豆瓣

这是一个教程,目的是对机器翻译的基础知识和建模方法进行较为系统的介绍,并在此基础上对机器翻译的一些前沿技术展开讨论(前身为《机器翻译:统计建模与深度学习方法》)。其内容被编纂成书,可以供计算机、人工智能相关专业高年级本科生及研究生学习之用,亦可作为自然语言处理,特别是机器翻译相关研究人员的参考资料。本书用tex编写,所有源代码均已开放。

本书共分为四个部分,每部分由若干章节组成,章节的顺序参考了机器翻译技术发展的时间脉络,同时兼顾了机器翻译知识体系的内在逻辑。各部分的主要关系如下(如果无法显示图片可以稍后再试):

内容

封面、前言和目录

Part I 机器翻译基础

  1. 机器翻译简介
  1. 统计语言建模基础
  1. 词法分析和语法分析基础
  1. 翻译质量评价

Part II 统计机器翻译

  1. 基于词的机器翻译建模
  1. 基于扭曲度和繁衍率的模型
  1. 基于短语的模型
  1. 基于句法的模型

Part III 神经机器翻译

  1. 人工神经网络和神经语言建模
  1. 基于循环神经网络的模型
  1. 基于卷积神经网络的模型
  1. 基于自注意力的模型

Part IV 机器翻译前沿

  1. 神经机器翻译模型训练
  1. 神经机器翻译模型推断
  1. 神经机器翻译结构优化
  1. 低资源神经机器翻译
  1. 多模态、多层次机器翻译
  1. 机器翻译应用技术

随笔

Part V 附录

参考文献

索引

注:本书的pdf版本可以从GitHub仓库获取https://github.com/NiuTrans/MTBook/blob/master/mt-book.pdf

源代码

本书的tex源代码地址为:https://github.com/NiuTrans/MTBook/tree/master/src

编译前需要安装MikTeX,并在MikTeX Console中下载并更新编译所需宏包。之后,编译src目录下的mt-book-xelatex.tex即可得到pdf文件,编译指令如下:

xelatex mt-book-xelatex
biber mt-book-xelatex
makeindex mt-book-xelatex
xelatex mt-book-xelatex
xelatex mt-book-xelatex

在编译中可能会遇到内存不足的问题,可以通过以下方式解决:

Windows下使用MiKTeX或CTEX

  1. 运行cmd打开命令行窗口,输入:initexmf --edit-config-file=xelatex

  2. 在弹出的文件中输入以下内容:main_memory=5000000 extra_mem_bot=5000000 font_mem_size=5000000 pool_size=5000000 buf_size=5000000

  3. 在cmd窗口输入: initexmf --dump=xelatex 更新latex格式文件

TeXLive & MacTeX(Linux,OS X等)

  1. 打开texmf.cnf文件,更改其内容为:main_memory=5000000 extra_mem_bot=5000000 font_mem_size=5000000 pool_size=5000000 buf_size=5000000

  2. 调用texhash更新latex格式文件

注1:编译tex文件会依赖一些宏包。如果有任何编译错误,建议将宏包更新至最新版本。

注2:部分系统可能需要安装中文字体,在网站https://www.wfonts.com/搜索字体,如:SimSun(宋体)和Microsoft YaHei(微软雅黑),安装字体即可。

引用

肖桐 朱靖波,机器翻译:基础与模型,电子工业出版社, 2021.

bib文件

@book{xiao-and-zhu-mtbook-2021,
      title = {机器翻译:基础与模型},
      publisher = {电子工业出版社},
      year = {2021},
      author = {肖桐 and 朱靖波},
      address = {北京},
      isbn = {9787121335198}
}

课件

本教程部分章节的课件已开放(我们对部分章节进行了合并,课件的顺序与书中章节的顺序并不完全一致)。pdf版本的地址为https://github.com/NiuTrans/MTBook/tree/master/slides

开源协议

本书的开源内容基于The Creative Commons Attribution-NonCommercial 4.0 Unported License(link

更新历史

2021年8月25日 勘误与部分内容修正 V0.32

2021年2月1日 修复大量的文字错误 V0.31

2021年2月1日 《机器翻译:基础与模型》,完整版 V0.3

2020年12月1日 《机器翻译:基础与模型》(更名后),基础篇 V0.2

2020年5月21日 《机器翻译:统计建模与深度学习方法》,第一版 V0.1

致谢

感谢为本书做出贡献的小牛团队(部分)成员

曹润柘、曾信、孟霞、单韦乔、周涛、周书含、许诺、李北、许晨、林野、李垠桥、王子扬、刘辉、张裕浩、冯凯、罗应峰、魏冰浩、王屹超、李炎洋、胡驰、姜雨帆、田丰宁、刘继强、张哲旸、陈贺轩、牛蕊、杜权、张春良、王会珍、张俐、马安香、胡明涵

联系我们

有任何问题请联系xiaotong [at] mail.neu.edu.cn (肖桐) 或 caorz0628 [at] qq.com(曹润柘)

More Repositories

1

ABigSurvey

A collection of 1000+ survey papers on Natural Language Processing (NLP) and Machine Learning (ML).
1,981
star
2

Classical-Modern

非常全的文言文(古文)-现代文平行语料
Python
1,077
star
3

CNSurvey

一份中文综述文章列表(自然语言处理&机器学习)
548
star
4

NiuTensor

NiuTensor is an open-source toolkit developed by a joint team from NLP Lab. at Northeastern University and the NiuTrans Team. It provides tensor utilities to create and train neural networks.
C++
379
star
5

ABigSurveyOfLLMs

A collection of 150+ surveys on LLMs
172
star
6

NiuTrans.SMT

NiuTrans.SMT is an open-source statistical machine translation system developed by a joint team from NLP Lab. at Northeastern University and the NiuTrans Team. The NiuTrans system is fully developed in C++ language. So it runs fast and uses less memory. Currently it supports phrase-based, hierarchical phrase-based and syntax-based (string-to-tree, tree-to-string and tree-to-tree) models for research-oriented studies.
C++
144
star
7

NiuTrans.NMT

A Fast Neural Machine Translation System developed in C++.
C++
136
star
8

MT-paper-lists

MT paper lists (by conference)
123
star
9

NASPapers

Paper lists of neural architecture search (NAS)
121
star
10

LanguageCodes

We present a list of languages with their codes, families, regions and etc. We also present a list of multi-lingual corpora (with urls).
79
star
11

compiler-notes

60
star
12

Introduction-to-Transformers

An introduction to basic concepts of Transformers and key techniques of their recent advances.
46
star
13

Vision-LLM-Alignment

This repository contains the code for SFT, RLHF, and DPO, designed for vision-based LLMs, including the LLaVA models and the LLaMA-3.2-vision models.
Python
41
star
14

MTVenues

A list of conferences and journals relevant to machine translation
33
star
15

Hands-on-GEMM

A tutorial on GEMM
Cuda
7
star