你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

自定义翻译器关键术语

下表列出了在使用自定义翻译器时可能会发现的关键术语。

单词或短语 定义
源语言 源语言是要转换为另一种语言(“目标”)的起点语言。
目标语言 目标语言是在机器翻译收到源语言后要提供的语言。
单语文件 单语文件包含一种语言,该语言不与其他语言的另一个文件配对。
并行文件 并行文件是包含相应文本的两个文件的组合。 其中一个文件包含源语言, 另一个文件包含目标语言。
句子对齐 并行数据集必须逐句对齐,以两种语言表示相同的文本。 例如,在理论上,源并行文件中的第一个句子应该映射到目标并行文件中的第一个句子。
对齐的文本 文件验证的最重要步骤之一是对齐并行文档中的句子。 内容将使用不同的语言以不同的方式表达。 另外,不同的语言还可能采用不同的词序。 此步骤将包含相同内容的句子对齐,使其可用于训练。 无法完美对齐句子可能意味着一个或两个文件中存在某种问题。
断字/取消断字 断字是指在单词之间标记边界。 许多书写系统使用空格来表示单词之间的边界。 取消断字是指删除上述步骤中在单词之间插入的任何可视标记。
分隔符 分隔符将句子分割成段,或者分隔句子之间的边距。 例如,在英语中,空格分隔单词,冒号和分号分隔分句,句点分隔句子。
训练文件 训练文件用于告知机器翻译系统如何从一种语言(源)映射到目标语言(目标)。 提供的数据越多,系统的翻译效果越好。
优化文件 这些文件通常是从训练集随机派生的(如果未选择优化集)。 这些句子是自动选择的,用于优化系统,确保系统正常运行。 如果你想要创建通用翻译模型并创建自己的优化文件,请确保这些文件是跨领域的随机句子集
测试文件 这些文件通常是从训练集中随机选择的派生文件(如果未选择任何测试集)。 这些句子的用途是评估翻译模型的准确性。 为了确保系统准确翻译这些句子,可能需要创建一个测试集并将其上传到翻译器。 这样可确保在系统的评估模型中使用这些句子(生成 BLEU 评分)。
组合文件 将源和翻译的句子包含在同一个文件中。 支持的文件格式(TMX、XLIFF、XLF、ICI、XLSX)。
存档文件 包含其他文件的文件。 支持的文件格式包括 zip、gz、tgz。
BLEU 分数 BLEU 是评估翻译模型“精确度”或准确度的行业标准方法。 尽管存在其他评估方法,但 Microsoft Translator 依赖于使用 BLEU 方法向项目所有者报告准确度。