查看“︁雙語替換評測”︁的源代码
←
雙語替換評測
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
{{Refimprove|time=2020-07-07T19:48:24+00:00}} '''雙語替換評測(英語:bilingual evaluation understudy,縮寫:BLEU)'''是用於評估[[自然語言]]的字句用[[機器翻譯]]出來的品質的一種演算法。雙語替換評測的核心概念是翻譯的品質取決於[[機器翻譯]]的輸出與人工翻譯之間的對應關係,「若[[機器翻譯]]越接近專業人士的翻譯結果,則[[機器翻譯]]的表現越好」。雙語替換評測是第一個宣稱,其與人工判斷翻譯品質方式呈高度[[相關 (概率論)|相關]]的[[距离函数|度量]],且目前仍是最流行的自動化與低成本的[[距离函数|度量]]之一。 透過將各個譯文片段(通常是句子)與一組翻譯品質好的參考譯文進行比較,計算出各個片段的分數。 接著這些分數平均於整個[[語料庫]],估算翻譯的整體品質。此算法不考慮字句的可理解性或語法的正確性。 雙語替換評測的輸出分數始終為0到1之間的數字。該輸出值意味著候選譯文與参考譯文之間的相似程度,越接近1的值表示文本相似度越高。人工翻譯少有能達到數值1,因为數值1表示候選文本與參考文本完全相同。由於這個原因,没有必要要求候選的翻譯片段要獲得1分。而也因为有更多可以匹配的機會,增加其他参考的譯文文本將增加此評測得分。 == 演算法 == 雙語替換評測使用改良的[[测量精度]]形式將候選的翻譯文本與多個参考翻譯進行比較。 此度量標準改良了簡單的[[精度|測量精度]],原因是因為已知機器翻譯系統會生成比參考譯文文本更多的單詞。 以下圖例說明演算法(Papineni et al, 2002)。 {| class="wikitable" |+ 高精度分數的機器翻譯結果不佳的例子 ! 候選文本 | the |the |the |the |the |the |the |- ! 参考文本1 |the |cat |is |on |the |mat | |- ! 参考文本2 |there |is |a |cat |on |the |mat |- |} 在候選翻譯文本的七個單詞,全部都出現在參考翻譯文本中。因此,候選文本的字母組合[[精度|測量精度]]分數為 : <math>P = \frac{m}{w_{t}} = \frac{7}{7} = 1</math> <math>~m</math>是候選單詞有在参考文本中的數量,<math>~w_{t}</math>是候選文本的單詞總數。 從上述可知,儘管候選譯文文本幾乎沒有保留任何參考文本的內容,但還是有完美的分數。 雙語替換評測所做的修改非常直觀。對於候選譯文中的每個候選單詞,在任何參考譯文中,算法改採用其最大總數<math>~m_{max}</math> 。 上述例子中,單詞「the」在参考文本1中出現兩次,在参考文本2中出現一次,因此<math>~m_{max} = 2</math> 。 : <math>P = \frac{2}{7}</math> == 效能 == 雙語替換評測雖然常被指稱與人判斷翻譯品質的能力有很好的關聯,且仍是用於評估任何新的評估指標的基準,但是也有許多批評聲音出現。儘管從原則上來說,雙語替換評測能夠評估任何語言之間的翻譯,但該度量方式被注意到,以目前的度量形式無法處理缺少單詞邊界的語言。 == 參見 == * '''[[F-score]]''' * {{Link-en|NIST (metric)|NIST (metric)}} * {{Link-en|METEOR|Meteor}} * {{Link-en|ROUGE (metric)|ROUGE (metric)}} * {{Link-en|單詞錯誤率(WER)|Word error rate}} == 参考文獻 == [[Category:機器翻譯]]
该页面使用的模板:
Template:Link-en
(
查看源代码
)
Template:Refimprove
(
查看源代码
)
返回
雙語替換評測
。
导航菜单
个人工具
登录
命名空间
页面
讨论
不转换
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
特殊页面
工具
链入页面
相关更改
页面信息