查看“︁双字母组”︁的源代码
←
双字母组
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
{{Rough Translation}} '''双字母组'''或称'''二元语法'''({{lang-en|bigrams}},或称{{lang|en|digrams}}),作为统计分析文本使用非常广泛;它是由两个字母,或者两个音节,或者两个词构成的双字母组。 == 簡介 == 在给定一个前导词情况下,双字母组可帮助计算出现某个词的概率,这是[[条件概率]]应用场景: <math> P(W_n|W_{n-1}) = { P(W_{n-1},W_n) \over P(W_{n-1}) } </math> 即,在给定前面一个词<math>W_{n-1}</math>的前提下,出现某个词<math>W_n</math>的概率<math>P(W_n)</math>与他们构成的双字母组的概率一致,换言之,两个词同时出现的概率<math>P(W_{n-1},W_n)</math>被出现前一个词<math>W_{n-1}</math>的概率除。 ''Gappy bigrams''或称''skipping bigrams''是允许有跳空的词对组(也许想避免把词连接起来,或者想允许某种模拟的依赖,如[[依赖语法]])。 ''Head word bigrams''是具有明确依赖关系的gappy bigrams。 == 应用 == 这种组被用在最成功的一种[[语音识别]]<ref>{{cite journal |last1=Collins |first1=Michael John |title=A new statistical parser based on bigram lexical dependencies |date=1996-06-24 |pages=184–191 |doi=10.3115/981863.981888 |url=http://www.aclweb.org/anthology/P96-1025 |accessdate=2018-10-09 |publisher=Association for Computational Linguistics |journal= |author= |archive-url=https://web.archive.org/web/20181008182306/http://www.aclweb.org/anthology/P96-1025 |archive-date=2018-10-08 |dead-url=yes }}</ref>的 [[語言模型]]中。它们是[[N字母组]]的一种特例。 本术语也被用在[[密碼學]]里,在此领域,试图破解[[密码电文]]有时''二元语法频率攻击''会被用到。参考[[频率分析]]。 == 英语里双字母组的出现频率 == 据小英语语料库的统计结果,最常见的字母双字母的频率是:<ref>{{Cite web |url=http://www.math.cornell.edu/~mec/2003-2004/cryptography/subs/digraphs.html |title=Cornell Math Explorer's Project – Substitution Ciphers |accessdate=2011-03-22 |archive-date=2011-06-05 |archive-url=https://web.archive.org/web/20110605073649/http://www.math.cornell.edu/~mec/2003-2004/cryptography/subs/digraphs.html |dead-url=no }}</ref> th 1.52% en 0.55% ng 0.18% he 1.28% ed 0.53% of 0.16% in 0.94% to 0.52% al 0.09% er 0.94% it 0.50% de 0.09% an 0.82% ou 0.50% se 0.08% re 0.68% ea 0.47% le 0.08% nd 0.63% hi 0.46% sa 0.06% at 0.59% is 0.46% si 0.05% on 0.57% or 0.43% ar 0.04% nt 0.56% ti 0.34% ve 0.04% ha 0.56% as 0.33% ra 0.04% es 0.56% te 0.27% ld 0.02% st 0.55% et 0.19% ur 0.02% 可以获得从更大语料库中提取的完整双字母频率。<ref>{{Cite journal | issn = 0743-3808 | volume = 36 | issue = 3 | pages = 388–396| last = Jones| first = Michael N|author2=D J K Mewhort| title = Case-sensitive letter and bigram frequency counts from large-scale English corpora| journal = Behavior Research Methods, Instruments, and Computers | date = August 2004 | pmid=15641428}}</ref> == 参考文献 == {{Reflist|2}} == 参见 == * [[二合字母]] * [[N元语法]] * [[字母频率]] * [[Dice系数]] {{自然语言处理}} [[Category:形式语言]] [[Category:古典密码学]] [[Category:自然語言處理]]
该页面使用的模板:
Template:Cite journal
(
查看源代码
)
Template:Cite web
(
查看源代码
)
Template:Lang
(
查看源代码
)
Template:Lang-en
(
查看源代码
)
Template:Reflist
(
查看源代码
)
Template:Rough Translation
(
查看源代码
)
Template:自然语言处理
(
查看源代码
)
返回
双字母组
。
导航菜单
个人工具
登录
命名空间
页面
讨论
不转换
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
特殊页面
工具
链入页面
相关更改
页面信息