查看“︁余弦相似性”︁的源代码
←
余弦相似性
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
{{机器学习导航栏}} '''余弦相似性'''通过测量两个[[向量]]的夹角的[[余弦]]值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。這結果是與向量的長度無關的,仅仅與向量的指向方向相關。余弦相似度通常用于正空間,因此給出的值为0到1之间。 注意這上下界对任何维度的[[向量空間]]中都適用,而且余弦相似性最常用於高维正空间。例如在[[信息检索]]中,每个词項被賦予不同的維度,而一个文档由一个向量表示,其各個維度上的值對應于該词項在文档中出现的频率。余弦相似度因此可以给出两篇文档在其主题方面的相似度。 另外,它通常用于[[文本挖掘]]中的文件比较。此外,在[[数据挖掘]]领域中,會用到它来度量集群内部的凝聚力。<ref>P.-N. Tan, M. Steinbach & V. Kumar, "Introduction to Data Mining", , Addison-Wesley (2005), ISBN 0-321-32136-7, chapter 8; page 500.</ref> ==定义== 两个向量间的余弦值可以通过使用[[点积|欧几里得点积]]公式求出: :<math>\mathbf{a}\cdot\mathbf{b} =\left\|\mathbf{a}\right\|\left\|\mathbf{b}\right\|\cos\theta</math> 給定两个属性向量, ''A'' 和''B'',其余弦相似性''θ''由点积和向量長度給出,如下所示: :<math>\text{similarity} = \cos(\theta) = {A \cdot B \over \|A\| \|B\|} = \frac{ \sum\limits_{i=1}^{n}{A_i \times B_i} }{ \sqrt{\sum\limits_{i=1}^{n}{(A_i)^2}} \times \sqrt{\sum\limits_{i=1}^{n}{(B_i)^2}} }</math>,這裡的<math>A_i</math>和<math>B_i</math>分別代表向量<math>A</math>和<math>B</math>的各[[分量]]。 給出的相似性范围从-1到1。-1意味着两个向量指向的方向正好截然相反,1表示它们的指向是完全相同的,0通常表示它们之间是独立的,而在这之间的值则表示中間的相似性或相异性。 对于文本匹配,属性向量''A'' 和''B'' 通常是文档中的词频向量。余弦相似性,可以被看作是在比较過程中把文件长度正規化的方法。 在[[信息检索]]的情况下,由于一个词的频率([[TF-IDF]]权)不能为负数,所以这两个文档的余弦相似性范围从0到1。并且,两个词的频率向量之间的角度不能大于90°。 === 角相似性=== 「余弦相似性」一詞有时也被用来表示另一個系数,儘管最常见的是像上述定义那样的。透過使用相同計算方式得到的相似性,向量之间的规范化角度可以作为一个范围在[0,1]上的有界相似性函数,從上述定义的相似性计算如下: :<math>1 - \left ( \frac{ \cos^{-1}( \text{similarity} )}{ \pi} \right )</math> 這式子適用於向量系数可以為正或負的情況。 或者,用以下式子計算 :<math>1 - \left ( \frac{ 2 \cdot \cos^{-1}( \text{similarity} ) }{ \pi } \right)</math> 这式子適用於向量系数总為正的情況。 虽然「余弦相似性」一词有時會用來表示這個角距离,但實際上很少這樣說,因為角度的餘弦值只是作为一种计算角度的简便方法而被用到,本身并不是意思的一部分。角相似系数的优点是,当作为一个差异系数(从1减去它)时,产生的函數是一个嚴格[[距离度量]],而對於第一種意義的「余弦相似性」則不然。然而,对于大多数的用途,这不是一个重要的性質。若对于某些情況下,只有一组向量之間的相似性或距离的相对顺序是重要的,那么不管是使用哪個函数,所得出的顺序都是一樣的。 === 與「Tanimoto」系数的混淆 === 有时,余弦相似性會跟一種特殊形式的、有著类似代数形式的相似系数相混淆: :<math>T(A,B) = {A \cdot B \over \|A\|^2 +\|B\|^2 - A \cdot B}</math> 事实上,这个代数形式是首先被Tanimoto定义,作為在所比較集合由[[位元向量]]表示時计算其[[Jaccard系数]]的方法。虽然這公式也可以扩展到向量,它具有和余弦相似性頗為不同的性质,并且除了形式相似外便沒有什麼關係。 === Ochiai系数 === 这个系数在生物学中也叫Ochiai系数,或Ochiai-Barkman系数<ref> ''Ochiai A.'' Zoogeographical studies on the soleoid fishes found Japan and its neighboring regions. II // Bull. Jap. Soc. sci. Fish. 1957. V. 22. № 9. P. 526-530.</ref><ref> ''Barkman J.J.'' Phytosociology and ecology of cryptogamic epiphytes, including a taxonomic survey and description of their vegetation units in Europe. – Assen. Van Gorcum. 1958. 628 p. </ref>: :<math> K =\frac{n(A \cap B)}{\sqrt{n(A) \times n(B)}}</math> 這裡<math>A</math>和<math>B</math>是集合,<math>n(A)</math>是<math>A</math>的元素個數。如果集合由位元向量所代表,那麼可看到Ochiai系数跟餘弦相似性是等同的。 == 另见 == *[[Sorensen相似性指數]] *[[汉明距离]] *[[相關 (概率論)|相關]] *[[Dice系数]] *[[Jaccard指数]] *[[SimRank]] *[[信息检索]] == 外部链接 == * [http://mathforum.org/kb/message.jspa?messageID=5658016&tstart=0 加权的余弦措施] {{Wayback|url=http://mathforum.org/kb/message.jspa?messageID=5658016&tstart=0 |date=20200808183751 }} * http://www.miislita.com/information-retrieval-tutorial/cosine-similarity-tutorial.html#Cosim {{Wayback|url=http://www.miislita.com/information-retrieval-tutorial/cosine-similarity-tutorial.html#Cosim |date=20121011003831 }} ==参考文献== {{reflist}} [[Category:信息检索]]
该页面使用的模板:
Template:Reflist
(
查看源代码
)
Template:Wayback
(
查看源代码
)
Template:机器学习导航栏
(
查看源代码
)
返回
余弦相似性
。
导航菜单
个人工具
登录
命名空间
页面
讨论
不转换
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
特殊页面
工具
链入页面
相关更改
页面信息