查看“︁平均意见分数”︁的源代码

{{NoteTA|G1=IT}}
'''平均意见分数'''(MOS)是在体验质量和[[通信工程|通信工程]]领域中使用的衡量标准，代表刺激或系统的整体质量。它是所有受试者“在一个预先定义的范围内，一个受试者分配给他对系统质量表现的意见”的[[算术平均数]]。 

MOS 是一种常用的视频、音频和视听质量评估方法。 [https://www.itu.int/rec/T-REC-P.800.1 ITU-T ] {{Wayback|url=https://www.itu.int/rec/T-REC-P.800.1 |date=20220124083237 }}在建议 P.800.1 中定义了几种引用MOS的方式，区别于分数是从视听、会话、听、说还是视频质量测试中获得的。

== 评分量表和数学定义 ==
MOS 由一个有理数表示，通常范围在1–5之间，其中1表示最低感知质量，5表示最高感知质量。MOS 的范围取决于在基础测试中使用的评级量表。

{{Tsl|en|Absolute Category Rating|4=绝对类别评分}}标准非常常用，它将''坏的''和''优秀''之间的评分映射为1到5之间的数字，如下表所示。
{| class="wikitable"
!评分
!标签
|-
|5
|优秀
|-
|4
|良好
|-
|3
|一般
|-
|2
|较差
|-
|1
|坏的
|}
[[國際電信聯盟電信標準化部門|ITU-T]]建议中存在其他标准化质量评级量表（例如[http://www.itu.int/rec/T-REC-P.800-199608-I/en  P.800] {{Wayback|url=http://www.itu.int/rec/T-REC-P.800-199608-I/en |date=20211119081522 }}或[https://www.itu.int/rec/T-REC-P.910 P.910] {{Wayback|url=https://www.itu.int/rec/T-REC-P.910 |date=20220124083255 }} ）。例如，可以使用 1-100 之间的连续刻度。使用哪种量表取决于测试的目的。在某些情况下，使用不同的量表对相同刺激评价，获得的评分没有统计学上的显着差异。 <ref>{{Cite journal|title=Study of Rating Scales for Subjective Quality Assessment of High-Definition Video|last=Huynh-Thu|first=Q.|last2=Garcia|first2=M. N.|date=2011-03-01|journal=IEEE Transactions on Broadcasting|issue=1|doi=10.1109/TBC.2010.2086750|volume=57|pages=1–14|issn=0018-9316|last3=Speranza|first3=F.|last4=Corriveau|first4=P.|last5=Raake|first5=A.}}</ref>

MOS 的计算方法是人类受试者在{{Tsl|en|Subjective video quality|影像主观质量|主观质量评估测试}}中对给定刺激进行的单个评分的[[算术平均数|算术平均值]]。因此：

: <math>\text{MOS} = \frac{\sum_{n=1}^N{R_n}}{N}</math>

公式中 {{Nowrap|<math>R_n</math>}} 是受试者对给定刺激的评分，{{Nowrap|<math>N</math>}} 是受试者的数量。

== MOS的属性 ==
MOS 受制于某些数学性质和偏差。MOS 用一个标量值去量化体验质量的做法是否有用，存在持续的争论。 <ref>{{Cite journal|title=QoE beyond the MOS: an in-depth look at QoE via better metrics and their relation to MOS|last=Hoßfeld|first=Tobias|last2=Heegaard|first2=Poul E.|date=2016-12-01|journal=Quality and User Experience|issue=1|doi=10.1007/s41233-016-0002-1|volume=1|pages=2|language=en|arxiv=1607.00321|issn=2366-0139|last3=Varela|first3=Martín|last4=Möller|first4=Sebastian}}</ref>

当使用分类评级量表获得 MOS 时，它基于 - 类似于[[李克特量表]]的 - [[測量尺度|序数量表]]。在这种情况下，评级中的选项的顺序是已知的，但选项之间的间隔是未知的。因此，为了获得中心趋势而计算个人评分的平均值在数学上是不正确的；应该使用中位数。 <ref>Jamieson, Susan. "Likert scales: how to (ab) use them." Medical education 38.12 (2004): 1217-1218.</ref>但是，在实践中以及在 MOS 的定义中，计算算术平均值被认为是可以接受的。

存在研究表明，对于分类评分量表（例如 ACR），受试者会认为量表中的选项是不等距的。例如，''良好''和''一般''之间的“差距”可能比'' 良好''和''优秀''之间的“差距”更大。感知距离也可能取决于翻译量表的语言。 <ref>Streijl, Robert C., Stefan Winkler, and David S. Hands. "Mean opinion score (MOS) revisited: methods and applications, limitations and alternatives." Multimedia Systems 22.2 (2016): 213-227.</ref>然而，研究表明无法证明量表翻译对所得结果存在显著影响。 <ref>{{Cite journal|title=The Influence of Subjects and Environment on Audiovisual Subjective Tests: An International Study|url=https://hal.archives-ouvertes.fr/hal-00725992/file/06286980.pdf|last=Pinson|first=M. H.|last2=Janowski|first2=L.|date=October 2012|journal=IEEE Journal of Selected Topics in Signal Processing|issue=6|doi=10.1109/jstsp.2012.2215306|volume=6|pages=640–651|issn=1932-4553|last3=Pepion|first3=R.|last4=Huynh-Thu|first4=Q.|last5=Schmidmer|first5=C.|last6=Corriveau|first6=P.|last7=Younkin|first7=A.|last8=Callet|first8=P. Le|last9=Barkowsky|first9=M.|access-date=2022-01-24|archive-date=2022-01-24|archive-url=https://web.archive.org/web/20220124083231/https://hal.archives-ouvertes.fr/hal-00725992/file/06286980.pdf|dead-url=no}}</ref>

通常获取 MOS 分数的测试方法中还存在另外几个偏差。 <ref>Zielinski, Slawomir, Francis Rumsey, and Søren Bech. "On some biases encountered in modern audio quality listening tests-a review." Journal of the Audio Engineering Society 56.6 (2008): 427-451.</ref>除了上面提到的非线性感知的量表问题之外，还有一个所谓的“范围均衡偏差”：在主观实验过程中，受试者倾向于给出的分数横跨整个评分量表。如果两个主观测试提供的样本质量范围不同，就不能比较这两个主观测试。换句话说，MOS 并不是质量的绝对量度，MOS 是相对于获得它的测试的。

由于上述原因 - 以及由于其他几个影响主观测试中感知质量的上下文因素 - 只有在已知并报告了收集值的上下文时才应该报告 MOS 值。因此，不应直接比较从不同环境和测试设计中收集的 MOS 值。 ITU-T [https://www.itu.int/rec/T-REC-P.800.2 P.800.2] {{Wayback|url=https://www.itu.int/rec/T-REC-P.800.2 |date=20220124083240 }}建议书规定了如何报告 MOS 值。具体来说，P.800.2 中写道：

<blockquote>直接比较不同实验产生的 MOS 值是没有意义的，除非这些实验被明确设计用于比较，即使这样，也应该对数据进行统计分析以确保这种比较是有效的。</blockquote>

== 用于语音和音频质量估计的 MOS ==
MOS 历史上源于[[主觀|主观]]测量，听众会坐在“安静的房间”中，并根据他们的感知对电话通话质量进行评分。这种测试方法已在电话行业使用了数十年，并在[[國際電信聯盟電信標準化部門|ITU-T]]建议[http://www.itu.int/rec/T-REC-P.800-199608-I/en P.800] {{Wayback|url=http://www.itu.int/rec/T-REC-P.800-199608-I/en |date=20211119081522 }}中标准化。它规定“讲话者应坐在安静的房间内，音量在 30 到 120 立方米之间，混响时间小于 500 毫秒（最好在 200 到 300 毫秒范围内）。室内噪音水平必须低于 30 dBA，并且频谱中没有主峰。”稍后在国际电联的建议中类似地规定了对其他模式的要求。

== 使用质量模型的 MOS 估计 ==
获得 MOS 评级可能既耗时又昂贵，因为它需要招聘人工评估员。对于各种用例，例如编解码器开发或服务质量监控目的——应该重复和自动估计质量——也可以通过[[视频质量|客观质量模型]]来预测 MOS 分数，这些模型通常是使用人类 MOS 评级开发和训练的。使用此类模型产生的一个问题是产生的 MOS 差异是否对用户来说是显而易见的。例如，当以五点 MOS 等级对图像进行评分时，MOS 等于 5 的图像的质量预计会明显优于 MOS 等于 1 的图像。与此相反，MOS 等于 3.8 的图像的质量是否明显优于 MOS 等于 3.6 的图像尚不清楚。为确定用户对数码照片可感知的最小 MOS 差异进行的研究表明，为了使 75% 的用户能够检测到更高质量的图像，需要大约 0.46 的 MOS 差异。 <ref name="interpretMOS">{{Cite journal|title=Interpreting MOS scores, when can users see a difference? Understanding user experience differences for photo quality|last=Katsigiannis|first=S.|last2=Scovell|first2=J. N.|date=2018-05-02|journal=Quality and User Experience|issue=1|doi=10.1007/s41233-018-0019-8|volume=3|pages=6|issn=2366-0139|last3=Ramzan|first3=N.|last4=Janowski|first4=L.|last5=Corriveau|first5=P.|last6=Saad|first6=M.|last7=Van Wallendael|first7=G.}}</ref>然而，图像质量期望，因此 MOS，随着用户期望的变化而随着时间的推移而变化。<ref name="interpretMOS"></ref>分析方法确定的最小显着 MOS 差异可能会随时间而变化。

== 参见 ==

* {{Translink|en|Absolute Category Rating|4=绝对类别评级}}
* [[李克特量表|李克特量表]]
* {{Tsl|en|MUSHRA}} （ITU-R BS.1534 建议书）
* [[视频质量|客观的视频质量]]
* {{Tsl|en|Subjective video quality|4=主观视频质量}}

== 参考文献 ==
 
[[Category:电信]]
[[Category:多媒体]]