查看“︁重新分布法”︁的源代码
←
重新分布法
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
'''重新分布法'''({{lang-en|Reassignment Method}})是一種銳化[[訊號 (資訊理論)|訊號]]之[[時頻分析|時頻表示]]的方法,藉由將資料映射至較靠近原始訊號之真實[[支撑集|支撐區域]]的時頻座標來實現。此方法曾被不同學者獨立提出,並有'''重映射'''(remapping)、'''時頻重新分布'''(time-frequency reassignment)以及'''修正滑動視窗法'''(modified moving-window method)等別稱<ref name="hainsworth">{{Cite thesis |type=PhD |chapter=Chapter 3: Reassignment methods |title=Techniques for the Automated Analysis of Musical Audio |url=http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.5.9579 |last=Hainsworth |first=Stephen |year=2003 |publisher=University of Cambridge |accessdate= |docket= |oclc= |archive-url=https://web.archive.org/web/20130524070319/http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.5.9579 |archive-date=2013-05-24 |dead-url=no }}</ref>。以[[时频谱|時頻譜]]或[[短時距傅立葉變換]]而言,重新分布法可藉由估算局部的[[瞬時頻率]]以及[[群延遲]],使模糊的時頻資料點重新定位並清晰化。當訊號可藉由分析視窗進行時域和頻域的分離時,這項時頻座標的重新映射是相當精準的。 == 概述 == [[Image:Reassigned spectrogral surface of bass pluck.png|thumb|400px| 一把未插電的[[電貝斯|貝斯]]([[基本頻率|基頻]]約73.4赫茲)在撥弦的過程中錄下、重新分布後得到的[[时频谱]]。從左上方數個脊狀突起的頻率分布,可觀察出這個音頻訊號在撥弦當下所產生的各個[[谐波]]。此時頻譜是利用長度為65.7毫秒、外型參數<math>\alpha</math>為12的[[凯泽窗]]計算所得。]] 許多[[信号 (信息论)|信号]]的能量分布都具有隨著時間和頻率變化的特性。舉例而言,任何有起始或者结束的音頻訊號之能量分布都將隨著時間改變,而大多數聲音的能量不論在時間上還是頻率上都有相當大的變化;[[時頻分析]]便經常用於尋找此類訊號的特徵,這種分析法將原為[[一维空间|一維]]的時域訊號轉換為[[二维空间|二維]]的時域–頻域函數。而經分析轉換後的結果便稱為{{Tsl|en|Time–frequency representation|時頻表示}},它可以用於描述一個訊號隨時間的頻譜能量分布變化,就像樂譜描述樂曲中高低音隨時間的變化一样。 在音頻訊號分析中,[[时频谱]]是最常用的{{Tsl|en|Time–frequency representation|時頻表示}}法;這可能是因為該方法長久以來為學界所熟知,且能夠避免產生不易解讀的「交叉項」(cross-terms)。不過,計算時頻譜所須使用的視窗函數使得分析結果必須在時域或頻域的解析度中做一取捨,也就是時頻譜在時域及頻域的解析度必定至少有其中一者不理想。這項時頻表示的重新分布法便是透過先把資料映射至較接近原始訊號之真實[[支撑集|支撑區域]]的座標,以將時頻譜或其它時頻表示下較模糊的資料點重新定位並聚焦。 == 時頻譜 == {{main|时频谱}} 時頻譜為最為人所熟知的時頻表示法之一,其定義為[[短時距傅立葉變換]]值的平方: <math>SP_x(t,f)=|X(t,f)|^2=\left|\int_{-\infty}^{\infty} w(t-\tau)x(\tau)e^{-j2\pi f \tau}d\tau\right|^2.</math> 雖然短時距的[[相位]]頻譜確實含有與訊號相關的重要時態資訊,但這些資訊通常難以解讀,故一般而言在短時距頻譜分析中只考慮其短時距[[量 (数学)|強度]]頻譜。以時頻表示法而言,時頻譜具有相對較差的解析度。它在時域與頻域的解析度取決於分析時所選擇的視窗函數,且其中一者愈清晰將導致另一者愈模糊。 相對於時頻譜,[[維格納準概率分佈|維格納–魏爾分布]]則是另一種解析度較高的時頻表示法;本質上,維格納–魏爾分布的做法與短時距傅立葉變換類似,惟其選擇的視窗函數與訊號之間有完好的對應。維格納–魏爾分布在時域和頻域中皆可得到高解析度,但它同時也具有高度的[[非線性系統|非線性]]和非局部性等特質,因此對[[雜訊]]相當敏感且容易產生覆蓋訊號本身的交叉項,使得含有多成分的訊號分析後的資訊難以解讀。 利用[[雙線性轉換]]得到時頻表示的[[科恩系列分布]]函數則可視為「平滑化」的維格納–魏爾分布。它藉由一平滑[[积分变换|核]]降低分布對於雜訊的敏感度,並抑制交叉項的產生,但此舉將使時域和頻域的分布模糊化;這不僅會降低頻譜的解析度,同時也可能使原始維格納準機率分布中實際上沒有能量的區域得到非零的能量值。 時頻譜便屬於科恩系列分布之一;它也可視為一種平滑化的維格納–魏爾分布,惟其使用之平滑核即相等於其分析視窗函數的維格納–魏爾分布。重新分布法便是先將維格納–魏爾分布平滑化,再將它於原始訊號成分之真實[[支撐集|支撐區域]]附近的座標點重新聚焦,進而達到銳化的目的。實驗結果顯示,此方法可以減少任一科恩系列分布在時域與頻域的模糊現象<ref name = "improving"> {{cite journal |author1=F. Auger |author2=P. Flandrin |lastauthoramp=yes |date=May 1995 |title=Improving the readability of time-frequency and time-scale representations by the reassignment method |journal=IEEE Transactions on Signal Processing |volume=43 |issue=5 |pages=1068–1089 |publisher= |doi=10.1109/78.382394 |url= |accessdate= }} </ref><ref>P. Flandrin, F. Auger, and E. Chassande-Mottin, ''Time-frequency reassignment: From principles to algorithms'', in Applications in Time-Frequency Signal Processing (A. Papandreou-Suppappola, ed.), ch. 5, pp. 179 – 203, CRC Press, 2003.</ref>。對時頻譜而言,重新分布法便是利用訊號的短時距相位頻譜來修正其時頻座標點,再將其重新映射回較靠近所分析訊號之真實[[支撑集|支撐區域]]的位置。 == 方法 == 重新分布法首先由小寺邦彥(Kunihiko Kodera)、羅傑·干德林(Roger Gendrin)和克勞地·德·凡德瑞(Claude de Villedary)三人提出,並命名為「'''修正滑動視窗法'''」(Modified Moving-Window Method)<ref>{{cite journal |author1=K. Kodera |author2=R. Gendrin |author3=C. de Villedary |last-author-amp=yes |date=Feb 1978 |title=Analysis of time-varying signals with small BT values |journal=IEEE Transactions on Acoustics, Speech and Signal Processing |volume=26 |issue=1 |pages=64–76 | publisher= |doi=10.1109/TASSP.1978.1163047 |url= |accessdate=}}</ref>。他們的方法為每個資料點指定一組新的時頻座標,使其更佳反映原始訊號的能量分布,進而改善了標準滑動視窗法(等同於時頻譜)的時頻解析度。 標準的滑動視窗法乃是將一時域訊號<math>x(t)</math>分解為一組[[基函數|基底訊號]]<math>h_{\omega}(t)</math>的加權總和,其中代表每項基底的係數則為<math>\epsilon( t, \omega )</math>。基底訊號的定義如下: :<math>h_{\omega}(t) = h(t) e^{j \omega t} </math> 其中,<math>h(t)</math>為一[[实数|實值]]之[[低通滤波器|低通]]核函數,如短時距傅立葉變換中的視窗函數。此般分解下的各項係數則可定義如下: :<math>\begin{align} \epsilon( t, \omega ) &= \int x(\tau) h( t - \tau ) e^{ -j \omega \left[ \tau - t \right]} d\tau \\ &= e^{ j \omega t} \int x(\tau) h( t - \tau ) e^{ -j \omega \tau } d\tau \\ &= e^{ j \omega t} X(t, \omega) \\ &= X_{t}(\omega) \\ &= M_{t}(\omega) e^{j \phi_{\tau}(\omega)}. \end{align}</math> 其中,<math>X_{t}(\omega)</math>為訊號<math>x(t)</math>在時間位移為<math>t</math>、使用<math>h(t)</math>做為視窗函數下所得到的傅立葉變換;而<math>M_{t}(\omega)</math>與<math>\phi_{\tau}(\omega)</math>則分別代表<math>X_{t}(\omega)</math>的強度以及相位值。 <math>x(t)</math>可透過滑動視窗的係數以下式重建: :<math>\begin{align} x(t) & = \iint X_{\tau}(\omega) h^{*}_{\omega}(\tau - t) d\omega d\tau \\ & = \iint X_{\tau}(\omega) h( \tau - t ) e^{ -j \omega \left[ \tau - t \right]} d\omega d\tau \\ &= \iint M_{\tau}(\omega) e^{j \phi_{\tau}(\omega)} h( \tau - t ) e^{ -j \omega \left[ \tau - t \right]} d\omega d\tau \\ &= \iint M_{\tau}(\omega) h( \tau - t ) e^{ j \left[ \phi_{\tau}(\omega) - \omega \tau+ \omega t \right] } d\omega d\tau. \end{align}</math> 當一個訊號的強度頻譜為<math>M(t,\omega)</math>,且其時間上較相位上的變化來得慢時,上述重建式中積分值最主要的貢獻來源即滿足下列穩相條件(phase stationarity condition)的<math>t,\omega</math>及其鄰近區域: :<math>\begin{align} \frac{\partial}{\partial \omega} \left[ \phi_{\tau}(\omega) - \omega \tau + \omega t\right] & = 0, \\ \frac{\partial}{\partial \tau} \left[ \phi_{\tau}(\omega) - \omega \tau + \omega t \right] & = 0. \end{align}</math> 亦即滿足下列定義的<math>\hat{t}, \hat{\omega}</math>及其鄰近區域: :<math>\begin{align} \hat{t}(\tau, \omega) & = \tau - \frac{\partial \phi_{\tau}(\omega)}{\partial \omega} = -\frac{\partial \phi(\tau, \omega)}{\partial \omega}, \\ \hat{\omega}(\tau, \omega) & = \frac{\partial \phi_{\tau}(\omega)}{\partial \tau} = \omega + \frac{\partial \phi(\tau, \omega)}{\partial \tau}. \end{align}</math> 此現象在光學等領域中稱為{{Tsl|en|Stationary phase approximation|穩相近似|穩相原理}}:對週期或[[准周期函数|準週期]]函數而言,其傅立葉相位頻譜在其振盪頻率附近相對於時間的變化較慢,反之在外圍區域則較快。以時域上能量較為集中的[[脈波|脈衝]]訊號為例,其相位頻譜在脈衝時間點附近的變化較慢,而較遠的區域則變化較快。 在訊號重建時,合成波形之正值與負值於相位快速變化的頻率區域會因[[干涉 (物理学)|破壞性干涉]]而互相抵消。只有相位變化緩慢(即穩相)的區域會對重建的訊號有顯著的影響,故貢獻極大值(訊號的[[質心|重心]])即發生在相位隨時間與頻率變化最緩慢的地方。 由此知,可以直接從(一般在建構時頻譜時被忽略的)短時距傅立葉轉換之相位值求得時頻座標,且其值即等於訊號的局部[[群延迟与相位延迟|群延遲<math>\hat{t}_g(t,\omega)</math>]]和[[瞬時頻率]]<math>\hat{\omega}_i(t,\omega)</math>。這些時頻值代表的是經由視窗函數過濾後的訊號,因而屬於局部(local)的量且無法表示整個訊號的全域(global)特徵。 修正滑動視窗法(亦即重新分布法)便是將計算<math>\epsilon(t,\omega)</math>的時頻點從原始的<math>t,\omega</math>重新移至局部極大貢獻點<math>\hat{t}(t,\omega), \hat{\omega}(t,\omega)</math>。由於本質上這個局部極大點和質量分布中心點有相似之處,故也常類比成「重心」。該類比也有助於做出下述的理解:一個訊號的頻譜能量分布對重心的貢獻只在「有能量」的區域才具有意義,因此對時頻譜上量值為零的座標點使用重新分布法是沒有意義的。 == 快速時頻重新分布法 == 在[[數位訊號處理]]中,最常見的做法是先在時域與頻域分別對訊號進行[[取樣]],並使用[[离散傅里叶变换|離散傅立葉變換]]計算時域訊號<math>x(n)</math>的頻域變換<math>X(k)</math>。因離散的時頻資料點無法直接計算[[偏微分]],小寺邦彥等人所提出的重新分布法並不能直接套用於離散形式的短時距傅立葉變換;甚至有人{{Who}}指出,這項難處就是使得重新分布法無法得到更廣泛應用的主因。 然而,偏微分的值可以利用[[有限差分法]]來估計。舉例而言,在相位頻譜上兩個鄰近的時間點(<math>t+\Delta t/ 2</math>、<math>t-\Delta t/ 2</math>)取值、並將兩值相減後除以時間差<math>\Delta t</math>,便可得到該處頻譜於時域的偏微分估計值(頻域亦同理): :<math>\begin{align} \frac{\partial \phi(t, \omega)}{\partial t} & \approx \frac{1}{\Delta t} \left[ \phi \left (t + \frac{\Delta t}{2}, \omega \right ) - \phi \left (t - \frac{\Delta t}{2}, \omega \right ) \right] \\ \frac{\partial \phi(t, \omega)}{\partial \omega} & \approx \frac{1}{\Delta \omega}\left[ \phi \left (t, \omega+ \frac{\Delta \omega}{2} \right ) - \phi \left (t, \omega-\frac{\Delta \omega}{2} \right ) \right] \end{align}</math> 在頻譜上,某些區域的相位變化主要源自於附近某單一弦波成分的旋轉;這些區域內的相位值為一線性函數,因此對於足夠微小的<math>\Delta t</math>及<math>\Delta \omega</math>而言,上式的有限差分可為相位值的偏微分做一良好的近似。 道格拉斯·尼爾森(Douglas Nelson)也曾獨立於小寺邦彥等人,開發了利用短時距相位頻譜的偏微分來改善時頻譜之解析度的類似方法<ref name="crossspectral">{{cite journal|title=Cross-spectral methods for processing speech|author=D. J. Nelson|url=|date=Nov 2001|journal=Journal of the Acoustical Society of America|publisher=|accessdate=|issue=5|doi=10.1121/1.1402616|volume=110|pages=2575–2592}}</ref>。稍加推導便可容易地證明他提出的「跨頻譜平面」(cross-spectral surface)所計算之偏微分近似值和前述的有限差分法無異。 弗朗索瓦·俄歇(François Auger)及派翠克·弗朗德蘭(Patrick Flandrin)則指出,小寺邦彥等人所提出的時頻譜重新分布法可透過下述的一般化,延用於任一[[科恩系列分佈|科恩系列]]的時頻表示法: :<math>\begin{align} \hat{t} (t,\omega) &= t - \frac{\iint \tau \cdot W_{x}(t-\tau,\omega -\nu) \cdot \Phi(\tau,\nu) d\tau d\nu} {\iint W_{x} \left (t-\tau,\omega -\nu \right ) \cdot \Phi (\tau,\nu) d\tau d\nu } \\ \hat{\omega} (t,\omega) & = \omega - \frac{\iint \nu \cdot W_{x}(t-\tau,\omega -\nu) \cdot \Phi(\tau,\nu) d\tau d\nu} {\iint W_{x}(t-\tau,\omega -\nu) \cdot \Phi(\tau,\nu) d\tau d\nu} \end{align}</math> 其中,<math>W_{x}(t,\omega)</math>為<math>x(t)</math>的[[維格納準概率分佈|維格納–魏爾分布]],而<math>\Phi(t,\omega)</math>則是定義該分布的核函數。他們更提出了一項不須直接計算相位之偏微分,便可快速且準確地得到重新分布後之時頻譜的方法<ref name = "improving" />。以時頻譜而言,其重新分布法的計算如下: :<math>\begin{align} \hat{t} (t,\omega) & = t - \Re \left \{ \frac{ X_{\mathcal{T}h}(t,\omega) \cdot X^*(t,\omega) }{ | X(t,\omega) |^2 } \right \} \\ \hat{\omega}(t,\omega) & = \omega + \Im \left \{ \frac{ X_{\mathcal{D}h}(t,\omega) \cdot X^*(t,\omega) }{ | X(t,\omega) |^2 } \right \} \end{align}</math> 其中,<math>X(t,\omega)</math>是訊號以視窗函數<math>h(t)</math>所得到的短時距傅立葉變換、<math>X_{\mathcal{T}h}(t,\omega)</math>是訊號以時間加權之視窗函數<math>h_{\mathcal{T}}(t) = t \cdot h(t)</math>所得到的短時距傅立葉變換、<math>X_{\mathcal{D}h}(t,\omega)</math>則是訊號以對時間取導數之視窗函數<math>h_{\mathcal{D}}(t) = \tfrac{d}{dt}h(t)</math>所得到的短時距傅立葉變換;故知,利用輔助視窗函數<math>h_{\mathcal{T}}(t)</math>以及<math>h_{\mathcal{D}}(t)</math>,可得到含原始在內共三種傅立葉變換的結果。接著,將這三種變換分別在<math>t,\omega</math>處取值並做代數上的組合,便可在任一時頻座標點<math>t,\omega</math>計算重新分布法的結果。由於上述的方法只是在短時距頻譜上的某單一時頻點取值,而不須做任何導數的計算,因此可視作離散短時距傅立葉變換之重新分布的快速演算法。 上述方法有一限制,即<math>| X(t,\omega) |^2</math>之值必須為非零;不過,這項限制一般而言皆會被滿足,因為只在頻譜有能量的區域才有值可以「重新分布」,而方法本身在頻譜值為零處也沒有意義。 ==可分離性== [[Image:Long-window reassigned spectrogram of speech.png|thumb|400px|「open」一字之語音訊號透過較長之分析視窗重新分布後得到的时频谱。其結果為利用長度為54.4毫秒、外型參數<math>\alpha</math>為9的凯泽窗計算所得,圖中不同諧波間的分離較為明顯。]] [[Image:Short-window reassigned spectrogram of speech.png|thumb|400px|「open」一字之語音訊號透過較短之分析視窗重新分布後得到的时频谱。其結果為利用長度為13.6毫秒、外型參數<math>\alpha</math>為9的凯泽窗計算所得,圖中不同聲門脈衝間的分離較為明顯。]] 短時距傅立葉變換經常用於估算一個多成分訊號(例如準諧波的樂器音)中個別單一成分的振幅和相位,而時頻重新分布則能將變換後的時頻點集中至能量分布的局部重心,使頻譜更加清晰。 對單一成分的訊號而言,其瞬時頻率可由該訊號經任意短時距傅立葉變換後得到的相位之偏微分估算。若訊號可拆解為多個成分: :<math>x(t) = \sum_{n} A_{n}(t) e^{j \theta_{n}(t)}</math> 且定義各成分的瞬時頻率為其相位對時間的偏微分,即: :<math>\omega_{n}(t) = \frac{d \theta_{n}(t)}{d t}</math> 則可以藉由設計適當的[[带通滤波器|帶通濾波器]]使其通帶只包含某一特定訊號成分,再從該濾波器經變換後之頻譜的相位值,計算該訊號成分的瞬時頻率。 尼爾森稱這項頻域中的條件為「可分離性」(separability)<ref name = "crossspectral" />,且所有透過此方法分析的訊號皆須滿足該條件。若該條件並未滿足,則因不能透過短時距傅立葉變換估算個別成分的參數,而無法得到欲求的多成分訊號拆解;在這樣的情況下,必須採用其它的分析視窗函數,以滿足可分離性的條件。 若某特定的短時距頻譜分析視窗可用於拆解訊號中不同頻率的成分,則每個濾波器經短時距傅立葉變換後的脈衝響應便是(至多一項)單一主要訊號成分(即能量最大)經濾波後的結果,故<math>X(t,\omega_0)</math>之相位值對時間的偏微分值,即相等於頻率<math>\omega_0</math>下主要成分之相位值對時間的偏微分值。因此,若某瞬時頻率為<math>\omega_{n}(t)</math>的訊號成分<math>x_n(t)</math> 在<math>\omega_0</math>附近為主要成分時,則該成分的瞬時頻率可透過原始訊號經短時距傅立葉變換後位於<math>\omega_0</math>的相位值求得,即: :<math>\begin{align} \omega_{n}(t) &= \frac{\partial}{\partial t} \arg\{ x_{n}(t) \} \\ &= \frac{\partial }{\partial t} \arg\{ X(t,\omega_{0}) \} \end{align}</math> 頻域的可分離性要求每個帶通濾波器經短時距傅立葉變換後,最多只可通過一項訊號成分,而在時域同樣也有類似的限制:訊號中兩個不同時間的成分(即事件)彼此間分隔須夠大,使得任一時域視窗下的分段,都不得包含超過一個事件。此即時域下的可分離性條件,且等義於任兩事件間的間隔須大於短時距傅立葉變換濾波器之脈衝響應長度,也就是<math>h(t)</math>中非零取樣點所涵蓋的範圍。 一般而言,任一多成分訊號有無限多種相同合理的拆解方式;不過,可分離性必須是在所欲求得的拆解下進行考慮。舉例而言,在分析一個語音訊號時,若使用時間範圍較聲門脈衝間隔長的分析視窗,則足以將不同諧波分離;但個別的聲門脈衝則會因單一視窗包含了多個脈衝而被模糊,也就是所選的分析視窗使得訊號在時域中不具可分離性。反之,若使用時間範圍遠小於聲門脈衝間隔的分析視窗,則能夠成功分離每個脈衝,因為每個視窗中最多只包含一個脈衝;但不同諧波便會彼此模糊交疊,因為視窗在頻域中的範圍比單一諧波還要寬,也就是所選的分析視窗使得訊號在頻域中不具可分離性。 == 參考資料 == <references/> == 延伸閱讀 == *S. A. Fulop and K. Fitz, ''A spectrogram for the twenty-first century'', Acoustics Today, vol. 2, no. 3, pp. 26–33, 2006. *S. A. Fulop and K. Fitz, ''Algorithms for computing the time-corrected instantaneous frequency (reassigned) spectrogram, with applications'', Journal of the Acoustical Society of America, vol. 119, pp. 360 – 371, Jan 2006. == 外部連結 == * [http://tftb.nongnu.org/ TFTB — Time-Frequency ToolBox] {{Wayback|url=http://tftb.nongnu.org/ |date=20210211012101 }} * [http://www.klingbeil.com/spear/ SPEAR - Sinusoidal Partial Editing Analysis and Resynthesis] {{Wayback|url=http://www.klingbeil.com/spear/ |date=20210508084541 }} * [http://www.cerlsoundgroup.org/Loris/ Loris - Open-source software for sound modeling and morphing] {{Wayback|url=http://www.cerlsoundgroup.org/Loris/ |date=20210414171610 }} * [http://musicalgorithms.ewu.edu/algorithms/roughness.html SRA - A web-based research tool for spectral and roughness analysis of sound signals] {{Wayback|url=http://musicalgorithms.ewu.edu/algorithms/roughness.html |date=20191118182132 }} * [http://pnas.org/content/103/16/6094.long Sparse time-frequency representations - PNAS] {{Wayback|url=http://pnas.org/content/103/16/6094.long |date=20170817112717 }} {{Clear}} {{Compression methods}} [[Category:數位訊號處理]] [[Category:變換]]
该页面使用的模板:
Template:Cite journal
(
查看源代码
)
Template:Cite thesis
(
查看源代码
)
Template:Clear
(
查看源代码
)
Template:Compression methods
(
查看源代码
)
Template:Lang-en
(
查看源代码
)
Template:Main
(
查看源代码
)
Template:Tsl
(
查看源代码
)
Template:Wayback
(
查看源代码
)
Template:Who
(
查看源代码
)
返回
重新分布法
。
导航菜单
个人工具
登录
命名空间
页面
讨论
不转换
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
特殊页面
工具
链入页面
相关更改
页面信息