查看“︁VocaListener”︁的源代码

{{Infobox Software
|name = VocaListener
|logo = 
|screenshot = 
|caption = 
|author = 
|developer = [[產業技術綜合研究所]]
|released = 
|latest release version = 
|latest release date = 
|latest preview version = 
|latest preview date = 
|operating system = 
|platform = 
|language = 
|genre = [[語音合成]]系統
|license = 
|website = [http://staff.aist.go.jp/m.goto/VocaListener/index-j.html staff.aist.go.jp/m.goto/VocaListener/index-j.html]
}}

'''VocaListener'''（簡稱'''{{lang|ja|ぼかりす}}'''）是一個自動測定用戶歌聲的[[語音合成]]參數的系統，可以簡單地把輸入的歌聲轉換成另一種風格或聲質的技術。技術分為三部分：一是合成歌聲模仿目標歌聲的核心技術「VocaListener-core」，二是編輯目標歌聲的技術「VocaListener-plus」，三是分析歌聲的技術「VocaListener-front-end」。主要由中野倫靖和後藤真孝參與研究，先後以[[VOCALOID|VOCALOID 2]]的[[初音未來]]、[[鏡音鈴、連]]、[[GACKPOID]]和VOCALOID的[[Meiko (软件)|MEIKO]]、[[KAITO]]作研究測試，採用的原因是因為產品已發放於市場，較容易入手。而音樂採用RWC研究用音樂資料庫（流行音樂）（RWC-MDB-P-2001）。研究目的是希望可以做到輕易合成高品質的歌聲，從而探索動聽歌聲的技巧，並在歌唱中得知人類個人的知覺。

== 歷史 ==
技術早於2006年8月已進行研究<ref>[http://hil.t.u-tokyo.ac.jp/publications/download.php?bib=Kameoka2006MUS08.pdf {{Wayback|url=http://hil.t.u-tokyo.ac.jp/publications/download.php?bib=Kameoka2006MUS08.pdf |date=20160305001026 }} {{Wayback|url=http://hil.t.u-tokyo.ac.jp/publications/download.php?bib=Kameoka2006MUS08.pdf |date=20160305001026 }} {{lang|ja|スペクトル制御エンベロープによる混合音中の周期および非周期成分の選択的イコライザ}}] {{Wayback|url=http://hil.t.u-tokyo.ac.jp/publications/download.php?bib=Kameoka2006MUS08.pdf |date=20160305001026 }}，[http://hil.t.u-tokyo.ac.jp/publications/publist.php 發佈頁] {{Wayback|url=http://hil.t.u-tokyo.ac.jp/publications/publist.php |date=20210517013311 }}</ref>。最初於2008年4月28日公開，於[[NICONICO動畫]]上載[[音樂軟件]][[初音未來]]版本的《[http://www.nicovideo.jp/watch/sm3128145 PROLOGUE] {{Wayback|url=http://www.nicovideo.jp/watch/sm3128145 |date=20211011060242 }}》，歌曲原唱為[[聲優]][[緒方智美]]。但最初只是寫作簡稱「{{lang|ja|ぼかりす}}」，並沒有正式發表技術，是一個試驗性質的公開。當時正值初音未來熱潮後不久，其極為自然、非常接近人類的歌聲大大超越初音未來平常歌曲的水準而被稱為「神調教」（把初音未來的歌曲調整得十分自然之意），更引起一段短暫對新技術真相的猜測<ref>{{cite web|url= http://www.itmedia.co.jp/news/articles/0805/01/news103.html|script-title= ja:初音未來的「神調教」是自動!? 「ぼかりす」話題騷然|accessdate= 2008年5月3日|author= |date= 2008年5月1日|publisher= ITmedia|language= ja|archive-date= 2022年3月8日|archive-url= https://web.archive.org/web/20220308103311/https://www.itmedia.co.jp/news/articles/0805/01/news103.html}}</ref>。同年5月2日承認「{{lang|ja|ぼかりす}}」就是VocaListener<ref>{{cite web|url= http://www.j-cast.com/2008/05/02019791.html|title= 「NICONICO」的「初音未來歌聲」 達到「神的領域」令網絡騷然|accessdate= 2008年5月3日|author= |date= 2008年5月2日|publisher= J-CAST|language= ja|archive-date= 2008年5月3日|archive-url= https://web.archive.org/web/20080503235320/http://www.j-cast.com/2008/05/02019791.html|dead-url= no}}</ref>。在5月28日的[http://www.ipsj.or.jp/sigmus/SIG/sig200805program.html 第75回音樂資訊科學研究會] {{Wayback|url=http://www.ipsj.or.jp/sigmus/SIG/sig200805program.html |date=20080605055645 }}正式發表。6月6日再公開鏡音鈴版本的《[http://www.nicovideo.jp/watch/sm3571447 Game of Love] {{Wayback|url=http://www.nicovideo.jp/watch/sm3571447 |date=20220505112812 }}》，歌曲原唱為[[吉井弘美]]。9月22日再同時公開KAITO、MEIKO、初音未來、鏡音鈴、連ACT2、GACKPOID和合唱版本的[[演歌]]《大漁船》，2009年2月6日再公開[[巡音流歌]]的版本，歌曲原唱為西一男。4月27日開始[[Yamaha]]的「{{lang|ja|Netぼかりす}}」Alpha版測試，只提供部份功能<ref>{{cite web|url= http://www.itmedia.co.jp/news/articles/0904/27/news039.html|script-title= ja:VOCALOID“神調教”技術「ぼかりす」実用化へ、ヤマハと産総研が連携|title_zh= VOCALOID「神調教」技術「VocaListener」實用化，Yamaha與產總研合作|accessdate= 2009年4月27日|author= |date= 2009年4月27日|publisher= ITmedia|language= ja|archive-date= 2021年10月7日|archive-url= https://web.archive.org/web/20211007014949/https://www.itmedia.co.jp/news/articles/0904/27/news039.html}}</ref>。

== 技術 ==
系統先以VocaListener-front-end分析目標歌聲和歌詞，辨認音高、音量、歌詞等，再由用戶以VocaListener-plus編輯修正，其後以VocaListener-core分析歌聲並加以合成，反覆測定音高、音量、歌詞等的相似度，由用戶加以微調，最後得到合成歌聲的參數。

=== VocaListener-core ===
這是合成歌聲模仿目標歌聲的核心技術，由歌聲分析、歌聲合成、反覆的合成參數更新三種要素組成。歌聲分析的對象不止目標歌聲，亦會對合成後的歌聲作出分析，但分析的使用技術[[Viterbi alignment]]會有辨認錯誤的問題，需要反覆分析，務求兩者的風格盡量相近。判定音高分為[[MIDI]]的音名數值和[[滑音]]斜率。在音名數值中，組合VOCALOID 2滑音斜率（PIT、Pitch Bend）和滑音斜率敏感度（PBS、Pitch Bend Sensitivity）最多可以做出高或低兩個[[八度]]的滑音，而音名數值由以下數式選擇（NoteNumber：音名數值、σ=0.03、t是音符長度。）：

<math>{NoteNumber}=\overset{argmax}{n}{\Big({\sum_t exp}{\Big\{-\frac{{(n-F_0(t))^2}}{2\sigma^2}\Big\}}\Big)}</math>

而合成歌聲是<math>F0\overset{(n)}{syn}(t)</math>、目標歌聲則是<math>F0_{org}(t)</math>。經過重複計算而把兩個數值不斷更新，變得相似。把PIT和PBS轉換為數式則是如此：

<math>{Pb}^{(n+1)}{(t)}={Pb}^{(n)}{(t)}+{\Big({{F0_{org}}(t)}-{F0\overset{(n)}{syn}(t)}\Big)}</math>

而音量測定上是使用相對數值，反覆測定而得到從0至127的強弱（DYN、Dynamics）數值。

=== VocaListener-plus ===
這是編輯目標歌聲的技術，可以令歌聲有更廣闊的種類，但並非一定要使用。技術中分為兩種類，分別是改變[[音高]]和改變歌唱風格的機能。前者的改變音高，用途可以是修正[[走音]]，或可以合成原唱者不能唱出的音高。然而在音符較短的時候，可能會不能修正音高。後者可調整[[振音]]的強弱、音高、[[音量]]的平滑感，藉以改變歌唱風格，甚至加強歌唱的表現。

=== VocaListener-front-end ===
VocaListener-front-end則分為歌聲分析及歌聲合成，在歌聲分析中需要從原歌聲中抽出音高、音量、發音開始時間和[[音長]]。
;音高
:由以下數式轉換為[[MIDI]]的[[音名]]數值（fHz：[[基本頻率]]、fNoteNumber：MIDI的音名數值）：
<math>{fNoteNumber}={12}*{\log_2}\frac{fHz}{440}+{69}</math>
;音量
:由以下數式計算（N：窗幅、x(t)：聲音[[波形]]、h(t)：[[窗函數]]）：
<math>Pow(t)=\sum_{r=t-N/2}^{t+N/2} {\Big(\sqrt{(x(r)*h(r-t))^2}\Big)}</math>
:技術中N為2048（約46[[毫秒]]）、h(t)為[[窗函数#Hann窗|漢寧（Hanning）窗]]。
;發音開始時間和音長
:使用Viterbi alignment辨認音聲，再從歌詞轉換為[[音素]]，但偶然會有辨認錯誤，需要用戶修正。

== 參見 ==
*[[語音合成]]
*[[VOCALOID]]
*[[產業技術綜合研究所]]

== 参考資料 ==
<div class="references-small">
<references />
{{refbegin}}
*{{cite web|url= http://staff.aist.go.jp/t.nakano/PAPER/SIGMUS200805nakano.pdf|script-title= ja:VocaListener: ユーザ歌唱を真似る歌声合成パラメータを自動推定するシステムの提案. 情報処理学会 研究報告 2008-MUS-75.vol.2008, no.50, pp.49-56, 2008. 論文PDF|accessdate= 2008年6月1日|author= 中野倫靖、後藤真孝|date= 2008年6月1日|publisher= 産業技術綜合研究所|language= ja|archive-date= 2021年10月12日|archive-url= https://web.archive.org/web/20211012104635/https://staff.aist.go.jp/t.nakano/PAPER/SIGMUS200805nakano.pdf}}
*{{cite web|url= http://staff.aist.go.jp/t.nakano/PRESENTATION/pSIGMUS200805nakano.pdf|script-title= ja:VocaListener: ユーザ歌唱を真似る歌声合成パラメータを自動推定するシステムの提案. 情報処理学会 研究報告 2008-MUS-75.vol.2008, no.50, pp.49-56, 2008. 発表資料PDF|accessdate= 2008年6月1日|author= 中野倫靖、後藤真孝|date= 2008年6月1日|publisher= 産業技術綜合研究所|language= ja|archive-date= 2021年10月12日|archive-url= https://web.archive.org/web/20211012104652/https://staff.aist.go.jp/t.nakano/PRESENTATION/pSIGMUS200805nakano.pdf}}
{{refend}}
</div>

== 外部連結 ==
*{{ja icon}}[http://staff.aist.go.jp/m.goto/VocaListener/index-j.html VocaListener] {{Wayback|url=http://staff.aist.go.jp/m.goto/VocaListener/index-j.html |date=20170205004421 }}
*{{ja icon}}[http://www.nicovideo.jp/mylist/7012071 NICONICO動畫：VocaListener Demonstrations] {{Wayback|url=http://www.nicovideo.jp/mylist/7012071 |date=20180304201319 }}
*{{en icon}}{{ja icon}}[http://www.aist.go.jp/ 產業技術綜合研究所] {{Wayback|url=http://www.aist.go.jp/ |date=20220517221355 }}
*{{ja icon}}[http://staff.aist.go.jp/m.goto/index-j.html 後藤 真孝's Home Page] {{Wayback|url=http://staff.aist.go.jp/m.goto/index-j.html |date=20211003212918 }}
*{{ja icon}}[https://web.archive.org/web/20050313024231/http://www.slis.tsukuba.ac.jp/~nakano/profile.html 中野倫靖個人檔案]
*{{en icon}}{{ja icon}}[http://staff.aist.go.jp/m.goto/RWC-MDB/rwc-mdb-p.html RWC音樂資料庫：流行音樂] {{Wayback|url=http://staff.aist.go.jp/m.goto/RWC-MDB/rwc-mdb-p.html |date=20210414174529 }}
*{{en icon}}{{ja icon}}[http://staff.aist.go.jp/m.goto/RWC-MDB/rwc-mdb-g.html RWC音樂資料庫：音樂分類] {{Wayback|url=http://staff.aist.go.jp/m.goto/RWC-MDB/rwc-mdb-g.html |date=20210414180420 }}

[[Category:語音合成]]
[[Category:電子音樂軟體]]