Accents 2011 での発表終了

報告が遅くなってしまいましたが、ポーランドでの英語音声国際会議Accents 2011 での発表を12月17日(会議最終日)に無事終えました。発表スライドは Scribd.com で公開してありますが、ここにも埋め込んでおきます。

発表時間20分(プラス質問10分)にしては、表紙を含めて46枚という欲張り過ぎのスライドを作ってしまったので、口頭発表では恐らく内容の半分ほどしかカバーできませんでした。その意味では、このスライドは実際に聴衆に伝えた内容とは一致していないということをお断りしておかなければなりません。

なお、Accents は今年の Accents 2012 から、対象を英語に限らないようにする方向だということです。実際、今回もポーランド語に関する発表が1件含まれていました。

ついでに書きますが、前の記事で投稿中と書いた、pac の国際会議(PAC 2012、2月29~3月2日)へのアブストラクトは無事に採択されました。タイトルは “Devising a notational system for the interlanguage prosody of Japanese speakers’ English speech: a pilot study for corpus building.” です。プログラムが発表されたら、また記事を書くつもりです。

Accent 2011 で発表します。

これは、3年前の2008年に行った、ポーランドのウッチ(Łódź)での国際会議です。3年前の発表はかなり不本意で、proceedingsへの投稿も見送ってしまったので、また行く機会をうかがっていたのですが、過去2年間は入試関係の仕事とぶつかって、どうしても行けなかったのでした。今年は奇跡的にぶつかっていなかったので、喜び勇んで応募したのでした。12月15~17日の開催で、会議のURLは http://www.filolog.uni.lodz.pl/accents2011/Accents%202011.htm です。発表内容は、ERJを使った音声コーパス作成の中間報告です。(実は、日本音声学会の全国大会に応募したものの、データに不備があって取り下げたものでした。)

そして今日、もう1つ別の国際会議にもアブストラクトを送りました。こちらは、3年前に採択されながら、ぎっくり腰で行くことができなかったフランスの pac (La Phonologie de l’Anglais Contemporain) の第1回「国際会議」です。3年前の時はまだワークショップで、時期も9月だったのですが、国際会議になって、期間は2月29日~3月2日です。こちらは、本来は締め切りが10月1日、期間が3月1~2日だったのですが、送られてきたアブストラクトの数に鑑みて、変更したのだそうです。10月1日の締め切りにはとても間に合わなくて諦めてしまったので、再びチャンスをもらえて助かった…といったところです。僕が出したテーマは、日本人英語の「中間言語」プロソディーの表記について。励ましてくれたWellsの期待に応えられるように頑張ります。採否は12月15日に通知されるとのことです。

The 17th International Congress of Phonetic sciences (第17回国際音声科学会議)にて

今年の8月の後半は、4つの国で4つの国際会議に参加します。その第1弾が、香港で開催中のこの ICPhS。この後は、一旦日本に戻って京都のアジア辞書学会(Asialex2011)で発表し、その後はヨーロッパに飛んで、エストニアのタリンでヨーロッパ日本研究協会の年次大会と、イタリアのフィレンツェで Interspeech2011 に参加して帰国、という予定になっています。4つのうち、自分が発表するのは1つだけです。

自分が発表しない学会に参加するのは結構つらいものです。自分の関心ある内容の発表があるとは限らないし、聞いている発表が自分の理解力を超えたものだと(そういうのは結構多いです)、自分が取り残されたような気分にもなるからです。

それでも、理解できる発表にはできるだけ質問をする。そうすることで、自分も参加しているという気持ちが出てくるし、気持ちも前向きになります。16日に行われたサテライト・ワークショップ “Coarticulation in New Varieties of English” では何も発言できずに落ち込んでいたのですが、昨日・今日と、1回ずつ質問することができて、やっと「自分も参加している」という気持ちになってきました。

僕が昨日した質問といっても大したものではなくて、幼児の音声に関する発表で、子音脱落の話しか出てこないので、自分の2歳の息子は子音で始まらないはずの音節に子音を付け加えているのだけれど、それはその理論でカバーできるんですか、と聞いたのでした。子持ちにならなかったら、この分野の発表を聞いて、更にコメントまでするなんてことはあり得なかったと思うので、僕も変われば変わるものです。ただ、理論に関する議論を仕掛けていた他の質問者から見れば、僕のは野次馬的ではあったかも知れません。僕の質問を聞きながらうなずいている聴衆が何人もいて気持ちはよかったですけどね。

今日の方が、自分の本来の問題意識からの質問ができたので、よかったです。中国語話者の英語音声コーパス構築についての発表があったのですが、イントネーションの表記が、英語用の E-ToBI そのままを使っているというのを聞いて、学習者音声なんだからイントネーションは英語でも中国語でもない interlanguage (中間言語)のはずで、それに英語のシステムを使うのはおかしいのではないか、自分も日本人英語音声コーパスを作っていて、中間言語のイントネーションの表記をどう工夫しようかまだ思いついていないのだけど…ということを言いました。

発表者は僕にずいぶんと感謝していましたけど、恐らくは、E-ToBIのまま、彼らのコーパス構築は進むような気がします。何しろ、簡単な答えはあり得ないのですから。彼らのプロジェクトは AESOP (Asian English Speech Corpus Project) というものの一部で、これには日本も含まれていることを知りましたが、ということは、僕はもっと急がなければいけないし、中間言語のプロソディー表記法をうまく考え出せば、そこが強みになるのかも…とも思いました。

僕は、この問題があるために、日本語話者英語音声コーパスの構築では、プロソディーを棚上げして、分節音だけで作業を進めています。しかし、いつまでも放置しておく訳にはいかないでしょう。さしあたり、E-ToBI と 日本語用の X-JToBI を合成したような体系を作って、実データでの記述を試みる、ということはしてみる必要がありそうです。英語にも日本語にもないような要素が入り込むのでない限りは、これで行けそうな気がするんですが…。しかし、分節音では、英語でも日本語でも起こらないような現象も観察されるので、ちょっと心配ではあります。

※このことについて Facebook に書き込んだら、John Wells が「これについて、明日あたり、君と議論がしたい」とコメントをつけてくれました。これはうれしいです。問題の解決への糸口が少しでも見つかるような議論にしなければ。

HTKのインストール

Windowsユーザは、Cygwin(Windowsの中に作ることのできる、Unix/Linux環境)を入れてCygwinでやった方が楽です。というか、僕は Windows版を Visual Studio Express でデバッグしたりしてどのようにコンパイルしても、どうしてもうまくいきませんでした。そんなわけで、ここでは、Cygwinでのインストールについて説明します。

Cygwinをインストールする

http://www.cygwin.org/cygwin/ で、setup.exe をダウンロードして実行します。
インストールするパーツやツールを選択する画面が出てきますが、ここは All を install してしまいましょう。時間はかかりますし、6GBほど容量を食いますが、今どきのPCなら問題になるほど場所を食うわけでもないでしょう。何が必要で、何が必要でないのか、Unix/Linuxユーザーでない僕らには分からないのですからとりあえず全部入れておきます。デスクトップに Cygwinというショートカットができます。(他にもできますが、ここでは使いません。)

HTKのダウンロード

http://htk.eng.cam.ac.uk/ ユーザ登録(register)が必要です。登録したメールアドレスにログイン用のパスワードが届きます。

Browse HTK software archive ページ http://htk.eng.cam.ac.uk/ftp/software に行って、必要なものをダウンロードします。Cygwinでコンパイルするなら,WindowsじゃなくてLinuxの方をダウンロードします。ファイル名はHTK-3.4.tar.gz。僕たちが最終的に使おうとしている Penn Phonetics Lab Forced Aligner (p2fa)は、最新バージョンではなく、3.4でしか動作確認できていないからです。

HTKインストールの準備

ダウンロードしたファイルを解凍する

tar.gz はWindowsの機能そのままでは解凍できないので、僕はTUGZip http://www.tugzip.com/Home.html を使っています。zipファイルを扱うにも色々便利なので、入れておいて損はないですよ。

解凍すると、htkフォルダができます。

細かい調整

次に、デスクトップのCygwin というショートカットを開くと、Cygwinのコマンドプロンプト画面が開きます。まず、

cd /usr (※Windows/MS-DOS と違い、フォルダ/ディレクトリの区切りは / です。\ (¥) ではありません。)

と入力して /usr ディレクトリに移動して、

ls (Windowsのコマンドプロンプト/MS-DOSの dir に相当)

を実行してみます。するとおそらく

X11      bin        include    lib       local      sbin       share

的な実行結果が得られるはずです。(結果は異なるかも知れません。)

ここで「X11」のかわりに「X11R6」などのフォルダ名があったら、 以下のことを行ってください。

Windows上で、解凍したhtkフォルダの下の envフォルダに移動。ここで、

env.linux というファイルをテキストエディタで開いて、

SETENV -HTKLF ‘-L/usr/X11/lib’

となっている行を、

SETENV -HTKLF ‘-L/usr/X11R6/lib’

に変更します。(X11R6の部分は、/usrディレクトリでみつけたディレクトリ名にしてください。)

いよいよHTKのインストール

Cygwin上で htk/フォルダに移動します。Cygwin で、Windows の(マイ)コンピュータ(ー)に相当するパスは /cygdrive/c なので

cd /cygdrive/c/…(自分の環境に合わせてください)…/htk

のように入力すると移動できます。移動できたことを確認の上で、

./configure –prefix=/usr/local (– はハイフン2つです。環境によってはダッシュのようにも見えてしまいますが…)

を入力して実行。

あとは、

make all
make install

で、HTK の Cygwin へのinstallが完了します。インストールされたものは、

Windows 表示では C:\cygwin\usr\local\bin
Cygwin 表示では /usr/local/bin

にあります。

WindowsからPCを使い始めて、コマンドプロンプトを使ったこともない人にとっては、CUI (Character User Interface) の世界は大変苦しい作業だったと思いますが、これはまだまだ続くので頑張りましょう。

HTK を呼び出して動く p2fa をどう使えばいいのかというのが次の話になりますが、これは機会を改めます。

超大規模音声研究ワークショップ(VLSP 2011)

前の記事で触れた、New Tools and Methods for Very-Large-Scale Phonetics Research (VLSP) というワークショップに参加しました。場所はフィラデルフィアのペンシルベニア大学です。発表しようと思って無理矢理アブストラクトをでっち上げたものの、採択されませんでした。今となっては採択されなくてよかったと思います。ここでのいろいろな発表の質を見て…というのもありますが、何よりも、あれから体調を崩して、研究が進められるような状況ではなくなってしまっていたからです。それどころか、ワークショップへの参加自体が危ぶまれるような状況でした。

まぁ、何とか来ることができたのはよかったです。但し、体調のせいで p2fa のチュートリアルには参加できず(まあ、参加せずとも、とりあえずは使えるようになったので―このことについては別に記事を書かねばなりませんね―それは問題なかったのですが)、昨日も今日もオーラル発表への集中力がないことおびただしい。ポスターセッションでも、あまり有意義な話はできませんでした、おもしろいものがなかったという意味ではなく、どんなものでも興味を持つだけの知的体力が僕に欠けていたということですね。Bill Labov を見ていると、その点がすごいなと思いました。ポスター1枚1枚で議論をしていましたから…あのお年で。

ただ、来た甲斐がなかったというわけでは断じてありません。昨日1日目の Plenary speakers の1人が、あの Daniel Hirst だったからです。実はフランス人ではなく、フランスに長く住んでいるイギリス人であることを自ら明かしていましたが(これで、彼の名字の読み方について悩まなくて済みます。”ハースト” でいいんですね)、基調講演そのものよりも、ポスター発表の場所で、直々に momel-intsintの使い方を具体的に教えてもらえたからです。それまで、ヘルプを見ながら、あれこれ考えても頭に入ってこず、何もしないままに放置していただけに、大きな進歩です。

但し、intsintの TextGrid が生成されるところまでは行きませんでした。Momelの計算まではできたのですが、Intsintの計算のところで、たまたま僕のある特定のファイルでしか生じないようなスクリプトのエラーが出て、止まってしまったのです。Daniel からは、スクリプトを直すためにデータとエラーメッセージを送ってくれと頼まれました。もちろん僕は送りますよ。だって、そうでないと自分の研究が進まないから。それに Daniel も、これがこういうものを公開することのいい点だと言っていましたしね。

…というわけで、結局このワークショップに参加していちばん話した相手は、Daniel ということになりました。Bill Labov や Mark Liberman と何か話はできないかな…と思って来たんですが、やはり主催者側で有名人は忙しい。かろうじて、Mark と visiting scholar を受け入れているかどうかの話は少しだけできました。

研究テーマだけのことを考えれば、在外研究はこのペンシルベニア大学にするのがもっとも理にかなっていますからね。でも、もっと情報収集を急がなくては。たった1年先のことになってきましたからね。

『スヌーピーと音読するフォニックス式こども英単語 Level 1』(岩崎書店)について

この本には監修者として僕の名前が載っています。監修の依頼を頂いたのは、実は今年の7月のことでした。無事に刊行されたようで、自宅に献本が5冊届いて、相方は大喜び。ママ友や親戚(相方の妹と弟には子供がいるので)にプレゼントして回る!と言っています。書誌情報は下のリンクをご覧下さい。

http://www.iwasakishoten.co.jp/products/4-265-05711-X.html
http://www.snoopy.co.jp/newsdesk/2010/11/level_1.html

それにしても、「スヌーピー公式サイト」なんてものがあって、グッズ情報が載るんですねえ。関係グッズを全て管理下に置いて、キャラクター価値の維持に努めているということですね。

実を言うと、監修を引き受けてから原稿を見たときは、「マジかよ…」と思いました。僕の本を読んで書いたということだったのですが、英語教育や音声学に関しては素人の著者さんだったので、今にして思えば当然のことですね。、よっぽど断ろうかと思ったのですが、乗りかかった船で、先方も頼りにしてくれているということで、頑張って修正意見の赤を山のように入れました。それにあまりにも時間がかかったので、その時書いていた論文の締め切りを逃してしまったぐらいです。

しかし、そんな苦労はありましたが、著者のかたが自分で現地レコーディングをした後で、「先生のおっしゃっていたように、カタカナ部分にあまり神経質になっても意味が薄いという気がしました。あくまでもCDの音源を聞いて「耳」で判断してもらう本にしたいと思います。」という理解に達してくれたので、やった甲斐があったと思ったのでした。

もっとも、だからといって、この本に僕の「思想」が全て反映されているわけではないことは、おことわりしておかなければなりません。これはあくまでも、僕の意見を聞いたり、自分で録音を仕切ったりしているうちに到達した、著者の浅井さんの考えによる本です。7月に最初にお会いした時の考え方はかなり違っていましたが、僕から見て、好ましい方向へと彼の考えが発展したことで、このような本になってくれたというわけです。

(この仕事のために締め切りを逃した論文も、結局3ヶ月遅れで先月受理してもらえましたし、どうにか全てがめでたしめでたしに終わったと言えましょう。)

出版社のサイトを見ると、この本の対象者は「小学校高学年 ~ 一般」なんですね。図らずも、小学校5・6年での外国語(英語)活動必修化のタイミングにあった刊行になっていますが、この本を僕が監修したのは、小学校英語に対する僕の考え方の反映でもありません。

小学校英語に関しては、「活動」などという中途半端なものではなく、きちんとした教員養成を行って準備をした上で腰を据えてやるのなら、強硬に反対する理由はない、というぐらいのことを思うぐらいです。そして、ちゃんとした準備ができていないままに、中腰で始まろうとしているように見えることにこそ、問題を感じます。

いや、これは余談でした。こども向けの本ではありますが、パラパラ眺めているだけでも結構楽しいので、書店で見かけたら是非手に取ってみて下さい。

HTKのコンパイルに苦闘中

ともあれ、言われたとおりに HTK のソースコードを入手してコンパイルしてみました。コンパイルには、Microsoft Visual Studio 2010 Express を使いました。(2008, 2005 も使ってみましたが、結果は同じでした。)

何故か、Windows 用の zip 圧縮ファイルを展開したものは文法が間違っているなどというエラーが出て全くコンパイラが機能しなかったので(UNIXを前提としていると思われる) tar.gz の方を使ったら、無事にコンパイラは機能し、HTKを構成する種々の実行ファイルができました。但し、処理中に

Microsoft(R) Program Maintenance Utility Version 10.00.30319.01
Copyright (C) Microsoft Corporation.  All rights reserved.
cl : コマンド ライン warning D9035 : オプション ‘GX’ の使用は現在推奨されていません。今後のバージョンからは削除されます。
cl : コマンド ライン warning D9036 : ‘EHsc’ を使用してください (‘GX’ は使用不可)
cl : コマンド ライン warning D9002 : 不明なオプション ‘/ML’ を無視します
cl : コマンド ライン warning D9002 : 不明なオプション ‘/G5′ を無視します

というエラーメッセージが出続けていたのが気になりました。

まずは、p2fa のドキュメントの最初に書いてある、Python のスクリプト align.py の使用を試みました。コマンドラインの記述方法は

python align.py [音声ファイル名] [対応する単語正書法表記のテキストファイル名] [生成したいTextGridファイル名]

でしたが、コマンドラインの文法が違う、というエラーが出て全く処理されませんでした。もっとも、仮にうまくいっていたとしても、これは1つのファイルしか一度に扱えないようです。(バッチファイルを書けば、恐らく多数ファイルを一気に処理することもできるとは思いますが。)

そこで次に、”Doing Forced Alignment The Hard Way” とp2faのドキュメントに書かれた、HTK の HCopy.exe と HVite.exe を直接使うやり方を試してみました。

まず、音響特徴を抽出するとして、

D:\Users\Takehiko_Makino\(省略)\htk\bin.win32\HCopy -T 1 -C D:\Users\Takehiko_Makino\(省略)\p2fa\model\16000\config -S D:\Users\Takehiko_Makino\(省略)\p2fa\code_erjprelim0.scp

というコマンドを実行しました。単純化すれば、

HCopy -T 1 -C ./models/1600/config -S code_erjprelim.scp

ということです。code_erjprelim0.scp ファイルは、[音声ファイル名] [スペース] [生成すべきファイル名.lab] を各行に並べたものです。 “./models/1600/” は p2faの16kHz用の設定ファイルが置いてあるフォ
ルダです。これは特にエラーメッセージも出ずにうまく機能したように見えました。

次に、そこから Praat の TextGrid を生成するということで、

“D:\Users\Takehiko_Makino\(省略)\htk\bin.win32\HVite” -T 1 -a -m -I
“D:\Users\Takehiko_Makino\(省略)\p2fa\transcript_erjprelim.mlf” -H
“D:\Users\Takehiko_Makino\(省略)\p2fa\model\16000\macros” -H
“D:\Users\Takehiko_Makino\(省略)\p2fa\model\16000\hmmdefs” -S
“D:\Users\Takehiko_Makino\(省略)\p2fa\lab_erjprelim.scp” -i
“D:\Users\Takehiko_Makino\(省略)\p2fa\align.mlf” -p 0.0 -s 5.0 “D:\Users\Takehiko_Makino\(省略)\p2fa\model\dict” “D:\Users\Takehiko_Makino\(省略)\p2fa\model\monophones”

を実行しました。単純化すれば、

HVite -T 1 -a -m -I transcript_erjprelim.mlf -H ./model/16000/macros -H ./model/16000/hmmdefs -S lab_erjprelim.scp -i ./align.mlf -p 0.0 -s 5.0 ./model/dict ./model/monophones

で、transcript_erjprelim.mlf は、処理すべき音声ファイル名と、それに対応する正書法の文を全部大文字で単語ごとに改行し、更に単語間のスペースを小文字のspで、やはり毎回改行して記述したファイルです。

ここが問題で、ファイル名のところを、見本に従って

“*/S2_001_HIRF06.lab”

などとすると、

Read 76 physical / 76 logical HMMs
Label file will be used to align each file
Aligning File: D:\Users\Takehiko_Makino\Documents\Job2010\VLSP2011\ERJ_prelim\S2_001_hirf06.plp
ERROR [+6550]  LoadHTKLabels: Junk at end of HTK transcription
FATAL ERROR – Terminating program D:\Users\Takehiko Makino\(省略)\htk\bin.win32\HVite

つまり、HTK表記の末尾にゴミがあると言って異常終了します。

Windows を使っているのにフォルダ名の区切りが “/” になっているのはおかしいと思って、Windows風に

“*\S2_001_HIRF06.lab”

とすると、

ERROR [+5010]  SetScriptFile: Cannot open script file D:/Users/Takehiko_Makino /(省略)/p2fa/lab_erjprelim0.scp
ERROR [+5020]  InitShell: SetScriptFile failed on file D:/Users/Takehiko_Makin o/(省略)/p2fa/lab_erjprelim0.scp
ERROR [+3200]  HVite: InitShell failed
FATAL ERROR – Terminating program D:\Users\Takehiko_Makino\(省略)\htk\bin.win32\HVite/

つまり、このファイル自体が開けないと言って異常終了します。しかも、それを言うときのフォルダ名の区切りが、Windowsなのに何故か “/” になっています。

何となく、Unixを前提としていると思われる tar.gz 圧縮のソースコードを使ったことに問題があり、それがコンパイル時のエラーメッセージに現れていて、このような結果になっているような感じがします。

しかし、Windows用の zip に入っているソースコードは、文法が間違っているというエラーが出てコンパイル自体が進まないのです。

あるいは、HTKのサイトに

The distributed version of HTK3 should build on Linux, Solaris, IRIX, HPUX, Mac OS/Xand FreeBSD. If it doesn’t, please file a bug report. HTK has also been successfully built on Windows NT, 2000 and XP (probably works on Vista too).

とある中、僕のWindows は 7 なので、それが原因になっているのでしょうか。Vista でさえ、「多分」としか書いてないのですし…。

ノースウェスタン大学の技官?からは、問題があれば助けられる、との言葉をもらっています。また、ペンシルベニア大学に尋ねてみるという方法もあるでしょう。自分でもネットで解決方法を探しています。

しかし、まずは、科研費の研究分担者にしてもらっている、他大学の工学部の先生、あるいはその学生さんに、解決法が分かる人がいたら助けてもらおうと思い、問い合わせ中です。何とか解決法が見つかるといいのですが…。

もっとも、解決しなくても、当面全く研究ができないというわけではありません。p2faにはオンライン版があり、音声ファイルを1つずつ、ちまちまと送れば結果を得ることがで得きるからです。

12月1日(明日!)にアブストラクトが締め切りの、来年1月末に開催される VLSP (Very Large-Scale Phonetic reserach) というワークショップがあり、これには p2fa のチュートリアルがあるため参加する方向なので、ここへの応募ではそうするしかないですね。(自分で発表する形の参加の方が、繰り越しの利かない科研費分担金が使えるので望ましいのです。駄目なら個人研究費を使うしかないのですけど。)

音声ファイルから音声表記を生成できるツールを探す

僕が研究に使っている Buckeye Corpus は、その構築時に ESPS Aligner というツールを使ったとドキュメントにあります。これは、音声ファイルと、それに対応した正書法による文を含んだテキストファイルがあれば、自動処理により、(アメリカ)英語発音を前提にした音声表記を、Praat の TextGrid として生成してくれるというもののようです。自動ラベリングは完璧ということはあり得ないので手動修正が必ず必要ですが(もしも完璧なら、それは音響音声学の完成=終焉を意味しますが、そういうことはちょっと考えられないですね)、このツールが作業効率を飛躍的に高めたことでしょう。

しかし残念ながら、ESPS Aligner は現在手に入らないようです。

僕がやろうとしている研究テーマの中には、日本人話者による英語読み上げ音声をコーパス化してその特徴を探ろう、というものがあります。当然ながら、Aligner が使えればいいなと思いました。日本人発音による英語ですから、英語には存在しない音も含まれていて、そのために処理の精度は低くなることが予想できますが、それでもゼロからラベリングするのとは比べものにならないくらい効率的でしょう。実際、僕はゼロからラベリングを初めてみたものの、あまりにも時間がかかるため、作業時間が見つけられずに停滞状態にあります。

僕が手作業をはじめてしまったのは、Aligner が入手できないことが判ったからです。
http://www.ee.uwa.edu.au/~roberto/research/speech/local/entropic/ESPSDoc/ あたりを見ると、これは ESPS/waves+ のパッケージの一部らしいということが分かりますが、http://www.f.waseda.jp/kikuchi/tips/esps.html によれば、このパッケージ自体の販売・配布が終了しているんですね。

これは、開発元の Entropics Research Laboratory が1999年にマイクロソフトによって買収されてしまったことによるようです。http://findarticles.com/p/articles/mi_m0CGN/is_1999_Nov_1/ai_57089882/
マイクロソフトは恐らく、Entropics 買収により、その技術を生かして Windows を音声で操作することを可能にしたのだと思うのですが、その過程で、折角のツールを埋もれさせてしまったのは残念です。(もっとも、http://htk.eng.cam.ac.uk/docs/history.shtml を見ると、Entropics から引き継いだものでも、Hidden Markov Model Toolkit のように、マイクロソフトが公開して利用できるようにしているツールもあるようですね。いずれにせよ、waves+/AlignerはUNIXで動くプログラムだったようですから、僕たちが利用するにはやっぱり壁があったと思います。)

そう思ってあきらめていたのですが、その後、展開がありました。今年秋、日本(幕張メッセ)で行われた Interspeech 2010 のサテライトワークショップ Second Language Studies: Acquisition, Learning, Education and Technology (L2WS。前回の記事参照)に参加したところ、Buckeye Corpus を作ったオハイオ州立大学所属の人が自作(?)コーパスを使ったポスター発表をしていたのです。彼女の研究内容に立ち入らないのは失礼かなと思いながら、これは音声表記をしたのか、したのなら、どうやって、と聞くと、Northwestern 大学の NU Aligner http://groups.linguistics.northwestern.edu/documentation/nualigner_home.html を使った、あなたも研究者だから使用許諾をもらえば使えるはずだ、とアドバイスをもらいました。

そこで、Northwestern大学言語学科の問い合わせ先にメールを送ると、Tech Support Consultant からの返事で、NU Aligner は HTK(=Hidden Markov Toolkit)を GUI で使うようにしたものに過ぎないのでと前置きして、更なるアドバイスをもらいました。そこから判ったのは以下のようなことです。

まず、ペンシルベニア大学のサイト http://www.ling.upenn.edu/phonetics/p2fa/ の、The PPL Forced Aligner Online Processing System で、オンライン上で1ファイルずつ Aligner の処理を行うことができます。

オンラインでなく、自分のコンピュータ上で、バッチ処理などで多数のファイルを処理するには、同じページにある The Penn Phonetics Lab Forced Aligner (P2FA) を使えばいいそうです。但し、これを使うには、HTK http://htk.eng.cam.ac.uk/ を自分のコンピュータ用にコンパイルしてインストールし、更に Python http://www.python.org/ もインストールしておく必要があるということです。

(Northwestern 大学から NU Aligner の使用許諾をもらえなかったのは、僕の素性が不明だということに加えて、HTK のドキュメントにある、再配布禁止の条項が関係しているのかも知れません。)

いずれにせよ、この「HTKを自分のコンピュータ用にコンパイル」というのが問題です。ドキュメントを見ていると、Windows PC の場合、恐らく Visual Studio を使うんだろうな、とは思うのですが、NT, 2000, XP については動作報告があるものの、Vista については「多分動く」としか書いていないんですよね。僕のメインのPCは更に次の世代の Windows 7 なんですけど。

たまたま最近、友人が『ゼロから学ぶ!最新C/C++』http://itpro.nikkeibp.co.jp/article/MAG/20101005/352599/?ST=cloud という本を上梓し、僕に送ってきてくれたのですが、その中には Visual Studio 2010 Express の入った DVD-ROM が入っていたので、これで試してみればいいのでしょう。

恐らく、コンピュータに詳しい人なら、ここまで僕が書いた情報だけで、自分で P2FA を動かすことができるようになるんだろうな…。僕はもう少し時間がある時にじっくりやってみます。

2010年の音声関係の国際会議

以前の記事に書いた Accents 2008 の Proceedings ですが、僕が気がつかないうちに、今年の2月に刊行されていました。http://www.c-s-p.org/Flyers/Issues-in-Accents-of-English-2–Variability-and-Norm1-4438-1736-8.htm 当然、僕の発表は含まれていないわけですが、聞いた発表の中にとても資料的価値の高いもの(具体的には Marta Nowacka, “Do Polish and English raters have the same ear for nativelikeness? Native and non-native perception of foreign accented speech: A review of current literature and a report on the research.” )があることもあり、早速注文しました。ただ、上記のカタログページにある目次ページへのリンクが現時点で機能していないので、実際にその論文が含まれているのかどうか、定かではないのですが、完成度の高い発表だったのでまず大丈夫でしょう。

なお、まだ検索エンジンではヒットしてきませんが、今年の Accents 2010 の日程も決まったようで、Webサイトもあります。http://www.filolog.uni.lodz.pl/accents2010/ 12月9日(木)~11日(土)、発表応募締め切りは9月19日です。

せっかくなので現時点で僕が知り得ている今年の音声関係の国際会議をここに紹介しておきましょう。

  • Interspeech 2010。9月26日(日)~30日(木)、幕張メッセ。発表応募締め切りは4月30日(金)。
  • Second Language Studies: Acquisition, Learning, Education and Technology (Interspeech 2010 のサテライトワークショップ)。9月22日(水)~24日(金)、早稲田大学。発表応募締め切りは5月15日(土)。
  • DiSS-LPSS Joint Workshop 2010—The 5th Workshop on Disfluency in Spontaneous Speech and the 2nd International Symposium on Linguistic Patterns in Spontaneous Speech—(Interspeech 2010 のサテライトワークショップ)。9月25日(土)・26日(日)、東京大学本郷キャンパス。発表応募締め切りは5月31日(月)。
  • 8th TSLL and 2nd PSLLT (8th Annual Conference on Technology for Second Language Learning held in conjunction with The second annual conference of Pronunciation in Second Language Learning and Teaching)。9月10日(金)・11日(土)、アイオワ州立大学。発表応募締め切りは5月15日(土)。Linguistlist では4月1日締め切りとアナウンスされていて、Linguistlistのシステムを利用した応募はもう閉じられているのですが、ここに引用したリンクでは5月15日とされています。恐らく延長されたのでしょう。
  • PAC 2010: Phonological Variation and Change in Contemporary English. 9月16日(木)・17日(金)、Université Paul Valéry(フランス・モンペリエ)。PAC (La Phonologie de l’Anglais Contemporain: usages, variétés et structure、英語では The Phonology of Contemporary English: usage, varieties and structure) 主催のワークショップ。去年僕が参加し損なった会議です。去年の9月21日付のメールで通知がありました。現時点でまだWebサイトはありませんし発表応募締め切りなどの詳細もアナウンスされていませんが、去年と同じであれば4月29日になります。

全部に参加すると、9月は10・11日、16・17日、22~30日と、大変な日数を学会に費やして楽しむ(?)ことができます。このほかに、国際会議ではありませんが、日本音声学会の全国大会もあるはずですし…(Interspeechと日程がだぶらないようにするのが大変そうですが、今のところまだアナウンスはありません。10月2・3日になれば理想的ですね)。

個人的には、去年行き損なったPACに是非とも行ってみたいです。去年のキャンセルが選考に響かなければいいなと思っているのですが、採択されなくても、とにかく行ってみるというのも悪くないと思っています。Accents 2010 に関しても、一昨年の参加が、Proceedings への投稿に至らないという不本意な結果だったので、行きたいという気持ちはあります。今年は一応、去年とは違って入試関係の仕事はぶつかってはいないので、参加への障害はありません。もちろん、授業を休講にしないと行けないので、安易には参加を決められませんけど。

2nd Belgrade International Meeting of English Phoneticians (BIMEP 2010) – Conference Programme

Wednesday 24 March 2010

9.00 REGISTRATION DESK OPENS (Svečana sala)

10.00 OPENING CEREMONY (Svečana sala)

Session A, Moderator – Ružica Ivanović

10.30 Brian Mott (Spain) Vowel frequencies in traditional Cockney and popular London speech

11.00 Bojana Jakovljević (Serbia) VOT transfer in production of English stops by Serbian native speakers

11.30 Biljana Čubrović (Serbia) Evolution of a phonetic phenomenon – the case of Voice Onset Time

12.00 COFFEE BREAK

Session B, Moderator – Rastislav Šuštaršič

12.15 Tvrtko Prćić (Serbia) The role of modernized prescriptivism in teaching pronunciation to EFL university students

12.45 Snezhina Dimitrova & Tsvetanka Chernogorova (Bulgaria) English pronunciation models and tertiary-level students: a Bulgarian perspective

13.15 Galina M. Vishnevskaya (Russia) English pronunciation norms and the case of Russian English

13.45 Eugenia Ledayeva (Russia) English phonetics for Russian learners in the English as the second foreign language classroom

14.15 LUNCH

15.00 PLENARY LECTURE

Professor John C. Wells (United Kingdom) Pronunciation preferences and LPD3

Session C, Moderator – Anastazija Kirkova-Naskova

16.15 Maja Marković & Bojana Jakovljević (Serbia) Some controversies about /v/ in Serbian, transfer in English and other related issues

16.45 Rika Aoki (Japan) Perception and production of English /r/ and /l/ by Japanese university students in various kinds of tasks

17.15 Irina Tverdokhlebova (Russia) Beyond the segmental level: pedagogical requirements for future EFL teachers practical phonetics course

17.45 TEA BREAK

Session D, Moderator – Takehiko Makino

18.00 Irina Anashkina (Russia) The role of the vocal code of an oral text in formulating its axiological assessment

18.30 Klementina Jurančič Petek (Slovenia) Research strategies in L2 phonological fieldwork investigation and significance and/or reliability of results

19.00 Vladimir Filipov (Bulgaria) The sign character of intonation

20.30 CONFERENCE DINNER

Thursday 25 March 2010

Session A, Moderator – Klementina Jurančič Petek

9.00 Takehiko Makino (Japan) Pronunciations in connected speech: a survey of weak forms in a spoken corpus of American English

9.30 Maja Marković (Serbia) Native and non-native realizations of boundary segments: a case of Serbian learners of English

10.00 Vesna Polovina & Miloš Đurić (Serbia) The relevance of phonological criterion in delimiting compounds

10.30 Evgenya V. Tumanova (Russia) Accent placement in English collocations

 

11.00 COFFEE BREAK

Session B, Moderator – Snezhina Dimitrova

11.30 Ingrid Pfandl-Buchegger & Eva Eberl & Isabel Landsiedler & Milena Insam (Austria) Hearing the difference – an innovative approach to the teaching of pronunciation

12.00 Anastazija Kirkova-Naskova & Dimitar Trajanov (Macedonia) Using web technologies in L2 phonological research: methodological issues and implications

12.30 Rastislav Šuštarš(Slovenia) Learning from students’ errors: English phonetics theory exam

13.00 LUNCH

14.00 PLENARY LECTURE

Tatjana Paunović (Serbia) Qualitative methods in phonetic research – a contradictio in adjecto?

Session C, Moderator – Brian Mott

15.15 Yulia Arayamova (Russia) Prosodic interference as the key factor for negative perception of international airlines professional discourse

15.45 Zoran Marošan & Vuk Marković (Serbia) Phonological problems in the acquisition of English medical terms

16.15 Nadežda Silaški & Tatjana Đurović (Serbia) An increase in imported goods, imports have increased – the role of teaching pronunciation in an ESP classroom

16.45 TEA BREAK

Session D, Moderator – Galina M. Vishnevskaya

17.00 Miloš Đurić & Natalija Panić (Serbia) Prosodic characteristics of directly and indirectly reported speech in spoken discourse in contemporary English and French TV talk shows

17.30 Isao Ueda & Hiroko Saito (Japan) On the production and knowledge of tonic misplacement by Japanese learners of English

18.00 Ken-Ichi Kadooka (Japan) Punch line paratone in English

18.30 Adi Fejzić (Bosnia-Herzegovina) Orthographic key to understanding Scottish English as portrayed in Irvine Welsh’s Trainspotting

19.00 CONFERENCE CLOSING

フォロー

Get every new post delivered to your Inbox.

現在79人フォロワーがいます。