俺の横槍

日々読むニュース等の感想とか

HOME ≫ Entry no.2550 「動画：自分の声と顔で26か国語を話す通訳アバター技術、マイクロソフトがデモ（Engadget 日本版）」 ≫ [2555] [2554] [2553] [2552] [2551] [2550] [2549] [2548] [2547] [2546] [2545]

[PR]

2025.07.13 ｜Category …

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

人気ブログランキングへ

at 17:30

動画：自分の声と顔で26か国語を話す通訳アバター技術、マイクロソフトがデモ（Engadget 日本版）

2012.03.13 ｜Category …テクノロジー

着るプロジェクタや 2桁速いタッチパネルなど未来感あふれる発表を連発しているマイクロソフトリサーチが、今度は26か国語で喋れる音声翻訳アバター

▽つづきはこちら

面白そうだが。

自分の姿をしたモノが異国の言葉を喋っているのを見たら、変な気分になりそうだ。

以下、全文。

Engadget 日本版 3月13日(火)1時29分配信

着るプロジェクタや 2桁速いタッチパネルなど未来感あふれる発表を連発しているマイクロソフトリサーチが、今度は26か国語で喋れる音声翻訳アバター技術を公開しました。「機械翻訳」も「テキスト読み上げ」も品質はともかく歴史は古いありふれた技術ですが、マイクロソフトの研究成果がすごいのはネイティブの言葉で喋った音声を分解・再構築して、あたかも自分が習得して喋ったかのような外国語音声を作れること。

動画：自分の声と顔で26か国語を話す通訳アバター技術、マイクロソフトがデモ

さらに、普通のウェブカメラで撮った映像から自動的に3Dモデルと表情のテクスチャを生成して、リアルな喋るアバターを作る技術も公開されています。組み合わせれば、映画やゲームのCGでは特殊な機材と膨大な時間を使って作られるフォトリアルな動く3Dアバターを2D動画から作りだし、しかも本人の声でリアルタイムに外国語を喋らせることすらできます。

TechFest 2012 イベント基調講演で披露された、「クレイグ・マンディ (最高研究戦略責任者) が喋れないはずの中国語で挨拶」のデモは続きに掲載した動画をどうぞ。
上の動画はマイクロソフトリサーチ担当シニアVP Rick Rashid氏のTechFest 2012 キーノートより。マイクロソフトの最高研究戦略責任者クレイグマンディ氏のネイティブ英語スピーチ(1時間分) から中国語のスピーチを生成し、本人のアバターに喋らせたデモ。解説はMSR Asia プリンシパルリサーチャーの Frank Soong氏。

(SilverLight の埋込みが見られない場合はリンク先でキーノートの各種メディアを直接落とせます。)

3D Photo-Real Talking Head プロジェクトページの解説によれば、「リアルタイムに喋れるフォトリアルポリゴン頭」のポイントは、3Dモデルを簡単な剛体にして処理を軽くしつつ、くちびるの動きや表情といった再現が難しい部分は2D映像から生成したテクスチャのアニメで賄っていること。テクスチャもあらかじめすべての発音や表情に対応した映像を撮影する必要はなく、含まれてないものも推測・補完で生成するアルゴリズムを用いています。

最後にもうひとつ。仮想クレイグ・マンディーに日本語を喋らせてみたデモ。

こちらは研究ページでもわざわざ " (for fun ^_^) " と断っており、英語 - 中国語ほど洗練されていない単なるお遊びのようです。が、逆に英語アクセントのまま日本語を読み上げている妙なリアルさがあります。

マイクロソフトの研究者が挙げる実用途の例は音声翻訳のほか、本人のように喋れるエージェント、ゲーム、テレプレゼンス、そして外国語の発音学習など。

いずれ技術が進み一般にリリースされれば、古い外国映画からバーチャル俳優を生成して日本語で好きな演技をさせて遊ぶようなこともできるかもしれません。リップシンクした読み上げは外国語の勉強にたしかに便利そうですが、「26か国語を自在に操るもうひとりの自分」はやる気を引きだしてくれるのか砕くのか難しいところです。

最終更新:3月13日(火)1時29分