1. HOME
  2. ブログ
  3. “ちがい”を乗り越えるアプローチがビデオ会議ツールを進化。開発者の鈴木さんにインタビュー

“ちがい”を乗り越えるアプローチがビデオ会議ツールを進化。開発者の鈴木さんにインタビュー

"ちがい"を乗り越えるアプローチがビデオ会議ツールを進化。開発者の鈴木さんにインタビュー

新型コロナウイルスの世界的な流行がいまだ沈静化する兆しが見えない2020年。その状況への解決手段としてリモートで打ち合わせを行うWeb会議システムを利用することが一般的となってきた。そんな中で、会議中の会話にリアルタイムでテロップを載せるツールが話題となっている。その発端となったのは、落合陽一氏がアップしたこのツイートからだった。

このツイートが投稿されて以降、様々なアプローチでテロップを掲載する手法が試されたが、筑波大学大学院に所属する鈴木一平さん(https://1heisuzuki.com)がネットに公開したアプリ(https://1heisuzuki.github.io/speech-to-text-webcam-overlay/)がひときわ大きな注目を集めた。開発のきっかけとなったのは鈴木さんの大学の研究室内で起きた”ある問題”への対処だったという。

「withコロナ」の可能性を追求するseek∞は、鈴木さんにコンタクトを取り、アプリ開発の経緯から鈴木さんの研究分野についての話を聞きながら、アプリが産まれた背景に迫ってみた。
その話からは、インターフェースの可能性やダイバーシティ(多様性)へのアプローチなど、一歩先の現実を見据えた様々な思いを知ることができたのでここで紹介したい。

尚、鈴木さんには7月29日(水)に開催する「seek∞」にもご登壇いただき、この時話してもらった内容をさらに深堀りする予定となっている。


「研究室でのミーティングがきっかけ」-字幕アプリ開発の経緯-

寺:鈴木さん、本日はよろしくお願いします。

鈴木:お願いします。

寺:今回、鈴木さんが開発されたビデオ会議に字幕を合成するシステム、様々なニュースサイトや「めざましテレビ」でも取り上げられて話題になりましたが、開発の経緯を教えて下さい。

鈴木:はい。私は筑波大学の研究室に所属しているのですが、研究室のメンバーには、耳が聞こえない方もいます。これまでもその研究室のミーティングでは、スマートフォンアプリなどの文字起こしツールを使っていたんですね。それが新型コロナウイルスの影響もあってオンラインのミーティングがメインになってしまうと、彼にとっては今誰が話しているのかが、すごく分かりづらくなりました。
スマートフォンで文字を追いかけてからパソコンを見て、”あ、今誰が話してる”ということを認識するという動作がすごく難しい、と。

ただ、リアルタイムで会話を展開することを重視したい、という要望が彼自身にもあったので、どのように実現できるかを色々と考えました。
研究室の先生が、書き起こしアプリとビデオスイッチャーを使い、それを顔の前で合成する方法を試していました。その方法だと話している人の顔を見ながら、同時に字幕も見ることができるのです。

耳の聞こえない方は口の動きを見ながら話を聞くことも多いそうです。それが同時に見られるようになり、また話している人の上に字幕が別々に表示されるので誰が話しているのかも分かる、という所まで実現できました。

ただ、Android端末が必要ですし、ビデオスイッチャーもコロナの影響で品薄なんです。私はどちらも持っていなかったので…ソフトウェアだけでうまくできないかな?ということを考えました。

既に色んな方が同様の仕組みを試されていましたが、それをなるべく簡単にしたいなと。使う時のハードルが高いと自分も使わなくなってしまうので、Webで字幕と映像を合成し、後は見せるだけでOKというものを作りました。

今回、技術的に新しい所は実は無くて、文字起こしや、後から追加した翻訳も元々ブラウザにある機能を組み合わせたものなんです。

寺:開発にかけた期間はどれくらいですか?

鈴木:最初のバージョンは半日もかかっていません。今のバージョンは、「こういう機能があったら嬉しい」といったみなさんからの意見を後から反映したものです。
元々、授業の課題で、文字起こしのAPIを試したこともありましたので。

寺:Googleが提供しているAPIは無料で使えるものですか?

鈴木:そうですね。GoogleのChromeというWebブラウザがありまして。それに組み込まれている機能です。

寺:では、実際に動かしている様子を見てみましょう。

自動字幕表示機能の導入ガイダンス動画 -近日公開-

寺:ありがとうございます。先ほど「研究室の先生が…」というお話もありましたが、それが落合陽一さんですね?

鈴木:そうです。最初に落合先生がTwitterで文字起こしの様子をアップされていて、それから色々な方が”どうやるか?”を試し始めました。

寺:とはいえ、鈴木さん自身は言語処理の分野が専門というわけではなく、今回はたまたま研究室のメンバーに聴覚に障害がある方がいて…というきっかけだったのですね。

鈴木:はい。そうです。

 

「視覚や視点を変える体験を」-ヒューマンコンピュータインタラクション(HCI)の研究成果-

 

寺:それでは、鈴木さんの専門分野を教えて下さい。ポートフォリオから代表的なものをご紹介いただけますか?

鈴木:僕は元々カメラや映像が好きで、視覚に関わる体験をコンピューターでどのように変えることができるか?という研究をしています。
例えばディズニーランドの”カリブの海賊”では、霧の中に映像が浮かび上がる演出があります。これは”フォグスクリーン”と呼ばれる空中ディスプレイの手法ですが、空中映像を自分の体やドローンから出せたら最高じゃないですか?

スクリーンの代わりに霧状の部分を作り、そこにプロジェクターで映像を映し出すのですが、その応用として霧の生成方法を工夫する研究をしています。(Gushed Light Field : https://1heisuzuki.com/projects/gushed-light-field

これは、”撮れないプロジェクター”。無断撮影を防ぐものです。「撮影しないでください」というアナウンスがあっても、撮影できる環境がある以上は、何らかの方法で撮影されてしまいます。しかし”見えるけど撮れない”という環境を作り出すことができれば、人間は何も意識せずに鑑賞に集中し、コンテンツも保護されます。特殊なプロジェクターを利用して、人間の目とカメラの特性の間を突いて表示しています。(Unphotogenic Light : https://1heisuzuki.com/projects/unphotogenic-light

また、VRゲームってプレイしている人を傍から見るとシュールな光景ですよね。でも、ジェットコースターの場合は外から見ている人も楽しめます。外から見ている人も、体験を想像できるからだと思うんです。VRゲームをプレイしている状況を、周囲の人にも可視化する方法がないかを考えて、この映像のように、スクリーンで囲んで映像を映し、外から見ても何をしているか分かるようにしました。(ReverseCAVE (共著) : https://digitalnature.slis.tsukuba.ac.jp/2017/05/reversecave/

このようにディスプレイやカメラの使い方に着目しながら、ある時はインターフェースを作ったり、それまでの視点を変えるようなアプリケーションを作ったりしています。

寺:この分野を何と呼べば良いですか?

鈴木:ヒューマンコンピュータインタラクション(HCI)と呼ばれる分野の中に位置づけられると考えています。

 

「意識せずに使いたい」-鈴木さんが”インターフェース”に求めるもの-

寺:「大学と社会との接点」、すなわち大学での研究がどのように世の中の役に立つかという事について、普段どのような事を考えていますか?

鈴木:”意識せずに使いたい”という事を考えています。
説明が少し難しいんですが、間(あいだ)に”何かがいる”感じも好きなのですが、それがない状態がいいなと思っています。
”面倒くさくない”というのも重要ですね。例えばさきほど紹介した”撮れないプロジェクター”は、意識しなくても保護された状態を作ることができます。”空中ディスプレイ”もディスプレイを意識することなく映像が出てくるとか。そういう事を大事にしたいなと思います。

寺:意識せずに何かが出来るという事が、鈴木さんの中で軸となっていることなのですね。

鈴木:はい。その”意識しない”っていうのは”スッと入ってくる”という感じです。使いやすさにもつながりますが、使う人にとって”違和感がない”ことが重要だと思ってます。
ただ、万能なインターフェースが存在する訳ではなく、使いやすさは人によって違います。今回の件ですと、耳の聞こえない方のために…というよりも、彼自身がどうしたいかが大切でした。ユーザーと一緒に作ると言いますか、それぞれのユーザーに本当に馴染むインターフェースが重要なのかなと思っています。

左:寺記夫/右:鈴木一平

左:寺記夫/右:鈴木一平

 

「ちがいを乗り越える」「とあえず試す」「オープンソース」-字幕アプリを生み出した背景にあるもの-

寺:鈴木さんの研究室内をイメージしながらお話を聞いていました。普段からダイバーシティ(多様性)を尊重するようなカルチャーがあるのですか?

鈴木:元々、xDIVERSITY(クロスダイバーシティ https://xdiversity.org/)というプロジェクトに関わっていて、ダイバーシティをコンピュータによってどのように解決できるかというのはよく議論になります。

また、今回のように”とりあえず試す”っていうのはよくやっていることです。なるべくなら既存のもので作った方が早いので、そのような気軽に使えるものの知識をたくさん蓄えておいて、それを元に作るという方法はよくやっています。

寺:オープンソースで公開することは鈴木さんにとってどのような体験になりましたか?

鈴木:今回は、Googleのおかげで無料のツールで作れたのでオープンソース・無料で公開を行いました。有料ツールの場合、アクセスが増えると私が支払をする事になりますので(笑)また、プログラムを公開することで、他の方が別のアプリケーションを開発するのに役立ったり、自分がすぐに実装できない機能の追加をしていただけたりすることを期待して、ライセンスも含めオープンにして公開にしました。(GitHub:https://github.com/1heisuzuki/speech-to-text-webcam-overlay

実際に4人の方に追加機能の実装と提案をして頂けました。例えば設定の保存機能やカメラ選択機能は、私が実装したものではないです。他にもGoogle翻訳とはまた別の翻訳サービスを組み込んだバージョンを作ってくれる方もいたり。自分自身もいろんなサイトを参考にしましたし、他の方にも役立つかもしれないと思い、オープンソースという形にしました。

寺:Zoomのようなビデオ会議ツールにもオープンソースのアプローチがあり得るかもしれないですね。

鈴木:そうですね。例えばカスタマイズ可能なビデオ会議のツールとか。Google Chromeはベースがオープンソースですし、自分の用途に合わせて拡張機能を作ったり入れたりする事ができますよね。ビデオ会議ツールでも、そのような拡張が気軽に可能なものが出てきたらおもしろいんじゃないかな?と思います。実はZoomも開発者キットを公開しているので、それを活用したツールが出てくるかもしれません。

寺:本日はありがとうございました。また7月29日開催のseek∞でもこのテーマを掘り下げてお話をお伺いさせてください。

鈴木:よろしくお願いします。

 

左:寺記夫/右:鈴木一平

関連記事