EdgeTech+ 2025 出展概要
出展概要
■「エッジAI×読唇術」
「音」が聞こえない環境で、言葉を伝えるには?その答えの一つが「読唇術」です。当社では、口の動きだけで発話内容を読み取る「読唇術」をAIによって実現しました。
obanz-Ai™テクノロジーにより、Transformerを日本語の読唇タスク用に拡張・最適化したモデルを構築。加えて、自作データセットを用いた転移学習を行いました。
今回は、このモデルをエッジデバイスに組込み、アプリケーションとして展示いたします。ブースでは、展示物による「エッジAI×読唇術」をご体験いただけますので、ぜひお越し下さい。
【出展イベント】
EdgeTech+ 2025
日時:
2025年 11月19日(水)~21日(金)
会場:
パシフィコ横浜:展示ホール/アネックスホール
技術資料
エッジAI×読唇術
「音」が聞こえない環境で、言葉を伝えるには?その答えの一つが「読唇術」です。当社では、口の動きだけで発話内容を読み取る「読唇術」をAIによって実現しました。
obanz-Ai™テクノロジーにより、Transformerを日本語の読唇タスク用に拡張・最適化したモデルを構築。加えて、自作データセットを用いた転移学習を行いました。
今回は、このモデルをエッジデバイスに組込み、アプリケーションとして展示いたします。ブースでは、展示物による「エッジAI×読唇術」をご体験いただけますので、ぜひお越し下さい。
構成図
obanz-Ai™ Technology
BeeのAI技術 obanz-Ai™ テクノロジーにより、用途・目的に応じた最適なAIモデルを構築しました。
AI技術
- ベースモデルの中間層から口の動きの特徴ベクトルを抽出し、これを入力として後段の識別器群に転移学習させました。これにより、ゼロから学習するよりも効率よく、高精度な推論を実現しました。
- 読唇術AIの学習に必要な日本語データセットを独自に構築しました。さらに、アンサンブル学習を用いて5つの識別器に推論させることで、高度な認識精度を実現しています。
組込み技術
- Tkinterを採用し、動作の軽さとモダンなデザインを兼ね備えたUIを作成しました。低リソースなエッジデバイス上でも、快適なレスポンスを実現しています。
- AIの「目」にあたる唇検出部には、MediaPipeを使用しました。これにより、リアルタイム処理に不可欠な速度と検出精度を両立させています。
- 本システムは、高性能なハードウェアやネットワークを必要としません。AI推論を含む全ての処理を ネットワークに接続していない Raspberry Pi® 5 上で完結します。
他に挑戦したこと
- Raspberry Pi® 5 のGPU(Vulkan)を使用した高速化
Raspberry Pi® 5 のGPUのVulkanエンジンを使用するためにVulkanオプションを有効化し、ビルド・インストール・実行を試みました。
- ベースモデルの変更
英語のみのモデルから、口の動きが日本語に近い言語モデルや多言語モデルへの置換を試みました。
- ベースモデルのファインチューニング
追加の日本語データセットによるファインチューニングを試みました。
Beeのソリューション
- お客様が想定するエッジデバイス対応
- サービスを想定したデバイス選定
- 要求に合わせたAIモデルの選定
- 独自のデータを活用したAIモデルの訓練
- 組込み向けにAIモデルの軽量化・高速化
- アプリケーションを含めたアーキテクチャの提案
- 組込みソリューションの運用サポート
全て提供致します。
当社の紹介資料はこちらから閲覧いただけます。
