人工知能 (AI) と機械学習 (ML) がSFの世界から現実の世界へと移行するにつれ、この種のシステムを簡単にプロトタイプ化する方法が必要になっています。AI/MLにはデスクトップ コンピューター、あるいはRaspberry Piのようなシングルボード コンピューターでも十分かもしれませんが、システムを大幅に高速化し、より高性能にするためのシンプルなプラグイン デバイスだけが必要な場合はどうでしょうか。
偶然にも、 Googleの Coral TPU Edge Accelerator (CTA) や Intelの Neural Compute Stick 2 (NCS2) など、複数のオプションから選択できます。どちらのデバイスも、USB経由でホスト コンピューティング デバイスに接続します。NCS2はVision Processing Unit (VPU) を使用し、Coral Edge AcceleratorはTensor Processing Unit (TPU) を使用します。どちらも機械学習専用のプロセッサです。これら両方のデバイスの統計については以下を参照してください。
この記事は、 ニューラル USBアクセラレータとして機能するCompute stick 2は、見た目は似ているものの機能が大きく異なるIntel Compute stickとは異なります。
コーラルエッジアクセラレーター
- MLアクセラレータ: Googleが設計したEdge TPU ASIC (特定用途向け集積回路)。TensorFlow Liteモデルに高性能なML推論を提供します。
- USB 3.1 (gen 1) ポートとケーブル (SuperSpeed、5Gb/s転送速度)
- 寸法: 30 x 65 x 8mm
- 価格: $74.99 (矢印)
インテル ニューラル コンピュート スティック2
- プロセッサ: Intel Movidius Myriad Xビジョン プロセッシング ユニット (VPU)
- USB 3.0タイプA
- 寸法: 72.5 x 27 x 14mm
- 価格: $87.99 (矢印)
比較する プロセッサとアクセラレータのパフォーマンス
クロック速度で数値的に比較できた昔のコンピュータCPUとは異なり、各プロセッサ/アクセラレータの比較は、もう少し微妙な違いがあり、どのように使用するかによって異なります。ベンチマークを見つけることができます。 CTAはこちら そして NCS2はこちらただし、形式は異なります。出力形式は異なることに注意してください (推論あたりの時間と1秒あたりのフレーム数)。ただし、両方のデバイスに共通する全体的なパターンをいくつか描くことができます。
まず、CTAはデスクトップCPUに追加すると非常に効果的に機能し、パフォーマンスが約10倍高速化されます。この数値は、選択したモデルによって良くなったり悪くなったりする可能性があります。上記リンクのテストによると、NCS2は、古いAtomプロセッサと比較して約7倍の速度向上を実現します。しかし、NCS2は、より強力なプロセッサと組み合わせると、限界的な結果しか得られませんでした。これらのCTAの結果はGoogleが公式に作成したものですが、NCS2の結果は独自に作成されたため、詳細度が低いことに注意してください。
NCS2は 理論的には4TOPSで実行 (1秒あたり兆回の演算速度)。奇妙なことに、CTAもまったく同じレートを誇っています。どちらもMLの結果を生成するために異なるプロセスを使用しますが、より制御された直接比較テストの数値は同等であると想定する必要があります。Intelは、オリジナルのNeural Compute Stickに比べて最大8倍のパフォーマンス向上を主張しているので、選択肢がある場合はNCS2を選択することをお勧めします。
電力面では、NCS2は低消費電力を誇りますが、それを裏付ける確かな数字は見つけられませんでした。一方、Coral Acceleratorでは、各TOPSに必要な0.5ワットが記載されています。ユーザーは必要に応じてCTAをデフォルトの速度または最大設定 (デフォルトの2倍) に設定できますが、.5W/TOPSの数値が両方の場合に適用されるかどうかはすぐにはわかりません。
特に、 Googleのドキュメント デバイスが最大速度で動作しているとき、および最高周囲温度が低下しているときに電力が伝達されるため、皮膚に火傷を負う可能性があることを警告します。本当に追加の処理能力が必要な場合を除き、通常モードで実行することをお勧めします。
ソフトウェアサポート
NCS2は、Ubuntu、CentOS、Windows 10、その他のオペレーティング システムで動作します。Open Neural Network Exchange変換を介して、TensorFlow、Caffe、ApacheMXNet、Open Neural Network Exchange、PyTorch、およびPaddlePadleをサポートできます。
CTAにはWindowsサポートは付属していませんが、Debian 6.0以降 (またはUbuntu 10.0+ などの派生バージョン) で実行できます。Coral TPUは公式にはTensorFlow Liteモデルのみを実行できます。
サイズ、デザイン、その他の考慮事項
ソフトウェア、コンピューティング、電力消費については説明しましたが、実際のビルドについてはどうでしょうか?率直に言って、どちらのデバイスも信じられないほどクールに見えます。CTAは部分的に透明なボディと、放熱用のスロットと思われるものを備えています。しかし、陽極酸化処理された青いボディと一体型ヒートシンクを備えたNCS2の洗練された青いデザインは、スタイルの競争に勝ちました。もちろん、見た目は些細な点です。
何 は 重要なのは、NCS2はCTAと同様に、 かなり暑くなりますまた、巧妙なヒートシンク設計により、取り扱う必要がある場合に中央で指を火傷するのではなく、冷却用の統合フィンを握ることができます。
NCS2は、処理能力を拡張するために複数を一緒に使用できるように設計されています。縦型のUSBハブですっきり並べられます。単一のホストコンピュータでも 複数のCTAを実行するただし、それぞれを保持する別の方法を見つける必要があるかもしれません。ちなみに、それぞれのフットプリントは似ていますが、NCS2はCTAのほぼ2倍の幅 (14 mm) があります。CTAのようなフレキシブル ケーブルではなく、非常に大きなサム ドライブのようにUSBプラグを介して接続するという事実と相まって、NCS2を多くのスペースに収めるのは困難になります。延長ケーブルやハブを選択することもできますが、検討する価値はあります。
結局のところ、NCS2とCTAはどちらもエッジ コンピューティング アプリケーションに適したデバイスであると思われます。Windowsシステムで実行する必要がある場合、またはTensorflow Liteフレームワークの外部で操作する必要がある場合、NCS2には明確な利点があります。一方、Coral Acceleratorには、より直接的な開発ボードとSoMのアナログとして、 Coral Edge TPU開発ボードとモジュールデザインをすぐに市場に投入したい場合には、より魅力的になる可能性があります。両者の機能はすべて重複しているため、次のRaspberry Piまたは同様のプロジェクトにAI/MLを追加する場合は、どちらのデバイスでもうまく機能します。