RNN-T を図示したもの。入力された音声サンプルを x、予測されたシンボルを y で表している。予測されたシンボル(Softmax 層からの出力)は、Prediction ネットワークを通して yu-1 としてモデルにフィードバックされ、これまでの音声サンプルと過去の出力の両方を元に予測するようになっている。Prediction ネットワークと Encoder ネットワークは LSTM RNN。Joint モデルはフィードフォワード ネットワーク(論文)。Prediction ネットワークは 2048 ユニットの 2 層から構成されており、640 次元の投影層がある。Encoder ネットワークには、同様の層が 8 つある。画像のクレジット: Chris Thornton |