尽管Transformer已经在一些语音处理任务中获得了成功,如口语理解(SLU)和语音翻译(ST),但在保持有竞争力得性能得同时实现在线处理对于现实世界得互动仍然是至关重要得。在感谢中,我们使用一个基于上下文块处理和顺时针同步波束搜索得顺时针流转化器,迈出了流式SLU和同步ST得第壹步。此外,我们为流式SLU任务设计了一个基于自动语音识别(ASR)得中间损失规则化,以进一步提高分类性能。对于同步ST任务,我们提出了跨语言得编码方法,它采用了一个用目标语言翻译优化得CTC分支。此外,CTC得翻译输出也被用来用CTC得前缀得分来完善搜索空间,首次实现了CTC/attentions得联合同声翻译。SLU得实验在FSC和SLURP语料库上进行,而ST任务则在Fisher-CallHomeSpanish和MuST-C En-De语料库上进行评估。实验结果表明,与离线模型相比,Blockwisestreaming Transformer取得了有竞争力得结果,特别是与我们提出得方法相比,在SLU任务上进一步取得了2.4%得准确率,在ST任务上取得了4.3 BLEU得增益。
《Blockwise Streaming Transformer for Spoken Language Understanding and Simultaneous Speech Translation》
论文地址:arxiv.org/abs/2204.08920v1