主机系统版本:Windwos10 64位
处理器型号:Intel-i7
虚拟机版本:VMware Workstation 16 Pro
虚拟机系统:Ubuntu 18.04.6 LTS
ROS版本:Melodic
学习目标
知识储备
学习常见语音术语。
(1)音素(phone | phonetics)
音素是根据语音的自然属性划分出来的***小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音与辅音两大类。如汉语音节啊(ā)只有一个音素,爱(ài)有两个音素,代(dài)有三个音素等。
(2)声学模型
声学模型教会机器“哪个字词发什么音”。
是将声学和发音学(phonetics)的知识进行整合,以特征提取部分生成的特征作为输入,并为可变长特征序列生成声学模型分数。
(3)语言模型
声学模型教会机器“什么样的文字组合是合理的、更常见的”,语言模型通过从训练语料(通常是文本形式)学习词之间的相互关系,来估计假设词序列的可能性,又叫语言模型分数。
(4)语音识别(ASR:Automatic Speech Recognition)将声音转换成文本。
(5)语音合成(TTS:text-to-speech)
将文字转换成声音。
(6)语义理解(NLU:NaturalLanguage Understanding)
识别说话人的意图。
2.自然语言处理(NLP)
就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。
3.自然语言处理的核心任务及步骤
(1)自然语言理解 – NLU
自然语言理解就是希望机器像人一样,具备正常人的语言理解能力。
(2)自然语言生成 – NLG
自然语言生成是为了跨越人类和机器之间的沟通鸿沟,将非语言格式的数据转换成人类可以理解的语言格式,如文章、报告等。
了解更多傲博机器人
文章来源网络,如有侵权请联系删除