首页>>速记知识交流>>正在阅读

语音识别不会取代电脑速记技术

  来源: 北京    作者:  黑匣子速记    类型: 其他    发表: 2018-07-02    浏览:   


    我既是一名速记技术的受益者,也是一名速记技术的实践者和速记教育工作者,谈谈我对语音识别的体会。 前一段时间曾经有一种说法:“速记员(或电脑速记技术)会随着先进语音辨识技术的出现而消失”。我觉得这是对速记技术的不了解而产生的:语音识别不会取代电脑速记技术。 语音识别是让机器通过识别和理解语音信号转化为相应的文本或命令的高技术。让机器识别语音的困难在某种程度上就象一个外语不好的人,听外国人讲话一样,它和不同的说话人、不同的说话速度、不同的说话内容,以及不同的环境条件有关。语音信号本身的特点造成了语音识别的困难。这些特点包括多变性、动态性、瞬时性和连续性。 我曾经多次在中关村卖语音识别软件的公司进行过语音识别测试,结果远远不象厂家宣传得那样神,那样智能,甚至可以完全替代人脑的劳动:不就是对着麦克风“呱呱、呱呱”一说,字不就出来了吗?当然,这是人最向往的,但实际上实现起来远远不象人们想象得那么简单。 语音识别和电脑速记都是把稍纵即逝的语言信息变成文字,但二者在记录语言信息时是不同的: 1、语音识别只能识别有声信息,对无声信息则做不到。人在表达语音信息时,往往还伴随着体态语(手势、眼神等),比如说“他想了想说”、“迟疑了一下,回答道”、“她含情脉脉地看着我说”等等这些信息,在工作中有时都是需要记录下来的,你让语音技术怎么去识别我的眼神是脉脉含情呢?还是暗送秋波呢? 2、记录语音信息都会遇到同音字、词处理的问题。电脑速记是这样,语音识别也是这样。如“乱了纲常”就很可能会出现“乱了肛肠”;以“同等xueli考研”是这个“学历”还是这个“学力”;“秘书人员要正确领会领导shouyi”是这个“授意”还是这个“受意”等。就是语音识别能够完全记录下语音识别,而且能够达到百分之百的准确率,仍然是和录音机一样(关于录音机与速记的关系,早有定论,这里不再赘述)同样需要人们的后期加工整理,这样花费的时间会比人在当时记录的时间要多得多。因为人在讲话时,往往是口语,从口语到书面语的转化,并不是单纯的落成了文字。 3、人们在表达语言时有时候会说半句话,剩下的半句话往往会出现吞音的现象或干脆就不说了,听者可以借助当时的语境就理解了。但是,语音识别记录下的这前半句话一落到文字上,就是病句。电脑速记则可以由速记人员根据当时的语境及时把后半句话补完整,使之通顺了,不然,别人就看不懂。速记是通过记音来达到记意的目的。速记在记录语音信息时,如果发现遗漏了可以根据当时的语境回想起来而补充进去,但是你让语音识别去想?它怎么想?想都想不起来。电脑速记员一般有一个体会:在会议现场做速记记录要比听录音带记录,信息来源要丰富得多,记录起来也会轻松得多,记录的效果也会比较好。不但能够听得到,而且看得到发言人的讲话时情景,这样可以帮助速记员去理解语音信息而记录下来。当发言人声音比较小时,速记员可以看着发言人的口形去记录,语音识别怎么看口形去理解啊。听录音带整理信息非常麻烦,如果是录音不是很清楚,再有一些嘈杂声时,人辨别起来都很费劲,你放一段录音,让麦克风去识别成规范文字?累死它。 4、电脑速记在记录语音信息时,是需要对语音信息进行同步过滤和整理的,是由人脑来把握语音信息记录的主动权的,抓重点,控详略,进行实时记录,把一些口头禅都过滤掉。语音识别只能是机械记录,是被动的。 5、语音识别不能理识和别交互式有声信息。比如说两个人在谈话、辩论时,是放一个麦克风还是放两个麦克风?你让麦克风听谁的?总不可能让这个麦克风只能识别这个人的声音,另外一个人的声音给挡住,不让它进来吧。语音识别怎么能够知道这个是甲的声音,那个是乙的声音?电脑速记员在记录谈话时,不但可以记录下人的讲话,而且可以记录下当时的场景,如辩论人的神态、状况等,这样的信息就会很丰富、很生动。 6、目前的语音识别软件都需要人们说标准的普通话,如果有口音、方言、土语,那识别起来就更难了。由于我国南北地域的不同,带来了语系的差异,“北、吴、湘、赣、客、闽、粤”等八大方言区,语音差异太大了,有的地方因为“b”和“P”、“n”和“l”不分,而出现的方言笑话太多了。但是,速记人员如果能够听得懂,一般都是能够记录下来的。这也给速记人员提出了一个更高要求——必须具有广阔的知识面,听得多了,记录的信息就准确多了,这就是为什么速记员会比一般人辨别、采集语音信息能力强的原因,这个我们的专业特点,这个就好象是一个老铁路工人,只要听火车路过两截铁轨的声音间隔,就可以判定路况一样。有时候方言特别重的人讲话,人都听不懂,机器也听不懂。从这个方面也说明推广普通话的重要性。 7、人们在理解语言时,可以根据语音之间的停顿、语调、语气来记录语言,并把声音信息变成文字,而且在记录时,实时加相应的标点符号。 语音识别在理解语言时还需要说标点符号的形状,因为机器在理解语言时,是需要靠断句来理解的:“王处长冒号你从哪儿来问号另起一自然段空两格咱们今天学习前书名号邓小平理论后书名号”,事实上人说话时是不说标点符号具体形状的,这样说会很别扭。 语音识别理解语言时,会遇到字符串正确切分和对句子结构理解的问题。比如说“美国会考虑战略导弹防御系统”是“美国/会/考虑/战略导弹防御系统”还是“美/国会/考虑/战略导弹防御系统”呢?“他yihuier/jiulai/”本来是“他一会儿就来”往往会理解成“他一挥而就/来”;“要及时把握……”语音识别在切分时,就很可能会切分成“药剂师把握……”。 电脑速记是由速记人员实时对语音信息进行切分,加标点符号、分段的。 8、语音识别只能识别单一汉语语音信息,对于其他的声音,它都会认为是杂音而影响其识别的准确率。要记录正在播放歌曲的歌词或诗朗诵的朗诵词,从背景音乐里提取有用信息变成文字,你让麦克风怎么识别?速记人员则可以做到。 9、速记记录语言信息的一次性,是记录最前沿话题的。新生事物的出现,随时会产生新词语,人们可以根据对语言信息的理解,选定具体是哪个字或词,如“他剪了一个酷头”语音识别就会很可能识别成“他拣了一个裤头”。速记记录的一次性是指速记人员在记录语言时,当时就把同音字(词)确定下来是具体的哪一个字(词),以保证准确率在95%以上,一个优秀的速记师可以保持一次性的准确率在99%以上,这个也是为什么电脑速记能够得到人们认可的原因,也是速记高效率的具体体现。 为了提高语音识别的准确性,对人名、地名等专有名词,需要事先对词语进行限定,把新词语做进去,但是实际操作起来不现实。比如说,要用语音识别记录明天的会议内容,往往不可能让所有的代表都来,每人今天事先对麦克风说一遍,适应一下口音,把一些词语事先录入进去,这样的话,就变成了今天是开会了,明天再说就是重复会议了。比如说明天在上海召开APEC会议,谁能够要求国家领导人今天晚上事先对着麦克风说一遍明天的发言?这个恐怕不可以。 10、随着信息社会的发展,现在越来越多地出现了一种新的说话方式:中英文信息混和现象。比如说“请王秘书把客户的合同fai ke si(FAX)过来”,速记员在记录时只要能够听得懂英文单词,就可以把它即时翻译记录成“请王秘书把客户的合同传真过来”;另外,由于语言有一些外来词语,当传入我国时,因为是前沿话题,一时半时人们还找不到一个合适的中文词语和造出一个新词语来代替,同样会出现中文信息和外文信息夹杂的情况,让麦克风去识别成全中文信息呢?还是中外文信息混合呢?准确率能够达到多少?这也给速记员提出了新的挑战,成长为一个优秀的速记员是不是容易的,仅仅有很高的记录速度是远远不够的。 11、电脑速记技术是语文现代化和中文信息处理的一个组成部分。无论是手写速记,还是电脑速记,都是以汉语拼音为基础的,深深植根于汉民族语言的技术,只要说汉语就有速记存在的地方,除非不说汉语,而说别的语言,又变成是别的语种的速记了。 信息社会越发展,越需要处理信息的高效率。中文电脑速记正是这样一个处理信息高效手段,它的出现与被应用,正是信息社会发展的必然产物和人们处理信息高效率的的必然趋势。 总之,语音识别和速记技术工作方式方法不一样,一个是机芯在工作,一个是人脑在工作。语音识别再智能,还是没有人脑智能,还是不能象人在理解语言那样;人脑在理解语言时,都会遇到同音词问题,何况是机器呢?如果语音识别能够完全代替人脑的劳动那就好办了,以后把人脑都割掉,肩膀上都安装一个机器脑子,那我们的社会将是怎样?这就好象是有了汽车、火车、飞机,作为最基本的代步工具自行车依然没有被取代一样。 所以我觉得语音识别也好,录音机也好,速记技术也好,都是记录语言信息的工具,他们之间的关系是相得益彰,相辅相成的,谁也取代不了谁。 正是因为语音识别和电脑速记技术这样的不同点。国外一些发达国家都有自己语种的电脑速记技术。目前全国人民法院系统的书记员普遍采用了电脑速记记录庭审的方式,实现了庭审计算机化,我国电脑速记技术的出现,推动了我国司法制度的改革人民法院和人民检察院书记员单独序列。 仅仅是管窥之见。今天就到这儿,下次再聊。