链接:
“懂你”的计算机
美国纽约宾厄姆顿大学的计算机科学家尹立军致力于让计算机识别人类的表情,并据此调整自己的表现。目前尹立军在这一领域的研究大多以计算机视觉为中心。尹立军最为感兴趣的是让计算机直接“看到”用户,最好让计算机能懂得:当你看它时,你想让它干什么。
通过对100个实验对象的脸部3D扫描,尹立军的团队已经建立起了包含2500个面部表情的数字数据库。不过,目前数据库中的表情只有六种类别:愤怒、厌恶、恐惧、喜悦、悲伤和惊讶。尹立军希望自己研究的算法不仅可以在视觉上对这六种表情进行简单区分,还能识别它们之间的微妙变化。目前这个数据库是对非盈利研究组织免费开放的。
这一研究不仅能用于开发“懂你”的电脑,还有“懂你”的医疗设备——万一哪天被病痛折磨的说不出话来,计算机会读懂你的面部表情。另外,它也能用于帮助自闭儿童学会识别他人的表情。
计算机同声翻译
近日,微软首席研究官里克·拉希德在天津演示了一项新技术——对着新研发的语音识别、翻译和生成系统说了8句英语,系统随即模仿他的语调翻译成普通话,虽然翻译的普通话听起来有点“伦敦音”,但每句话的意思基本都得到明确表达。
微软方面介绍说,这一技术的工作流程大体是:系统通过接收语音,识别说话者的声调和语言,建立模型;将这些语言翻译转换;一次性用另一种语言输出,再由同样的人声表达。
据拉希德透露,计算机同传实现的关键在于微软研究院和多伦多大学的研究人员取得了一项突破——利用模拟人脑行为的“深度神经网络”技术,提升了语音识别器的辨识能力。拉希德说,通过这种人脑仿生技术,微软的语音识别错词率较以往降低了30%,以前每4到5个单词中便有1个错词,如今7到8个词中才错1个。错词率的降低被视作计算机同传技术中决定性的改变。
通过计算机实现原声同传,是微软在计算机语音识别技术上的重大进展。拉希德表示,希望再过几年,“能够打破人与人之间的语言障碍”。
(本报记者 詹 媛)
[责任编辑:吴劲珉]