留言 | 关于 | 联系
返回首页
当前位置: 首页 > 业界资讯 > 人机交互蹒跚前行

人机交互蹒跚前行

时间:2004-03-26 20:50来源:互联网周刊 作者:江兰 彭桢艺 点击:
人类自然形成的与自然界沟通的认知习惯和形式必定是人机交互的发展前景,研究者们也正在努力让未来的计算机能听、能看、能说、能感觉。

就像微软公司副总裁李开复博士所说:人类自然形成的与自然界沟通的认知习惯和形式必定是人机交互的发展方向,研究者们也正在努力让未来的计算机能听、能看、能说、能感觉。如今计算机所涵盖的范围早已超越PC,它被嵌入到各种家用电器设备、生活空间、移动通讯设备中,人们需要能在三维空间中方便使用的计算机,而不是必须坐到计算机面前手握鼠标、指敲键盘的计算机。

语音交互”突破“按键”

在日常生活中,按键几乎是最普遍的人机交互方式。除了电脑键盘之外,办公室里的复印机、全自动洗衣机、微波炉、手机等的操作方式都是通过按键进行。尽管复印机变得更加智能后,人们通过它的液晶显示屏得到了更多的信息,触摸屏控制也让人操作起来更加方便。但“懒惰”的用户们仍在追问:不用按键可不可以?难道就不能直接对“它”下命令吗?

事实上,现在已经出现了数十款具备简单语音拨号功能的手机,但是“会说话的计算机,我们还要再等十年吗?”——微软亚洲研究院主办的2003年“21世纪的计算”大会上,李开复在演讲中说:“人类发明语言是希望通过语言来沟通,人们也希望让机器可以用同样的方法与自己沟通。”语音成为未来最被看好的人机交互方式。

语音比起其它的交互方式有更多的优势,最早的语音技术因 “自动翻译电话”计划而起,包含了语音识别、自然语言理解和语音合成三项非常重要的技术。语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,此后研究者们逐步突破了大词汇量、连续语音和非特定人这三大障碍。20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。

目前,国内外已经出现了一些商业化的产品,其中比较有代表性的是IBM公司的Via Voice和DRAGON公司的Naturally Speaking。1997年9月IBM在中国首次推出ViaVoice中文连续语音识别系统,花费大量资金培育市场,让大家知道了什么是语音技术。IBM如今仍然不断推出新的ViaVoice版本,把语音技术应用到PDA、智能汽车上。它也提供语音开发工具SDK,希望缔造一个全方位的语音平台。微软也把语音识别技术集成到了多个领军产品中,包括Office和Windows XP,其最新的语音识别服务器软件Speech Server准备在2004年上半年发布。该软件允许用户使用语音命令对电脑进行操作,企业也可以利用它建立一种类似于自动电话系统的服务。这些都属于命理识别的范畴,据科大讯飞公司总经理刘庆峰博士介绍,语音识别在身份确认上的应用已经达到99%的准确率,一句“芝麻开门”打开房门已经不是传说,但语音识别基本上还是“趣味性的应用,不能用在高保密状态下,比如银行。”

语音识别让计算机有了“耳朵”,但是让计算机拥有人类那样的大脑还是一个梦想,迄今为止,“自动翻译电话”是最初的计划也仍是研究者们的目标。

让计算机说话需要用到语音合成技术,其核心是文语转换技术(Text to Speech)。在国内,科大讯飞公司、微软亚洲研究院、IBM中国研究中心等在该领域都有出色的应用。刘庆峰博士认为:“后PC时代为了方便携带,屏幕越来越小,变看为听对于移动终端是个必然的要求。没有终端显示屏幕,就必须运用语音技术。语音合成技术已经到了产业化适用阶段,在社会信息服务领域、移动终端上,提供信息服务和咨询已经完全没有问题。”不久前,科大讯飞着手为北京2008年奥运会设计一套语音查询系统,以便于各国游客到北京之后,以一个统一的号码查询奥运信息以及北京的城市旅游、购物、餐饮等信息。预计这套系统将在2005年基本完成,能提供多语种、多方言、多发言人、多语气语调并且具备一定自学习能力的个性化语音服务。

“手写输入”超越“语音”

主人打电话吩咐家里的机器人给小孩盖被子,机器人却给小孩盖上了“杯子”,最后主人在手机上写了“被子”传给了机器人,机器人这才明白了主人的意思。这是诺基亚手机广告中的一个场景。

要实现语音“交互”,机器必须对所识别的语言进行理解。该领域的专家预言将来人类仍无法用自然语言同机器交流,主要是因为自然语言无法用有限集的表达方式完全表达,而要计算机从语句中理解说话者的意图则更加困难了。

手写输入算得上是除传统输入方式外相当成熟的技术了,市场上的手写笔在识别率和识别速度上完全能够满足实际应用的要求,几家大厂商几乎都可以达到99%。掌上电脑是手写输入技术应用的成功典范。一方面,移动让键盘的用武之地越来越少;另一方面,在WIMP 早已多方面改变了人们交换信息方式的今天,纸、笔还是完好的保存在了日常生活中。如何让这些本来在纸上的内容直接成为E-mail的一部分。人们开始着手研究手写输入、数字墨水等技术。

采用压感技术的手写笔,能捕捉手写压力的变化,在笔划的浓淡粗细上有着很强的灵敏性,是目前市场上的主流。例如蒙恬等厂家引进的WACOM技术,通过上百级的压感来提高产品辨识的准确性和输入速度。IBM中国研究中心一直在致力于开发连续手写识别技术,人们可以直接用笔在一个普通纸的笔记本上连续地写字及绘画,而写出的页面会自动保存在笔记本底板上装置的存储器中。该技术也被应用到了IBM的多项产品中,包括IBM ThinkScribe、IBM ThinkPad TransNote。微软亚洲研究院则在数字墨水技术上大有进展,能使人们不用手写识别系统就能同样享受手写所带来的便利和好处,并且已成为平板电脑的核心技术之一。

2003年12月,人们在汉王科技手写输入技术应用成果展示会上看到,手写输入技术的应用已经远远超出了传统的电脑输入范畴,还包括平板电脑、智能固定电话、各种掌上型信息终端、触摸屏、POS机、智能冰箱等等领域,特别是在新一代智能手机的应用上,已经呈现出爆发之势。而在计算机输出方面,主要的发展方向是让用户更直观和方便的获得信息,因此显示屏依然是绝对的主流。在移动设备纷纷“瘦身”之时,其显示屏的大小却依然以用户感受为主导,呈现逐渐变大的趋势。同时,虚拟现实技术逐步被广泛用于为用户呈现自然的图像,全息技术则被用来代替立体显示器或立体眼镜。也许要不了很久,《黑客帝国》中虚拟显示的幻境就会成为最新的人机交流方式。

“鼠标”、“眼标”、“脑标”

交互基本上都离不开用户的视觉,那么如果用户能用眼睛(直接用大脑思维来控制的“脑标”目前还太遥远)来操控图形界面岂不是更方便?“眼标”应运而生。

 2002年伦敦帝国学院的科研小组花费数年时间来研究人类眼睛活动与大脑感知之间的关系,最终发明出一种专门用来捕捉眼球细微动作的红外线感应装置,被他们称为“眼标”。它能鉴别眼睛在显示屏上的移动和注视,如果电脑使用者盯住屏幕上的某个链接图标1秒钟以上,电脑就自动打开该链接;如果使用者盯住打印或者存盘的图标,电脑就会自动进行相应的操作。不过,人们眼球运动时存在的固有抖动以及眼睛眨动所造成的数据中断,显然会干扰信号。另外,如果鼠标器光标总是随着用户的视线移动,可能会引起反感,因为用户“随便”看着什么而并非总是“意味着”什么。理想情况是用户希望发出控制时系统及时地处理其视线输入,而在相反的情况下则忽略其视线的移动。让电脑去理解这用户的这一“希望”还不大可能。不过,希望长在,因为科研人员认为人类用眼睛搜索和盯住一个目标的准确性远远超过用手移动鼠标。

如何让计算机“看”,属于计算机视觉研究的范畴。许多已经应用于实际的身份认证技术,如虹膜识别、人脸识别,都是通过采集的图像来获得信息并得出结果。现有的技术可以通过摄像机拍摄人的面部表情,然后利用图像分析和识别技术进行表情识别。

能把图像“看进去”早已不是问题,一个小小的摄像头就能胜任,关键是如何从图像中获取所需的信息。要让计算机像人一样的“看”,最根本的问题还是要计算机对图像的最终分析和理解,尽管图片中的形状、颜色、纹理都已经为计算机提供了较多的信息,但是要能用先验知识去思考、识别,就又回到了人工智能这个老问题。

与此同时,人们着手研究让计算机去“看”人怎样操控图形界面。传感器的发展成就了多种交互技术,比如用于识别手势的数据手套。它能对较为复杂的手的动作进行检测,包括手的位置和方向、手指弯曲度,并根据这些信息对手势进行分类。类似的,SimGraphics于1994年开发的虚拟演员系统(VActor)通过用户戴上的安装有触及脸不同部位的传感器的头盔,以控制计算机生成表情的图像。

“多通道交互”的商业前景

尽管语音输入效率很高,但你无法想象每位员工都在办公室里嚷嚷着操作自己的电脑。虽然每项交互技术自身都已经发展到了一定水平,但也都存在短期内无法摒弃的缺陷。在技术不成熟的情况下,相对复杂的交互方式难免遭到用户的抱怨。

而且这些交互技术只能作为输入或输出的手段,本身并不能“交互”,唯有把它们应用到界面当中才有意义——多通道人机界面的概念旨在完成这个整合。多通道技术本身所要达到的目的有两个:一个是人机交互要自然,让人们能够在任何时候、任何地点用更自然、高效的方式与任何连在互联网上的计算装置进行类似人与人之间的交流;另一个目的是让现在的很多技术更臻完美,比如让语音识别与手写结合在一起就是一个很好的概念。

“对新的交互系统的研究有两种不同的出发点:一种是让更多的用户能享受计算技术带来的好处;另一种是让现有的计算设备被用户更方便的使用。从桌面的基础出发的改进,诸如无线鼠标一类的属于后者。” 微软亚洲研究院多通道用户界面组主任研究员王坚博士说,“现有交互方式的改造空间不是很大。”

过去的五年中,种种人机交互技术包括多通道人机界面都在催生新一代的人机交互,很多人(包括用户和商家)都在期待“使鼠标完全不能存在”的那种东西诞生。质变到量变的转折是如此不可预测,究竟多少年后能实现“下一代的人机交互”也难以预测。然而它一旦出现,必将成为计算机彻底走向大众的一个决定性因素。

遗憾的是不仅没有人能准确定义下一代的人机交互,将来的“杀手应用”在哪里,现在也还不得而知,但是通过人机器交互技术催生出来的商业机会和商业力量,却早已被众多企业认识。不仅仅在计算机行业,网络、移动通讯、信息家电等各大产业都在摩拳擦掌。像蓝牙和3G,仅仅作为人机交互方式的一种载体,就搅得江湖大乱、市场纷争。然而科大讯飞的刘庆峰博士在谈到人机交互的商业前景时,也坦言实际应用的压力不亚于技术研究。“消费者看不到一项技术的实际应用前景,这需要厂商的推动。但是由于受到研究资金的限制,考虑到投入产出比,鲜有企业愿意象当年的SONY那样做市场的拓荒者。而且受到盗版猖獗的影响,企业在做市场开发时更是小心谨慎。”

人机交互史上的经典场景

最古老的人机交互—穿孔卡

世界上第一台数字计算机ENIAC采用外接式的程序,它通过读卡孔机、打卡孔机、以及打字机来进行输入输出。穿孔卡应该算是最早的人机交互,灵感来源于1801年法国纺织工程师杰卡德发明的提花机,该机器用穿孔纸带上的小孔来控制提花操作步骤。19世纪末美国统计专家霍列瑞斯(H.Hollerith)博士则借鉴这样的穿孔卡高效地完成了全美人口普查这样的大规模数据处理,尽管他的初衷不是在于计算机交互。这种用穿孔卡片的输入数据方式被一直沿用到20世纪70年代。

突破历史的鼠标

这是一个耳熟能详的典故,1964年美国科学家道格拉斯·恩格尔巴特(Douglas Englebart)在加利福尼亚制作了第一只鼠标器——只有一个按键,外壳用木头精心雕刻而成,底部有金属滚轮,当时并不被重视。直到1979年12月,施乐PRAC研究中心的科学家拉瑞·泰斯勒(L.Tesler)演示了窗口、图标、菜单,还有随着”鼠标器“移动的光标,鼠标的重大历史意义在这一刻才真正得到显示。

“虚无飘渺”的交互操控

2003年12月5日在美国伊利诺州的Lake Forest举行的一场演示用空气形成了一个“虚”屏幕,用户通过触摸有图像的空气来移动、选择图标且不需要戴特制的手套。美国麻省理工学院一位名叫Dyner的29岁研究生发明了这项被称为Heliodisplay的技术,利用电子学和热力学使进入机器的空气改变性质,喷射出来的空气被照亮后产生图像,采用激光跟踪系统跟踪用户手指的活动实现对那些“虚无飘渺”的图像的交互操控。尽管听起来颇费周张,并且准确率难以比拟鼠标,但它脱离了桌面的束缚可以让用户在特定场合更自然地操控图形界面。

顶一下
(7)
70%
踩一下
(3)
30%
发表评论
评价:
验证码:点击我更换图片
推荐内容