1.中文的来历

蒙特利尔天气预报_蒙特利尔天气预报15天查询百度

现在的立式饮水机一般都是带消毒功能的,也就是底部的柜体是消毒柜设计,原理是臭氧消毒:插电--旋动或者打开消毒开关--底部柜体里有个产生臭氧的方形小盒子,开始工作--可以消毒杯子等物品.用这个功能呢要在消毒完毕后等一个小时再开消毒柜的门为好,这样可以消除臭氧对环境的影响(气味).

中文的来历

臭氧

爱恨交加说臭氧

大气中臭氧层对地球生物的保护作用现已广为人知——它吸收太阳释放出来的绝大部分紫外线,使动植物免遭这种射线的危害。为了弥补日渐稀薄的臭氧层乃至臭氧层空洞,人们想尽一切办法,比如推广使用无氟制冷剂,以减少氟利昂等物质对臭氧的破坏。世界上还为此专门设立国际保护臭氧层日。由此给人的印象似乎是受到保护的臭氧应该越多越好,其实不是这样,如果大气中的臭氧,尤其是地面附近的大气中的臭氧聚集过多,对人类来说臭氧浓度过高反而是个祸害。

臭氧是地球大气中一种微量气体,它是由于大气中氧分子受太阳辐射分解成氧原子后,氧原子又与周围的氧分子结合而形成的,含有3个氧原子。大气中90%以上的臭氧存在于大气层的上部或平流层,离地面有10~50千米,这才是需要人类保护的大气臭氧层。还有少部分的臭氧分子徘徊在近地面,仍能对阻挡紫外线有一定作用。但是,近年发现地面附近大气中的臭氧浓度有快速增高的趋势,就令人感到不妙了。

这些臭氧是从哪里来冒出来的呢?同铅污染、硫化物等一样,它也是源于人类活动,汽车、燃料、石化等是臭氧的重要污染源。在车水马龙的街上行走,常常看到空气略带浅棕色,又有一股辛辣刺激的气味,这就是通常所称的光化学烟雾。臭氧就是光化学烟雾的主要成分,它不是直接被排放的,而是转化而成的,比如汽车排放的氮氧化物,只要在阳光辐射及适合的气象条件下就可以生成臭氧。随着汽车和工业排放的增加,地面臭氧污染在欧洲、北美、日本以及我国的许多城市中成为普遍现象。根据专家目前所掌握的资料估计,到2005年,近地面大气臭氧层将成为影响我国华北地区空气质量的主要污染物。

研究表明,空气中臭氧浓度在0.012ppm水平时——这也是许多城市中典型的水平,能导致人皮肤刺痒,眼睛、鼻咽、呼吸道受刺激,肺功能受影响,引起咳嗽、气短和胸痛等症状;空气中臭氧水平提高到0.05ppm,入院就医人数平均上升7%~10%。原因就在于,作为强氧化剂,臭氧几乎能与任何生物组织反应。当臭氧被吸入呼吸道时,就会与呼吸道中的细胞、流体和组织很快反应,导致肺功能减弱和组织损伤。对那些患有气喘病、肺气肿和慢性支气管炎的人来说,臭氧的危害更为明显。

从臭氧的性质来看,它既可助人又会害人,它既是上天赐与人类的一把保护伞,有时又像是一剂猛烈的毒药。目前,对于臭氧的正面作用以及人类应该采取哪些措施保护臭氧层,人们已达成共识并做了许多工作。但是,对于臭氧层的负面作用,人们虽然已有认识,但目前除了进行大气监测和空气污染预报外,还没有真正切实可行的方法加以解决。

臭氧消毒原理可以认为是一种氧化反应。

(1)臭氧对细菌灭活的机理:

臭氧对细菌的灭活反应总是进行的很迅速。与其它杀菌剂不同的是:臭氧能与细菌细胞壁脂类双键反应, 穿入菌体内部,作用于蛋白和脂多糖,改变细胞的通透性,从而导致细菌死亡。臭氧还作用于细胞内的核物质,如核酸中的嘌呤和嘧啶破坏DNA。

(2)臭氧对病毒的灭活机理:

臭氧对病毒的作用首先是病毒的衣体壳蛋白的四条多肽链,并使RNA受到损伤,特别是形成它的蛋白质。噬菌体被臭氧氧化后,电镜观察可见其表皮被破碎成许多碎片,从中释放出许多核糖核酸,干扰其吸附到寄存体上。

臭氧杀菌的彻底性是不容怀疑的。

破坏臭氧层,危害我们每一个人。

紫外线从多方面影响着人类健康。人体会发生如晒斑、眼病、免疫系统变化、光变反应和皮肤病(包括皮肤癌)等。皮肤癌是一种顽固的疾病,紫外线的增长会使患这种病的危险性增大。紫外线光子有足够的能量去破裂双键。中短波紫外线会透人皮肤深处,使人的皮肤产生炎症,人体的遗传物质DNA(脱氧核糖核酸)受到损害,使正常生长的细胞蜕变成癌细胞并继续生长成整块的皮肤癌。也有说太阳光渗透进皮肤的表层。紫外线辐射轰击着皮肤细胞核内的DNA基本单位,使许多单位溶化成失去作用的碎片。这些毛病的修复过程可能会出现不正常,从而导致癌变。流行病学已证实厂非黑瘤皮肤癌的发病率与日晒紧密相关。各种类型皮肤的人都有患非黑瘤皮肤癌的可能,但在浅色皮肤人群中发病率较高。动物实验发现,紫外线中,紫外线B波长区是致癌作用最强的波长区域。

据估计,总臭氧量减少1%(即紫外线B增强2%),基础细胞癌变率将增加约4%。近来的研究发现,紫外线B可使免疫系统功能发生变化。有的实验结果表明,传染性皮肤病可能也与由臭氧减少而导致的紫外线B增强有关。据估计总臭氧量减少1%,皮肤癌的发病率将增加5%-7%,白内障患者将增加0.2%—0.6%。自1983年以来,加拿大皮肤癌的发病率己增加235%,1991年皮肤病患者已多达4.7万人。美国环保局局长说,美国在今后50年内死于皮肤癌者,将比过去预计的增加20万人。澳大利亚人喜欢晒日光浴,把皮肤晒得黑黑的。尽管科学家反复告诫多晒太阳会导致皮肤癌、他们对黑肤色还是乐此不疲。结果,直到澳大利亚人皮肤癌的发病率比世界上其他地方高出1倍时,才醒悟过来。全世界患皮肤癌的人已占癌症患者总人数的1/3。

联合国环境规划署曾警告说,如果地球的臭氧层会继续按照目前的速度减少并变薄,那么到2000年时全世界患皮肤癌的比例将增加26%,达到30万人。如果下个世纪初臭氧层再减少10%,那么全世界每年患白内障的人有可能达到160万-175万人。

受紫外线侵害还可能会诱发麻疹、水痘、疟病、疤疹、真菌病、结核病、麻风病、淋巴癌。

紫外线的增加还会引起海洋浮游生物及虾、蟹幼体、贝类的大量死亡,造成某些生物灭绝。紫外线照射结果还会使成群的兔子患上近视眼,成千上万只羊双目失明。

紫外线B削弱光台作用 根据非洲海岸地区的实验推测,在增强的紫外线B照射下,浮游生物的光合作用被削弱约5%。增强的紫外线B还可通过消灭水中微生物而导致淡水生态系统发生变化,并因而减弱了水体的自净化作用。增强的紫外线B还可杀死幼鱼、小虾和蟹。如果南极海洋中原有的浮游生物极度下降,则海洋生物从整体上会发生很大变化。但是,有的浮游生物对紫外线很敏感,有的则不敏感。紫外线对不同生物的DNA的破坏程度有100倍的差别。

严重阻碍各种农作物和树木的正常生长 有些植物如花生和小麦,对紫外线B有较好的抵御能力,而另一些植物如莴苣、西红柿、大豆和棉花,则是很敏感的。美国马里兰大学农业生物技术中心的特伦莫拉用太阳灯对6个大豆品种进行了观察实验,结果显示其中3个大豆品种对紫外线辐射极为敏感。具体表现为,大豆叶片光合作用强度下降,造成减产,同时也使大豆种于蛋白质和油脂含量下降。大气臭氧层损失1%,大豆也将减产1%。

特伦莫拉还用了4年时间,对高剂量紫外辐射给树木生长造成的影响进行了观察。结果表明,木材积累量明显下降,它们的根部生长也因而受阻。

对全球气候的不良扰乱作用 平流层上层臭氧的大量减少以及与此有关的平流层下层和对流层上层臭氧量的增长,可能会对全球气候起不良的扰乱作用。臭氧的纵向重分布可能使低空大气变暖,并加剧由二氧化碳量增加导致的温室效应。

光化学大气污染 过量的紫外线使塑料等高分子材料容易老化和分解,结果又带来新的污染——光化学大气污染。

氧气

.. ..

:O::O:

臭氧

.. ..

:O::O::O:

就是这样了。

臭氧的电子式可以在二氧化碳的电子式上更改而得:

.. ..

:O::C::O:

但要注意:臭氧和二氧化碳虽然电子式类似,但分子结构不同。臭氧是折线形,二氧化碳是直线形。对此的解释要用到大学的无机化学知识。

美国航空航天局的科学家们最近发现,在地球南极洲上空的巨大臭氧空洞在9月份发生了明显变化,从原先的旋涡状变成了两头大、中间小的“变形虫”形状。

虽然这两年,臭氧空洞面积看上去在缩小,但科学家警告说,目前就断言臭氧层在“修复还原”还为时尚早。航空航天局的臭氧专家包罗-纽曼介绍,大气层的温度不断上升造成了空洞的缩小。在2000年,南极洲的臭氧空洞面积曾经一度达到280万平方公里,相当于3个美国大陆的面积;在2002年9月初,航空航天局的科学家们估算,空洞缩小到150万平方公里。

澳大利亚一个臭氧层研究小组曾向全世界报告了一条好消息:由于环保措施这些年来得到有效地执行,南极洲上空的臭氧空洞正在不断缩小,预计到2050年之前,这个“臭名昭著”的巨大空洞就可以完全被“填补”上了。

据报道,南极洲上空的臭氧空洞一直是困扰全世界环保人士的难题之一。最严重的时候,臭氧空洞的面积曾一度有3个澳大利亚那么大。科学家们研究发现,“吞噬”臭氧的罪魁祸首原来是大气层中的氯氟烃——一种含有氯、氟、碳三种元素的有机化合物(俗称“氟里昂”)。

为了防止臭氧空洞进一步加剧,保护生态环境和人类健康,1990年各国制定了《蒙特利尔议定书》,对氯氟烃的排放量规定了严格的限制。如今,这些年来环保组织的不懈努力终于获得了回报:臭氧又回来了!澳大利亚英联邦科学与工业研究组织(CSIRO)的大气研究专家保罗·弗雷舍激动地说:“这是一条重大新闻。我们期待这一天已经很久了!”他说,虽然影响臭氧空洞缩小进度的因素还有很多,比如温室效应、气候变化等等,“但我们在将各种因素综合起来考虑之后,得出了这一结论:南极洲上空的臭氧空洞不出50年便会完全消失”。

据悉,从50年代起,随着电冰箱和空调(氯氟烃的主要生产源)的大量普及,大气层中的氯氟烃含量逐年递增,到2000年达到峰值。后来,由于新型无氟冰箱的诞生,氯氟烃含量才开始明显下降。

科学家发现土壤中的臭氧抑制植物生长

欧洲科学家的一项联合研究发现,臭氧层是使地表生物免遭太阳紫外线危害的天然屏障,但土壤中的臭氧却是植物生长的大敌,它能抑制各种植物的生长,给农业生产带来重大损失。

臭氧是大气中自然产生的一种具有特殊臭味的微量无色气体,绝大部分臭氧存在于离地面25公里左右处的大气平流层中,这就是人们通常所说的臭氧层。臭氧量往往随纬度、季节和天气等因素的变化而不同。

法国研究人员介绍说,天空中的臭氧层能够吸收99%以上的太阳紫外线,为地球上的生物提供了天然的保护屏障,而当臭氧存在于土壤中时却是一种严重的污染。最新得出的研究结果表明,光照越强的地方,土壤中臭氧造成的损失,尤其是对于农作物造成的损失越大。

法国研究人员认为,造成土壤中臭氧含量增高的主要原因是石油产品等矿物燃料在燃烧过程中产生氮氧化物,这些氮氧化物在空气中四处漂浮,其中的部分氧原子慢慢地与空气中的氧气结合,构成由3个氧原子组成的臭氧。他们强调说,太阳光照能够加速这种化学反应,因此在气候不同的地区,土壤中臭氧对植物生长的影响程度也不一样。 在水处理系统中,水箱、交换柱以及各种过滤器、膜和管道,均会不断的滋生和繁殖细菌。消毒杀菌的方法虽然都提供了除去细菌和微生物的能力,但这些方法中没有哪一种能够在多级水处理系统中除去全部细菌及水溶性的有机污染。目前在高纯水系统中能连续去除细菌和病毒的最好方法是用臭氧。

1905年起,臭氧就开始用于水处理。它较用氯处理水优越,能除去水中的卤化物。此方法在国内水系统中的应用仅处于起步阶段。在国外,这种消毒方式已非常普遍,这是由于臭氧不会产生有害的残留物。

使用臭氧消毒并在用水点前安装紫外灯减少臭氧残留,是制药用水系统、尤其是纯化水系统消毒的常用方法之一。

(1)化学性质及功效

臭氧(O3)是氧的同素异形体,它是一种具有特殊气味的淡蓝色气体。分子结构呈三角形,键角为116°,其密度是氧气的1.5倍,在水中的溶解度是氧气的10倍。臭氧是一种强氧化剂,它在水中的氧化还原电位为2.07V,仅次于氟(2.5V),其氧化能力高于氯(1.36V)和二氧化氯(1.5V),能破坏分解细菌的细胞壁,很快地扩散透进细胞内,氧化分解细菌内部氧化葡萄糖所必须的葡萄糖氧化酶等,也可以直接与细菌、病毒发生作用,破坏细胞、核糖核酸(RNA),分解脱氧核糖核酸(DNA)、RNA、蛋白质、脂质类和多糖等大分子聚合物,使细菌的代谢和繁殖过程遭到破坏。细菌被臭氧杀死是由细胞膜的断裂所致,这一过程被称为细胞消散,是由于细胞质在水中被粉碎引起的,在消散的条件下细胞不可能再生。应当指出,与次氯酸类消毒剂不同,臭氧的杀菌能力不受PH值变化和氨的影响,其杀菌能力比氯大600-3000倍,它的灭菌、消毒作用几乎是瞬时发生的,在水中臭氧浓度0.3-2mg/L时,0.5-1min内就可以致死细菌。达到相同灭菌效果(如使大肠杆菌杀灭率达99%)所需臭氧水药剂量仅是氯的0.0048%。

臭氧对酵母和寄生生物等也有活性,例如可以用它去除以下类型的微生物和病毒。

①病毒 已经证明臭氧对病毒具有非常强的杀灭性,例如Poloi病毒在臭氧浓度为0.05-0.45mg/L时,2min就会失去活性。

②孢囊 在臭氧浓度为0.3mg/L下作用2.4min就被完全除掉。

③孢子 由于孢衣的保护,它比生长态菌的抗臭氧能力高出10-15倍。

④真菌 白色念珠菌(candida albicans)和青霉属菌(penicillium)能被杀灭。

⑤寄生生物 曼森氏血吸虫(schistosoma mansoni)在3min后被杀灭。

此外,臭氧还可以氧化、分解水中的污染物,在水处理中对除嗅味、脱色、杀菌、去除酚、氰、铁、锰和降低COD、BOD等都具有显著的效果。

应当注意,虽然臭氧是强氧化剂,但其氧化能力是有选择性的,像乙醇这种易被氧化的物质却不容易和臭氧作用。

(2)臭氧的发生及常用浓度

臭氧的半衰期仅为30-60min。由于它不稳定、易分解,无法作为一般的产品贮存,因此需在现场制造。用空气制成臭氧的浓度一般为10-20mg/L,用氧气制成臭氧的浓度为20-40mg/L。含有1%-4%(质量比)臭氧的空气可用于水的消毒处理。

产生臭氧的方法是用干燥空气或干燥氧气作原料,通过放电法制得。另一个生产的臭氧的方法是电解法,将水电解变成氧元素,然后使其中的自由氧变成臭氧。

使用电解系统生产臭氧的主要优点是:

① 没有离子污染;

② 待消毒处理的水是用来产生臭氧的原料,因此没有来自系统外部的其他污染;

③ 臭氧在处理过程中一生成就被溶解,即可以用较少的设备进行臭氧处理。

若在加压条件下,可生产出较高浓度的臭氧。

(3)残留臭氧去除法

经臭氧消毒处理过的水在投入药品生产前,应当将水中残存(过剩)的臭氧去除掉,以免影响产品质量。臭氧的残留量一般应控制在低于0.0005-0.5mg/L的水平。从理论说,去除或降低臭氧残留的方法有活性炭过滤、催化转换、热破坏、紫外线辐射等。然而在制药工艺应用最广的方法只是以催化分解为基础的紫外线法。具体做法是在管道系统中的第一个用水点前安装一个紫外杀菌器,当开始用水或生产前,先打开紫外灯即可。晚上或周末不生产时,则可将紫外灯关闭。一般消除1mg/L臭氧残留所需的紫外线照射量为90000?W·s/cm2。

(4)注意事项

臭氧最适用于水质及用水量比较稳定的系统,当其发生变化时应及时调整臭氧的用量。在实际生产中,及时进行调节有一定的困难。

另一个须考虑的问题是水中有机物的含量,当水的混浊度小于5mg/L时,对臭氧消毒灭菌的效果影响极微,混浊度增大,影响消毒效果。如果有机物含量很高时,臭氧的消耗量将会升高,其消毒能力则下降,因为臭氧将首先消耗在有机物上,而不是杀灭细菌方面。因此,国外制药业在制药用水系统中增加了总机碳(TOC)的监控项目。但糟糕的是,在受到严重有机物污染的进水中用臭氧处理后,大的有机物分子会破裂成微生物新陈代谢的营养源,因此,在没有维持管网臭氧浓度的情况下,反会使得粘泥增多,进而使水质恶化。

在许多方面,作为消毒剂的臭氧和氯气,它们的优点是互补的。臭氧具有快速杀菌和灭活病毒的作用,对于除嗅、味和色度,一般都有好的效果。氯气则具有持久、灵活、可控制的杀菌作用,在管网系统中可连续使用。所以臭氧和氯气结合起来使用,看来是水系统消毒最为理想的方式。

中文

中文——作为一个民族的母语,中文是当今世界流行语言体系里最大的一个分支。始创于公元前黄帝在世的时代,成就于公元二十世纪后期。是一种发源最早而成熟最晚的一个语言体系。是东方文明的一种标志与成果,是人类用来精确命名与定义万事万物的一种重要信息载体。体系包括几千个常用单字和上万个字词成语,是文明社会不可缺少的重要组成。 自一名京人编辑

从20世纪50年代初机器翻译课题被提出算起,自然语言处理(NLP)的研发历史至少也有50年了。90年代初,NLP的研究目标开始从小规模受限语言处理走向大规模真实文本处理。把这个新目标正式列入大会主题的是1990年在赫尔辛基举行的“第13届国际计算语言学大会”。那些只有几百个词条和数十条语法规则的受限语言分析系统,通常被业内人士戏称为“玩具”,不可能有什么实用价值。政府、企业和广大计算机用户期盼的是像汉字输入、语音听写机、文-语转换(TTS)、搜索引擎、信息抽取(IE)、信息安全和机器翻译(MT)那样的、有能力处理大规模真实文本的实用化系统。

正是基于对这个里程碑式转折的关注,笔者在1993年就列举了四种大规模真实文本处理的应用前景:新一代信息检索系统;按客户要求编辑的报纸;信息抽取,即把非结构化的文本转化为结构化的信息库;大规模语料库的自动标注。值得庆幸的是,今天所有这四个方向都有了实用化或商品化的成果。

尽管全世界都把大规模真实文本处理看做是NLP的一个战略目标,但这不等于说受限领域的机器翻译、语音对话、电话翻译和其他一些基于深层理解的自然语言分析技术或理论研究,就不应当再搞了。目标和任务的多样化是学术界繁荣昌盛的一个标志。问题是要考虑清楚NLP的主战场在哪里,我们的主力应当部署在哪里。

中文难办吗?

谈到中文信息处理所面临的重大应用课题,如企业和广大计算机用户所期盼的汉字输入、语音识别等,大家似乎并没有什么分歧。但是当讨论深入到实现这些课题的方法或技术路线时,分歧马上就泾渭分明了。第一种意见认为,中文信息处理的本质是汉语理解,也就是要对汉语真实文本实施句法-语义分析。持这种意见的学者主张,以往在中文信息处理中使用的概率统计方法已经走到了尽头,为了在理解或语言层面上解决中文信息处理问题,就必须另辟蹊径,这条蹊径便是语义学。据说这是因为汉语不同于西方语言,汉语的句法相当灵活,汉语本质上是一种意合语言等。

与上述意见相对立的观点是:前面提到的绝大多数应用系统(MT除外)其实都是在没有句法-语义分析的情况下实现的,因此谈不上“理解”。 如果一定要说“理解”,那么只是用图灵实验来证实的所谓“理解”。

上述双方争论的焦点是方法,但目标和方法通常是密不可分的。如果我们同意把大规模真实文本处理作为NLP的战略目标,那么实现这一目标的理论和方法也必然要跟着变化。无独有偶,1992年在蒙特利尔召开的“第四届机器翻译的理论和方法国际会议(TMI-92)”宣布大会的主题是“机器翻译中的经验主义和理性主义方法”。这就是公开承认,在传统的基于语言学和人工智能方法(即理性主义)的NLP技术以外,还有一种基于语料库和统计语言模型的新方法(即经验主义)正在迅速崛起。

NLP的战略目标和相应的语料库方法都是从国际学术舞台的大视野中获得的,中文信息处理自然也不例外。那种认为中文文本处理特别困难,以至要另辟蹊径的观点,缺少有说服力的事实根据。拿信息检索(IR)来说,它的任务是从一个大规模的文档库中寻找与用户的查询相关的文档。怎样表示文档和查询的内容,以及如何度量文档和查询之间的相关程度,就成为IR技术需要解决的两个基本问题。召回率和精确率则是评价一个IR系统的两个主要指标。由于文档和查询都是用自然语言表述的,这个任务可以用来说明中文和西方语言所面临的问题和所采用的方法其实是十分相似的。一般来说,各文种的IR系统都用文档和查询中的词频(tf)和倒文档频率(idf)来表示文档和查询的内容,所以本质上是一种统计方法。

世界文本检索大会TREC ( 的最大特点是通过提供大规模训练语料和统一评测方法来支持IR技术的研发。研究团队必须通过大会的统一评测并名列前茅,才能获准到会上来做报告。1992年起TREC每年举办一届大会,并得到美国国防部(DARPA)和国家标准技术局(NIST)的资助。会议对包括中文、日文在内的多文种文档库开展了IR评测。结果表明,中文IR并没有因为存在分词问题就比其他文种做得差,而且迄今没有证据表明各语种的NLP,包括基于概念的或基于句法-语义分析的技术,能明显提高IR系统的性能。

什么是主流技术?

语料库方法和统计语言模型不但没有过时,而且在可比的统一评测中被证明是当前各国语言信息处理的一种主流技术。

1. N元模型

设wi是文本中的任意一个词,如果已知它在该文本中的前两个词 wi-2w-1,便可以用条件概率P(wi|wi-2w-1)来预测wi出现的概率。这就是统计语言模型的概念。一般来说,如果用变量W代表文本中一个任意的词序列,它由顺序排列的n个词组成,即W=w1w2...wn,则统计语言模型就是该词序列W在文本中出现的概率P(W)。利用概率的乘积公式,P(W)可展开为:

P(W) = P(w1)P(w2|w1)P(w3| w1 w2)...P(wn|w1 w2...wn-1)

不难看出,为了预测词wn的出现概率,必须知道它前面所有词的出现概率。从计算上来看,这种方法太复杂了。如果任意一个词wi的出现概率只同它前面的两个词有关,问题就可以得到极大的简化。 这时的语言模型叫做三元模型 (tri-gram):

P(W)≈P(w1)P(w2|w1)∏i(i=3,...,nP(wi|wi-2w-1)

符号∏i i=3,...,n P(...) 表示概率的连乘。一般来说,N元模型就是假设当前词的出现概率只同它前面的N-1个词有关。重要的是这些概率参数都是可以通过大规模语料库来计算的。比如三元概率有

P(wi|wi-2wi-1) ≈ count(wi-2wi-1wi) /count(wi-2wi-1)

式中count(...) 表示一个特定词序列在整个语料库中出现的累计次数。

统计语言模型有点像天气预报中使用的概率方法,用来估计概率参数的大规模语料库好比是一个地区历年积累起来的气象记录。而用三元模型来做天气预报,就好比是根据前两天的天气情况来预测今天的天气。天气预报当然不可能百分之百准确,但是我们大概不会因此就全盘否定这种实用的概率方法吧。

2. 语音识别

语音识别作为计算机汉字输入的另一种方式越来越受到业内人士的青睐。所谓听写机就是语音识别的一种商品。那么当前商品化的听写机采用的是什么技术呢?

其实,语音识别任务可视为对以下条件概率极大值的计算问题:

W*= argmaxW P(W|speech signal)

= argmaxW P(speech signal|W) P(W) / P(speech signal)

= argmaxW P(speech signal|W) P(W)

式中数学符号argmaxW 表示对不同的候选词序列W计算条件概率P(W|speech signal)的值,从而使W*成为条件概率值最大的词序列。它也就是当前输入语音信号speech signal所对应的输出词串了。

公式第二行是利用贝叶斯定律转写的结果,因为条件概率P(speech signal|W)比较容易估值。公式的分母P(speech signa ) 对给定的语音信号是一个常数,不影响极大值的计算,故可以从公式中删除。在公式第三行所示的结果中,P(W)叫做统计语言模型;P(speech signal|W) 叫做声学模型。

据调查,目前市场上中文和英文的听写机产品都是用词的三元模型实现的, 几乎完全不用句法-语义分析手段。这说明不同语言的产品技术往往是相通的。没有证据表明,中、英两种语言的听写机在性能指标上有显著的差异。所以那种断言中文信息处理一定比西方语言困难,实现中文信息处理必须另辟蹊径的说法,其实是站不住脚的。

三元模型(或一般的N元模型)只利用了语言的表层信息(或知识),即符号(字、词、词性标记等)序列的同现信息。谁也没有说它是十全十美的。在这一领域中,下一个研究目标应当是结构化对象(如句法树或语义框架)的统计模型。当然能做到语言理解是了不起的成果,它肯定会比目前这种统计语言模型强得多,这是不争的事实。问题是目前国内外还没有哪一种语言的句法-语义分析系统可以胜任大规模真实文本处理的重任。因此,对于世界各国的语言来说,当前的主流技术仍是语料库方法和统计语言模型。

3. 词性标注

至少像短语结构文法这样一类的语法规则是建立在词类基础上的。无怪乎语言学界有句行话说,没有词类就没法讲语法了。所以在自然语言的句法分析过程中,大概都有一个词性标注的阶段。不难理解,汉语的自动分词和词性标注的精确率,将直接影响到后续的句法分析结果。据观察,在汉语句法分析结果中,有高达60%的分析错误来源于分词和词性标注的错误。

在英语的词库中约 14% 的词形(type)具有不只一个词性,而在一个语料库中,总词次数(tockens)中约 30% 是兼类词。从这个统计数字中可以估计出词性标注任务的难度。历史上曾经先后出现过两个方法迥异的英语词性标注系统:TAGGIT系统拥有3000条上下文相关规则, 而CLAWS系统完全采用概率统计方法。两个系统各自完成了100万词次的英语语料库的自动词性标注任务。评则结果(见下表)表明,采用概率统计方法的CLAWS系统的标注精度达到96%,比TAGGIT系统提高了近20个百分点。经过改进的CLAWS系统日后承担了英国国家语料库BNC一亿条英语词的词性标注任务。

具体来说,CLAWS系统采用的是词类标记的二元模型。如果令 C = c1...cn 和 W = w1...wn分别代表词类标记序列和词序列,则词性标注任务可视为在已知词序列W的情况下,计算如下条件概率极大值的问题:

C*= argmaxC P(C|W)

= argmaxC P(W|C)P(C) / P(W)

≈ argmaxC ∏i i=1,...,nP(wi|ci)P(ci|ci-1 )

P(C|W) 表示:已知输入词序列W的情况下,出现词类标记序列C的条件概率。数学符号argmaxC 表示通过考察不同的候选词类标记序列C, 来寻找使条件概率P(C|W) 取最大值的那个词序列W*。后者应当就是对W的词性标注结果。

公式第二行是利用贝叶斯定律转写的结果,由于分母P(W) 对给定的W是一个常数,不影响极大值的计算,故可以从公式中删除。接着对公式进行近似。首先,引入独立性假设,认为词序列中的任意一个词wi的出现概率近似,只同当前词的词性标记ci有关,而与周围(上下文)的词类标记无关。即词汇概率

P(W|C) ≈ ∏i i=1,...,nP(wi|ci )

其次,采用二元假设,即近似认为任意词类标记 ci的出现概率只同它紧邻的前一个词类标记ci-1有关。因此有:

P(C) ≈∏i i=,...,n P(ci|ci-1)

P(ci|ci-1) 是词类标记的转移概率,也叫做二元模型。

上述这两个概率参数也都可以通过带词性标记的语料库来分别估计:

P(wi|ci) ≈ count(wi,ci) / count(ci)

P(ci|ci-1) ≈ count(ci-1ci) / count(ci-1)

顺便指出,国内外学者用词类标记的二元或三元模型实现的中、英文词性自动标注都达到了约95%的标注精确率。

评测为什么是惟一的评判标准

有评测才会有鉴别。评判一种方法优劣的惟一标准是相互可比的评测,而不是设计人员自己设计的“自评”,更不是人们的直觉或某个人的“远见”。近年来,在语言信息处理领域,通过评测来推动科学技术进步的范例很多。国家“863计划”智能计算机专家组曾对语音识别、汉字(印刷体和手写体)识别、文本自动分词、词性自动标注、自动文摘和机器翻译译文质量等课题进行过多次有统一测试数据和统一计分方法的全国性评测,对促进这些领域的技术进步发挥了非常积极的作用。

在国际上,美国国防部先后发起的TIPSTER 和 TIDES两个和语言信息处理相关的计划,就被称为“评测驱动的计划”。它们在信息检索(TREC)、信息抽取(MUC)、命名实体识别(MET-2)等研究课题上,既提供大规模的训练语料和测试语料,又提供统一的计分方法和评测软件,以保证每个研究小组都能在一种公平、公开的条件下进行研究方法的探讨,推动科学技术的进步。TREC、MUC和MET-2等会议所组织的多文种评比活动也有力地说明,其他语言采用并证明有效的方法,对中文也一样适用,不同文种应用系统的性能指标大体相当。固然,每种语言都有它自己的个性,然而这些个性不应当被用来否定语言的共性,并在事实不足的情况下做出错误的判断。

为了推动中文信息处理的发展,让我们拿起评测这个武器,扎扎实实地研究其适用技术,不要再想当然了。建议政府科研主管部门在制定项目计划时,至少要在一个项目的总经费中拿出10%左右的拨款用于资助该项目的评测。没有统一评测的研究成果,终究不是完全可信的