主题:(非计算机系学生)如何入门篇(10)---灌水-推荐文章
知识科学及其研究前沿
中国科学院院士 陆汝钤
摘 要: 本文根据知识处理的研究历史和现状,提出了开展知识科学研究的主张并探讨了它的几个重要方面,其中结合了作者本人的研究工作。
关键词:知识科学、知识工程、知识经济、知识产业
Knowledge Science and its Research Frontiers
Lu Ruqian
Abstract: Based on the history and state of art of research on knowledge processing, this paper proposes the study of knowledge science and explores some of its important aspects, by relating them to the author’s own research results.
Keywords: Knowledge Science, Knowledge Engineering, Knowledge Economy, Knowledge Industry .
一.前言
从古希腊人开始,对于知识的研究与探索一直是人类追求的目标。几千年来的情况都是这样的:哲学家研究有关知识的一般特性与规律,而自然科学家孜孜不倦地猎取具体的知识。二十世纪中叶以后,这种研究格局发生了变化。由于知识在人类文明中所起的作用越来越大,不仅是哲学家、逻辑学家和心理学家,而且计算机科学家也在认真地研究知识的一般特性与规律。这是因为人类已经进入了信息化社会,而且正在向知识化社会前进。人类对知识的掌握很大程度上体现为这些汪洋大海般的知识是能够通过计算机和计算机网络操作和使用的。计算机科学家的任务是要研究处理各种复杂知识的理论与方法。1977年,费根鲍姆教授提出了知识工程的概念,成为知识可操作化的一个里程碑[1]。但是,二十多年来,知识工程主要是一门实验性科学。知识处理的大量理论性问题尚待解决。本文作者认为对知识的研究应该是一门具有坚实理论基础的科学,应该把知识工程的概念上升为知识科学。知识科学的进步将从根本上回答在知识工程中遇到过,但是没有能够很好解决的一系列重大问题[2]。世界进入了知识经济的时代,这要求我们在运用知识去推动社会的繁荣和进步的同时,也应着意开展对知识本身的深入研究。
二. 知识模型研究
形式化和结构化的知识称为知识模型。在专家系统研究中,不同领域的专业知识被按它们的推理方式分类成不同的知识模型[3][4]。要说明这里不是按领域知识分类的,因为不同的领域可能有相同的推理方式,例如人类疾病诊断和设备故障检测就可用类似的模型刻画。定性推理研究提出了物理世界建模的一般法则。L系统和遗传算法分别给出了生物发育和生命演化的模型。基于模型的推理已成为专家系统的基本技术之一。基于模型的知识获取更是构造知识库的有力手段。模型的应用已经超出了它们原来所指的范围。例如遗传和退火算法被用到优化计算方面。建模概念在人工智能以外的领域如数据库、软件工程和系统工程中也起到重要作用。从目前的发展情况来看,我们认为以下几类模型特别值得重视和研究:面向Agent的模型、面向本体的模型、面向并行推理的新一代黑板模型、面向分布式推理的网络模型、面向移动通信的推理模型、能演化的模型、自组织模型、容错模型、共生模型。
知识模型研究有着明确的实用意义。大规模的知识模型开发必然会提出一个标准化问题,否则就无法交流,无法推广使用。国外八十年代即已开始研究知识表示的工业化标准。九十年代以来进一步研究知识共享技术。其中斯坦福大学研究的知识交换格式(KIF)和本体建模语言(Ontolingua)较为有名 [5]。马里兰大学研究的知识查询和处理语言(KQML)面向的是知识库查询和知识库通信技术,已被许多学者作为一种事实上的标准接受[6]。
三. 常识性知识研究
在国际人工智能界,一直公认常识性知识的处理是人工智能的核心难题。所谓常识,是相对于专业知识而言的。研究常识有两条道路。以“人工智能之父” 麦卡锡为代表的学派主张从建立常识的逻辑体系入手,并提出了一整套的非单调逻辑、认知逻辑等形式体系[7][8],而“知识工程之父”费根鲍姆则提出通过建设大规模知识库实现人工智能的计划。勒纳等人正在建的CYC海量知识库就是体现费根鲍姆思想的最有名的一项工程[9]。事实表明,常识表示和常识推理研究的每一进步,都是人类思维形式化和可操作化的一项新成果。
我们的“常识性知识的实用研究”课题涉及常识表示、常识论域、常识特性、常识分类、常识模型、常识推理、常识应用等。还包括建立一个大规模的常识知识库。在研究中,我们提出了一种新的知识库结构:面向本体、Agent和关系的“三结合”知识库[10]。
我们不仅把常识知识库看成是常识研究的一种工具,还把这项工作看成是继面向对象数据库之后新一代数据库的探索。常识知识库能帮助解决的实际问题包括自然语言理解、机器翻译、人机界面的智能性和自适应性、专家系统的健壮性、信息检索的智能性、图像识别和语音识别、因特网知识获取、计算机动画自动生成中的故事情节生成等。
四. 非规范知识研究
非规范知识或因其量太大(海量知识),或内涵不够清楚(模糊知识),或结构残缺不全(不完全知识),或含内在矛盾(不协调知识),或含无用杂质(带噪音知识),或内涵不稳定(时变知识)而需用特殊手段处理。
传统的逻辑视矛盾为“零秒杀手”,一颗老鼠屎即坏了一锅汤(一个矛盾即使整个系统成为平凡的)。基于非单调推理的真值维护技术是为了保持知识库的内在无矛盾性。次协调逻辑则不排除矛盾而容许它的存在,其努力集中在如何限制它的影响[11]。证伪主义率先打出了不承认有终极真理的旗号[12]。李未院士的开放逻辑研究的是如何在不断排除矛盾的过程中发展出一个相对正确的理论[13]。但是我们至今尚未看到有一个正面处理矛盾的理论。
知识的矛盾性有时不是绝对的。判断模糊知识之间的矛盾性比判断精确知识之间的矛盾性更困难。应明生教授考虑把定理证明的技术运用到不精确和近似的情况中来,研究不精确知识在近似意义下的证明论[14]。
因特网知识的收集整理涉及多源时变知识和海量知识。时变知识非常复杂,既有精确,又有模糊;既有矛盾,又有冗余;还有时态和背景依赖性。传统的时态数据库不够用,如果能使用多种逻辑和数学手段,使计算机自动收集和整理多源时变知识,将是很有意义的。
海量知识处理技术的研究被因特网的普及所大大促进。当前浏览器的智能太低。许多软件机器人和网络机器人之类工具,尚停留在实验室阶段,还不能直接为广大因特网用户掌握和使用。浏览器功能弱的原因在于它们所用的信息检索技术主要是基于语法的,应该发展基于语义、语用和知识的智能浏览器。
五. 知识的数学理论
指“从数学的观点来看,知识是什么”这样一个问题。仙农曾经对信息的数学本质进行过研究,提出了著名的仙农信息论[15]。他用熵的概念来研究信息的含量。佩特里进一步指出,信息应该看成是像能量、动量、角动量一样的物理量,应该有自己的守恒律和其他物理定律。佩特里认为这应是一门新的学科,称为信息动力学[16]。
另一方面,仙农的理论不能照搬到作为宏观信息结构的知识上来,因为仙农的研究是以比特为单位的。我们举两个可供研究的问题作为例子。
在计算机科学中,通信同步理论的研究已经有了很大的进展。CSP和CCS可以看成是信息通信在变量一级的理论,比起早期比特一级的数学理论来提高了一步[17]。∏演算的提出有助于解决移动通信中的理论问题。但∏演算仍然是变量级的[18]。近年来,人们致力于研究知识级的通信理论[19] [20]。
此外,量子计算机的前景提供了大量有意义的研究课题[21]。复杂性分析是知识的数学理论的又一重要分支[22]。
不同媒体表示的知识形式转换是另一个理论问题。近几年,因特网上的多媒体节目生成和传送发展迅速。如果能解决文字和非文字形式的互换,将大大提高因特网传输多媒体节目的效率,应用前景很大。
我们做过十年计算机动画自动生成技术的研究,克服了一系列由自然语言自动生成动画的技术难点。对解决上述问题将会有用。
六. 知识获取的理论和技术
多年来,专家们一直公认知识获取是知识工程的一个瓶颈问题。有关知识获取的研究可分为三个流派,它们分别以心理学方法、人工智能方法和软件工程方法为其特征[23]。这方面最著名的成果是由欧洲的学者们在几年前提出的KADS。经过欧共体Esprit计划多年连续支持,如今的Common KADS已发展成欧洲范围内的公认标准[24]。
我们研究的《天蜂》技术用于书面知识自动获取和CAI系统快速成型[25-30]。它的要点是设计一种类自然语言,使人们能基本按原样把书本或其他书面资料输入计算机。以下的工作,包括阅读资料、抽取和整理知识、组织教材、编写习题、集成教学系统等都由计算机自己完成。《天蜂》技术适用于批量化和大规模地生产CAI系统,开发各类应用软件的专用知识库,开发面向个人的(网上)电子博物馆和电子教室,以及大规模电子编辑出版。
现在,研究者更多关心的已经不是获取专家头脑里的知识,而是从海量信息中获取知识。因特网的浏览器太笨,自动在网上收集信息的软件机器人应运而生。信息过滤和提炼技术倍受重视,特别是在文本知识获取方面。从数据中获取知识的数据挖掘研究在商业领域已得到广泛应用。
七. 基于知识的软件工程
软件工程的实践告诉我们,软件开发失败的原因往往在于需求分析没有做好。而需求分析没有做好的原因又往往在于用户和软件工程师之间缺乏良好的合作。
应该尽可能多地把用户吸引到软件开发过程中来,让用户自己来定义、设计、开发、维护和修改软件。做到这一点的关键是以强大的知识支持作为后盾。我们在《青鸟》技术框架内[32]研究的《天鹰》技术以一个大容量的领域知识库来支持软件的开发。同时提供一种面向领域用户的类自然语言。用户只需说明情况而无需说明需求,计算机即可在上述知识库的支持下自动生成所需的信息系统[33-38]。
《天鹰》项目的启示是:第一要区分应用软件中的两种知识:软件知识和领域知识。第二要有两支专业队伍:软件工程师和知识工程师。第三要从软件产业中分离出一种新的产业:知识产业。我们相信,循这条路发展,必能使软件产业和知识产业同时发展成两个独立而繁荣的产业。
八. 知识用于计算机艺术
计算机艺术和人工智能几乎是同步出现的。这里只谈最有实用意义的计算机辅助动画制作。它的某些环节已可实用,甚至成为商品。但据我们所知,充分利用人工智能技术的计算机动画全自动生成技术在我们的工作之前还没有。
动画应用十分广泛,在精神文明和物质文明的创建中都起着重要作用。但生产动画十分艰巨,费用十分高昂。美国动画片"玩具总动员"据说是投资4000万美元拍摄的.中国应研制出自己的新技术, 以弥补经济实力的不足,取得战略优势.
我们研究出了一条基于知识的动画生产全过程自动化技术,可使计算机把以受限自然语言形式写的故事自动转换成动画。并开发了相应的软件系统<<天鹅>>[39-41]。
要把这项技术变成产业,还有大量工作要做。但我们深信它是能够变成产业的,并将引起动画片生产技术的行业改造。
九. 中国国家知识基础设施
许多有识之士一直在谈论信息高速公路有路无车的问题。如果耗巨资建设起来的信息基础设施不能得到充份利用,将是一个极大的浪费。信息基础设施的主要内涵应该是知识。1995年,曹存根博士在青年科技论坛上首先提出了国家知识基础设施(CNKI)的思想[42]。再往前,中国科学院从八十年代开始即组织有关科学知识库的研究,并拨专项经费支持。十多年来,已建成涉及物理、化学、生物等领域的十几个科学数据库,在科研工作中发挥了积极作用。
从科学基础研究角度看,国家知识基础设施的基础性体现在两大方面。第一,它提出了大规模知识网络的建设和利用问题。第二,国家知识基础设施将为许多基础研究和应用开发研究提供必要的知识基础 。
从人类知识保护方面看,国家知识基础设施所提供的知识获取工具将充分吸收人类各种专家的宝贵经验,将它们永远地保存在知识库里,供后人使用或发展。
最后,从国民文化教育观点看, 国家知识基础设施还将是提高全民族文化和科学素质的有力工具。
参考文献
[1] Feigenbaum, E.A., The art of artificial intelligence, Themes and case studies in knowledge engineering, IJCAI 5, 1014—1029.
[2]陆汝钤(主编)世纪之交的知识工程与知识科学,清华大学出版社,2001。
[3] Stefik, M.J. et al., Artificial Intelligence, V.61, N.1, 1993
[4] 吴建敏,专家系统解题模型分类研究,中国科学院数学研究所博士论文,1991年。
[5] Genesereth M.R. , Fikes R.E., Knowledge Interchange Format, Version 3.0, Reference Manual, Computer Science Department, Stanford University, 1992.
[6] Labrou, Y., Finin, T., A Proposal for a New KQML Specification, TR CS-97-03, UMBC,1997.
[7] McCarthy,J., Formalizing Commonsense: papers by John McCarthy, Ablex Publishing Corporation, 1990. 1997
[8] McCarthy,J., Programs with common sense, Proc. Symp. Mechan. Of Thought Proc., In [3].
[9] Lenat, D.B. and Guha, P.V., Building Large Knowledge Based Systems: Representation and Inference in the CYC Project, Addison Wesley, 1990.
[10] 陆汝钤、石纯一、张松懋、毛希平、徐晋辉、杨萍、范路,面向Agent的常识知识库,中国科学(E),V.30, N.5,pp.453-463, (中文版), V.43, N.6, pp.641-652, (英文版) , 2000.
[11]林作诠,李未,超协调逻辑(I)(II)(III)(IV),计算机科学,1994,N.5,N.6,1995,N.1。
[12] 波普儿,猜测与反驳,科学知识的增长,1963。
[13]李未,开放逻辑:一个关于形式系统序列和极限的理论,在[2]中,197-226页。
[14]Mingsheng Ying,Topology in process calculus: Approximate correctness and infinite evolution in concurrent programs, Springer Verlag, to be published.
[15]C.E. Shannon, A mathematical theory of communication, Bell Sys. Tech. Journal, 27: 379-432, 623-656, 1948.
[16]C.A. Petri, Private communication
[17]M. Hennesy & H.Lin, Symbolic Bisimulations, Theoretical Computer Science, 138: (2) pp.353-389.1995.
[18]R. Milner, Communicating and mobile systems: the p-- calculus, Cambridge university press, 1999.
[19] Cardelli I., Gordon A D., Mobile Ambients, in M.Nivat, editor, Foundations of Software Science and Computational Structures, LNCS No.1378, Springer Verlag, 1998:140—145.
[20] Vitek J., Castagna G., A calculus of secure mobile computations, in Proc. of the IEEE Workshop on internet programming languages, 1998.
[21]夏佩肃,量子计算,中科院计算所技术报告,2001。
[22]李明、P.M.B.威塔涅著,描述复杂性,科学出版社,1998。
[23]Lu Ruqian, New approaches to knowledge acquisition, World Scientific Publ., 1994.
[24] Wielinga, B., Schreiber A.T., Breuker J.A. KADS: A modeling approach to knowledge engineering. Knowledge Acquisition, 4(1):5—53, 1992
[25] Lu Ruqian, Automatic Knowledge Acquisition by Understanding Pseudo-Natural Languages, Theory and Praxis of Machine Learning, Dagstuhl Seminar Report 91 (9426), pp.11-12, 1994.6.
[26] Lu Ruqian,Cao Cungen,Chen Yonghong,Han Zhangang, On Automatic Generation of Intelligent Tutoring Systems, Proc. of 7th International Conference of AI in Education, 1995.
[27] Lu Ruqian,Cao Cengen,Chen Yonghong,Mao Wenjie,Chen Weiqin,Han Zhangang, The PLNU approach to automatic generation of ICAI systems, Science in China, series A, Vol.38, supplement, pp.1-11, 1995.
[28] 毛文吉,陆汝钤, 基于SELD描述语言的英文文本知识自动获取,计算机学报,V.21, 增刊,pp.105-111, 1998
[29] Lu Ruqian, Mao Wenjie, Automatic Generation of ITS from English Text, ICCE 98, pp.319-324,1998.10.
[30] Lu Ruqian, Han Ke, Ma Yinghao, Lu Peijun, Using VR Techniques in ICAI Systems, Proc. of GCCCE'97, pp.230-237, 1997.
[31]David W. Mount, Bioinformatics, sequence and genomic analysis, Cold Springer Lab. Press,
[32]杨芙清、邵维忠、梅宏,面向对象的CASE环境青鸟II型系统的设计与实现,中国科学(A辑),1995,25(5):533-542。
[33] Lu Ruqian,Jin Zhi,Wan Ronglin, Requirement Specification in Pseudo-Natural Language in PROMIS, Proc. of 19th COMPSAC, pp.96-101,1995.
[34] Lu Ruqian, Jin Zhi, Wan Ronglin, A knowledge- based approach for automatically prototyping management information systems, AVIGNON 94'.
[35] Lu Ruqian, Jin Zhi, A Multi-Agent and Pseudo-Natural Language Approach for Intelligent Information Services, Proc. of SEKE'97.
[36] Lu Ruqian, Jin Zhi, Liu Lin, Fan Guochuang, Chen Gang, Xun Xiaojin, Wang Sheng, OSNET-A Language for Domain Modeling, Tools Asia'98, 1998. 9.
[37] Lu Ruqian, Jin Zhi, Hierarchical Software Reuse, Advanced Chinese Journal of Software, 1998. 12.
[38]Ruqian Lu & Zhi Jin, Domain modeling based software engineering, a formal approach, Kluwer Publishers, 2000
[39] Lu Ruqian, Zhang Songmao, Wei Zichu, Generating Computer Animation from Natural Language Texts, Proc. of PACE 99', 1999, Los Angles.
[40]Ruqian Lu & Songmao Zhang, Automatic generation of computer animation, LNAI 2160, Springer Verlag, to be published.
[41]陆汝钤,张松懋,从故事到动画片,全过程计算机辅助动画自动生成,自动化学报,待发表。
[42] 曹存根, 关于建立“中国国家知识基础设施”的建议,计算机世界报,1998年12月。
(本稿最后修改日期:2003年4月7日)
中国科学院院士 陆汝钤
摘 要: 本文根据知识处理的研究历史和现状,提出了开展知识科学研究的主张并探讨了它的几个重要方面,其中结合了作者本人的研究工作。
关键词:知识科学、知识工程、知识经济、知识产业
Knowledge Science and its Research Frontiers
Lu Ruqian
Abstract: Based on the history and state of art of research on knowledge processing, this paper proposes the study of knowledge science and explores some of its important aspects, by relating them to the author’s own research results.
Keywords: Knowledge Science, Knowledge Engineering, Knowledge Economy, Knowledge Industry .
一.前言
从古希腊人开始,对于知识的研究与探索一直是人类追求的目标。几千年来的情况都是这样的:哲学家研究有关知识的一般特性与规律,而自然科学家孜孜不倦地猎取具体的知识。二十世纪中叶以后,这种研究格局发生了变化。由于知识在人类文明中所起的作用越来越大,不仅是哲学家、逻辑学家和心理学家,而且计算机科学家也在认真地研究知识的一般特性与规律。这是因为人类已经进入了信息化社会,而且正在向知识化社会前进。人类对知识的掌握很大程度上体现为这些汪洋大海般的知识是能够通过计算机和计算机网络操作和使用的。计算机科学家的任务是要研究处理各种复杂知识的理论与方法。1977年,费根鲍姆教授提出了知识工程的概念,成为知识可操作化的一个里程碑[1]。但是,二十多年来,知识工程主要是一门实验性科学。知识处理的大量理论性问题尚待解决。本文作者认为对知识的研究应该是一门具有坚实理论基础的科学,应该把知识工程的概念上升为知识科学。知识科学的进步将从根本上回答在知识工程中遇到过,但是没有能够很好解决的一系列重大问题[2]。世界进入了知识经济的时代,这要求我们在运用知识去推动社会的繁荣和进步的同时,也应着意开展对知识本身的深入研究。
二. 知识模型研究
形式化和结构化的知识称为知识模型。在专家系统研究中,不同领域的专业知识被按它们的推理方式分类成不同的知识模型[3][4]。要说明这里不是按领域知识分类的,因为不同的领域可能有相同的推理方式,例如人类疾病诊断和设备故障检测就可用类似的模型刻画。定性推理研究提出了物理世界建模的一般法则。L系统和遗传算法分别给出了生物发育和生命演化的模型。基于模型的推理已成为专家系统的基本技术之一。基于模型的知识获取更是构造知识库的有力手段。模型的应用已经超出了它们原来所指的范围。例如遗传和退火算法被用到优化计算方面。建模概念在人工智能以外的领域如数据库、软件工程和系统工程中也起到重要作用。从目前的发展情况来看,我们认为以下几类模型特别值得重视和研究:面向Agent的模型、面向本体的模型、面向并行推理的新一代黑板模型、面向分布式推理的网络模型、面向移动通信的推理模型、能演化的模型、自组织模型、容错模型、共生模型。
知识模型研究有着明确的实用意义。大规模的知识模型开发必然会提出一个标准化问题,否则就无法交流,无法推广使用。国外八十年代即已开始研究知识表示的工业化标准。九十年代以来进一步研究知识共享技术。其中斯坦福大学研究的知识交换格式(KIF)和本体建模语言(Ontolingua)较为有名 [5]。马里兰大学研究的知识查询和处理语言(KQML)面向的是知识库查询和知识库通信技术,已被许多学者作为一种事实上的标准接受[6]。
三. 常识性知识研究
在国际人工智能界,一直公认常识性知识的处理是人工智能的核心难题。所谓常识,是相对于专业知识而言的。研究常识有两条道路。以“人工智能之父” 麦卡锡为代表的学派主张从建立常识的逻辑体系入手,并提出了一整套的非单调逻辑、认知逻辑等形式体系[7][8],而“知识工程之父”费根鲍姆则提出通过建设大规模知识库实现人工智能的计划。勒纳等人正在建的CYC海量知识库就是体现费根鲍姆思想的最有名的一项工程[9]。事实表明,常识表示和常识推理研究的每一进步,都是人类思维形式化和可操作化的一项新成果。
我们的“常识性知识的实用研究”课题涉及常识表示、常识论域、常识特性、常识分类、常识模型、常识推理、常识应用等。还包括建立一个大规模的常识知识库。在研究中,我们提出了一种新的知识库结构:面向本体、Agent和关系的“三结合”知识库[10]。
我们不仅把常识知识库看成是常识研究的一种工具,还把这项工作看成是继面向对象数据库之后新一代数据库的探索。常识知识库能帮助解决的实际问题包括自然语言理解、机器翻译、人机界面的智能性和自适应性、专家系统的健壮性、信息检索的智能性、图像识别和语音识别、因特网知识获取、计算机动画自动生成中的故事情节生成等。
四. 非规范知识研究
非规范知识或因其量太大(海量知识),或内涵不够清楚(模糊知识),或结构残缺不全(不完全知识),或含内在矛盾(不协调知识),或含无用杂质(带噪音知识),或内涵不稳定(时变知识)而需用特殊手段处理。
传统的逻辑视矛盾为“零秒杀手”,一颗老鼠屎即坏了一锅汤(一个矛盾即使整个系统成为平凡的)。基于非单调推理的真值维护技术是为了保持知识库的内在无矛盾性。次协调逻辑则不排除矛盾而容许它的存在,其努力集中在如何限制它的影响[11]。证伪主义率先打出了不承认有终极真理的旗号[12]。李未院士的开放逻辑研究的是如何在不断排除矛盾的过程中发展出一个相对正确的理论[13]。但是我们至今尚未看到有一个正面处理矛盾的理论。
知识的矛盾性有时不是绝对的。判断模糊知识之间的矛盾性比判断精确知识之间的矛盾性更困难。应明生教授考虑把定理证明的技术运用到不精确和近似的情况中来,研究不精确知识在近似意义下的证明论[14]。
因特网知识的收集整理涉及多源时变知识和海量知识。时变知识非常复杂,既有精确,又有模糊;既有矛盾,又有冗余;还有时态和背景依赖性。传统的时态数据库不够用,如果能使用多种逻辑和数学手段,使计算机自动收集和整理多源时变知识,将是很有意义的。
海量知识处理技术的研究被因特网的普及所大大促进。当前浏览器的智能太低。许多软件机器人和网络机器人之类工具,尚停留在实验室阶段,还不能直接为广大因特网用户掌握和使用。浏览器功能弱的原因在于它们所用的信息检索技术主要是基于语法的,应该发展基于语义、语用和知识的智能浏览器。
五. 知识的数学理论
指“从数学的观点来看,知识是什么”这样一个问题。仙农曾经对信息的数学本质进行过研究,提出了著名的仙农信息论[15]。他用熵的概念来研究信息的含量。佩特里进一步指出,信息应该看成是像能量、动量、角动量一样的物理量,应该有自己的守恒律和其他物理定律。佩特里认为这应是一门新的学科,称为信息动力学[16]。
另一方面,仙农的理论不能照搬到作为宏观信息结构的知识上来,因为仙农的研究是以比特为单位的。我们举两个可供研究的问题作为例子。
在计算机科学中,通信同步理论的研究已经有了很大的进展。CSP和CCS可以看成是信息通信在变量一级的理论,比起早期比特一级的数学理论来提高了一步[17]。∏演算的提出有助于解决移动通信中的理论问题。但∏演算仍然是变量级的[18]。近年来,人们致力于研究知识级的通信理论[19] [20]。
此外,量子计算机的前景提供了大量有意义的研究课题[21]。复杂性分析是知识的数学理论的又一重要分支[22]。
不同媒体表示的知识形式转换是另一个理论问题。近几年,因特网上的多媒体节目生成和传送发展迅速。如果能解决文字和非文字形式的互换,将大大提高因特网传输多媒体节目的效率,应用前景很大。
我们做过十年计算机动画自动生成技术的研究,克服了一系列由自然语言自动生成动画的技术难点。对解决上述问题将会有用。
六. 知识获取的理论和技术
多年来,专家们一直公认知识获取是知识工程的一个瓶颈问题。有关知识获取的研究可分为三个流派,它们分别以心理学方法、人工智能方法和软件工程方法为其特征[23]。这方面最著名的成果是由欧洲的学者们在几年前提出的KADS。经过欧共体Esprit计划多年连续支持,如今的Common KADS已发展成欧洲范围内的公认标准[24]。
我们研究的《天蜂》技术用于书面知识自动获取和CAI系统快速成型[25-30]。它的要点是设计一种类自然语言,使人们能基本按原样把书本或其他书面资料输入计算机。以下的工作,包括阅读资料、抽取和整理知识、组织教材、编写习题、集成教学系统等都由计算机自己完成。《天蜂》技术适用于批量化和大规模地生产CAI系统,开发各类应用软件的专用知识库,开发面向个人的(网上)电子博物馆和电子教室,以及大规模电子编辑出版。
现在,研究者更多关心的已经不是获取专家头脑里的知识,而是从海量信息中获取知识。因特网的浏览器太笨,自动在网上收集信息的软件机器人应运而生。信息过滤和提炼技术倍受重视,特别是在文本知识获取方面。从数据中获取知识的数据挖掘研究在商业领域已得到广泛应用。
七. 基于知识的软件工程
软件工程的实践告诉我们,软件开发失败的原因往往在于需求分析没有做好。而需求分析没有做好的原因又往往在于用户和软件工程师之间缺乏良好的合作。
应该尽可能多地把用户吸引到软件开发过程中来,让用户自己来定义、设计、开发、维护和修改软件。做到这一点的关键是以强大的知识支持作为后盾。我们在《青鸟》技术框架内[32]研究的《天鹰》技术以一个大容量的领域知识库来支持软件的开发。同时提供一种面向领域用户的类自然语言。用户只需说明情况而无需说明需求,计算机即可在上述知识库的支持下自动生成所需的信息系统[33-38]。
《天鹰》项目的启示是:第一要区分应用软件中的两种知识:软件知识和领域知识。第二要有两支专业队伍:软件工程师和知识工程师。第三要从软件产业中分离出一种新的产业:知识产业。我们相信,循这条路发展,必能使软件产业和知识产业同时发展成两个独立而繁荣的产业。
八. 知识用于计算机艺术
计算机艺术和人工智能几乎是同步出现的。这里只谈最有实用意义的计算机辅助动画制作。它的某些环节已可实用,甚至成为商品。但据我们所知,充分利用人工智能技术的计算机动画全自动生成技术在我们的工作之前还没有。
动画应用十分广泛,在精神文明和物质文明的创建中都起着重要作用。但生产动画十分艰巨,费用十分高昂。美国动画片"玩具总动员"据说是投资4000万美元拍摄的.中国应研制出自己的新技术, 以弥补经济实力的不足,取得战略优势.
我们研究出了一条基于知识的动画生产全过程自动化技术,可使计算机把以受限自然语言形式写的故事自动转换成动画。并开发了相应的软件系统<<天鹅>>[39-41]。
要把这项技术变成产业,还有大量工作要做。但我们深信它是能够变成产业的,并将引起动画片生产技术的行业改造。
九. 中国国家知识基础设施
许多有识之士一直在谈论信息高速公路有路无车的问题。如果耗巨资建设起来的信息基础设施不能得到充份利用,将是一个极大的浪费。信息基础设施的主要内涵应该是知识。1995年,曹存根博士在青年科技论坛上首先提出了国家知识基础设施(CNKI)的思想[42]。再往前,中国科学院从八十年代开始即组织有关科学知识库的研究,并拨专项经费支持。十多年来,已建成涉及物理、化学、生物等领域的十几个科学数据库,在科研工作中发挥了积极作用。
从科学基础研究角度看,国家知识基础设施的基础性体现在两大方面。第一,它提出了大规模知识网络的建设和利用问题。第二,国家知识基础设施将为许多基础研究和应用开发研究提供必要的知识基础 。
从人类知识保护方面看,国家知识基础设施所提供的知识获取工具将充分吸收人类各种专家的宝贵经验,将它们永远地保存在知识库里,供后人使用或发展。
最后,从国民文化教育观点看, 国家知识基础设施还将是提高全民族文化和科学素质的有力工具。
参考文献
[1] Feigenbaum, E.A., The art of artificial intelligence, Themes and case studies in knowledge engineering, IJCAI 5, 1014—1029.
[2]陆汝钤(主编)世纪之交的知识工程与知识科学,清华大学出版社,2001。
[3] Stefik, M.J. et al., Artificial Intelligence, V.61, N.1, 1993
[4] 吴建敏,专家系统解题模型分类研究,中国科学院数学研究所博士论文,1991年。
[5] Genesereth M.R. , Fikes R.E., Knowledge Interchange Format, Version 3.0, Reference Manual, Computer Science Department, Stanford University, 1992.
[6] Labrou, Y., Finin, T., A Proposal for a New KQML Specification, TR CS-97-03, UMBC,1997.
[7] McCarthy,J., Formalizing Commonsense: papers by John McCarthy, Ablex Publishing Corporation, 1990. 1997
[8] McCarthy,J., Programs with common sense, Proc. Symp. Mechan. Of Thought Proc., In [3].
[9] Lenat, D.B. and Guha, P.V., Building Large Knowledge Based Systems: Representation and Inference in the CYC Project, Addison Wesley, 1990.
[10] 陆汝钤、石纯一、张松懋、毛希平、徐晋辉、杨萍、范路,面向Agent的常识知识库,中国科学(E),V.30, N.5,pp.453-463, (中文版), V.43, N.6, pp.641-652, (英文版) , 2000.
[11]林作诠,李未,超协调逻辑(I)(II)(III)(IV),计算机科学,1994,N.5,N.6,1995,N.1。
[12] 波普儿,猜测与反驳,科学知识的增长,1963。
[13]李未,开放逻辑:一个关于形式系统序列和极限的理论,在[2]中,197-226页。
[14]Mingsheng Ying,Topology in process calculus: Approximate correctness and infinite evolution in concurrent programs, Springer Verlag, to be published.
[15]C.E. Shannon, A mathematical theory of communication, Bell Sys. Tech. Journal, 27: 379-432, 623-656, 1948.
[16]C.A. Petri, Private communication
[17]M. Hennesy & H.Lin, Symbolic Bisimulations, Theoretical Computer Science, 138: (2) pp.353-389.1995.
[18]R. Milner, Communicating and mobile systems: the p-- calculus, Cambridge university press, 1999.
[19] Cardelli I., Gordon A D., Mobile Ambients, in M.Nivat, editor, Foundations of Software Science and Computational Structures, LNCS No.1378, Springer Verlag, 1998:140—145.
[20] Vitek J., Castagna G., A calculus of secure mobile computations, in Proc. of the IEEE Workshop on internet programming languages, 1998.
[21]夏佩肃,量子计算,中科院计算所技术报告,2001。
[22]李明、P.M.B.威塔涅著,描述复杂性,科学出版社,1998。
[23]Lu Ruqian, New approaches to knowledge acquisition, World Scientific Publ., 1994.
[24] Wielinga, B., Schreiber A.T., Breuker J.A. KADS: A modeling approach to knowledge engineering. Knowledge Acquisition, 4(1):5—53, 1992
[25] Lu Ruqian, Automatic Knowledge Acquisition by Understanding Pseudo-Natural Languages, Theory and Praxis of Machine Learning, Dagstuhl Seminar Report 91 (9426), pp.11-12, 1994.6.
[26] Lu Ruqian,Cao Cungen,Chen Yonghong,Han Zhangang, On Automatic Generation of Intelligent Tutoring Systems, Proc. of 7th International Conference of AI in Education, 1995.
[27] Lu Ruqian,Cao Cengen,Chen Yonghong,Mao Wenjie,Chen Weiqin,Han Zhangang, The PLNU approach to automatic generation of ICAI systems, Science in China, series A, Vol.38, supplement, pp.1-11, 1995.
[28] 毛文吉,陆汝钤, 基于SELD描述语言的英文文本知识自动获取,计算机学报,V.21, 增刊,pp.105-111, 1998
[29] Lu Ruqian, Mao Wenjie, Automatic Generation of ITS from English Text, ICCE 98, pp.319-324,1998.10.
[30] Lu Ruqian, Han Ke, Ma Yinghao, Lu Peijun, Using VR Techniques in ICAI Systems, Proc. of GCCCE'97, pp.230-237, 1997.
[31]David W. Mount, Bioinformatics, sequence and genomic analysis, Cold Springer Lab. Press,
[32]杨芙清、邵维忠、梅宏,面向对象的CASE环境青鸟II型系统的设计与实现,中国科学(A辑),1995,25(5):533-542。
[33] Lu Ruqian,Jin Zhi,Wan Ronglin, Requirement Specification in Pseudo-Natural Language in PROMIS, Proc. of 19th COMPSAC, pp.96-101,1995.
[34] Lu Ruqian, Jin Zhi, Wan Ronglin, A knowledge- based approach for automatically prototyping management information systems, AVIGNON 94'.
[35] Lu Ruqian, Jin Zhi, A Multi-Agent and Pseudo-Natural Language Approach for Intelligent Information Services, Proc. of SEKE'97.
[36] Lu Ruqian, Jin Zhi, Liu Lin, Fan Guochuang, Chen Gang, Xun Xiaojin, Wang Sheng, OSNET-A Language for Domain Modeling, Tools Asia'98, 1998. 9.
[37] Lu Ruqian, Jin Zhi, Hierarchical Software Reuse, Advanced Chinese Journal of Software, 1998. 12.
[38]Ruqian Lu & Zhi Jin, Domain modeling based software engineering, a formal approach, Kluwer Publishers, 2000
[39] Lu Ruqian, Zhang Songmao, Wei Zichu, Generating Computer Animation from Natural Language Texts, Proc. of PACE 99', 1999, Los Angles.
[40]Ruqian Lu & Songmao Zhang, Automatic generation of computer animation, LNAI 2160, Springer Verlag, to be published.
[41]陆汝钤,张松懋,从故事到动画片,全过程计算机辅助动画自动生成,自动化学报,待发表。
[42] 曹存根, 关于建立“中国国家知识基础设施”的建议,计算机世界报,1998年12月。
(本稿最后修改日期:2003年4月7日)