走近吴立德教授:CV、NLP中国最高奖项得主,讲述复旦大学人工智能几十年往事
吴立德教授,中国最早从事计算机视觉和自然语言处理研究的科学家之一。1937 年生,复旦大学教授,博士生导师。美国纽约科学院院士,中文信息学会会士,中国计算机学会计算机视觉专委会(CCF-CV)终身成就奖获得者。计算机技术与软件专业技术资格(水平)考试的早期推动者之一。
曾任复旦大学首席教授、复旦大学计算机科学系主任、复旦大学计算机科学研究所副所长。多年来在这两个领域培养了二十余名博士、六十余名硕士。在概率论、计算机视觉和自然语言处理领域,吴立德教授一共出版了七本专著,发表了两百余篇论文。完成了近五十项科研项目。
吴立德教授是复旦大学人工智能研究的创始人,开创了复旦大学计算机视觉和自然语言处理两个研究方向。1982 年,吴立德教授在人工智能顶级学术期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》(TPAMI)上发表了中国大陆学者的第一篇论文。
随着大模型时代的来临,ChatGPT、Midjourney、Sora 等信息处理大模型成为了人工智能领域最受瞩目的技术。这些模型可以往往用于处理语音、文字、图片、视频中某一类型的信息,而可以处理多种类型信息的模型被成为多模态模型。
在大多数研究机构中,作为独立的研究方向。自然语言处理和计算机视觉都属于不同的科研团队。而在复旦大学的人工智能发展过程中,吴立德教授早年开创了学校的计算机视觉和自然语言处理两个研究方向,这在中国计算机科学早期发展中非常难得,也比较少见。
2024 年 5 月,我在上海拜访了吴立德教授,他给我讲述了他个人的科研历程,以及复旦大学人工智能发展几十年前的往事。
吴立德,1937 年 4 月出生于上海。1955 年,吴立德参加高考,凭借自己的兴趣,他报考了复旦大学数学系。当时的复旦大学数学系可谓大咖云集,其中包括苏步青教授、陈建功教授等。这两位教授都在 1955 年当选为中国科学院首批学部委员(院士)。
1959 年 1 月,吴立德提前大学毕业并留校任教,他被分配到郑绍濂老师负责的概率论教研组。刚工作的时候,吴立德在学校从事一些数学的纯理论研究,还参加编写了郑绍濂老师主持的《概率论与数理统计》,这本书当时被国内很多高校用作教材。
上世纪六十年代初,一个项目让吴立德感受到了电子计算机技术的重要。
早在 1921 年,上海市就发现有地面的沉降现象。上世纪五六十年代,上海水文地质大队对地面沉降现象进行了长期深入的调查研究,研究发现,地面沉降是由于过度抽取地面沙层中的地下水导致地下水水位下降,进而造成地层的压缩并累积而成。解决方法就是限制地下水的抽取,并实施地下水的人工回灌。
查明了原因,也有了解决方案,下一步要做的就是实施。这时就需要掌握水量、水位和沉降幅度之间的数量关系。在这种情况下,上海水文地质大队找到了复旦大学数学系,希望合作解决这个问题。
复旦大学数学系把这个任务分配给了吴立德等。在地质大队大量工作和已积累的数据基础上,他们与地质大队工程人员一起,经过反复试验和计算,终于为地面沉降项目建立了一个简单合理的开采量、回灌量与地下水水位,以及地下水水位与地面沉降幅度之间的数学模型。其水位预测精度达到 0.5 米,沉降精度达到 1 毫米,为定量的计划用水、灌水、控制沉降提供了依据。
这次复杂的计算也让吴立德第一次感到了人工计算的局限,也意识到了电子计算机的重要。
工程实施后,截止 1965 年,上海的地面沉降问题基本得到了控制。这个项目后来获得了 1978 年的“全国科学大会奖”。
在数学系,吴立德还参与了利用地震资料勘探石油的数字处理项目。众所周知,石油是古代海洋和湖泊中的动物经过漫长的演化形成,石油在地表层之下,在开采石油之前需要先勘探石油的位置。
当时中国石油物理勘探的主流方法用的是人工地震方法。记录的地震资料是模拟信号,精确度不高。而当时国外的石油地震勘探的资料已经由模拟信号转向数字信号。地质部第六物探大队知道了这个进展后找到复旦大学数学系,希望合作开发石油地震资料勘探资料的数字处理系统项目。这个项目由复旦大学信息论教研组与地质部第四物探大队、第六物探大队和第一海洋地质调查大队共同组成研究组,由吴立德任组长。
经过几年的时间,研究组开发出一套完整的基于地震资料进行石油勘探的数字处理系统。这个项目是在 719 大型计算机上通过汇编语言完成的,后来也获得了 1978 年的“全国科学大会奖”。
1975 年 10 月,复旦大学成立计算机科学系,数学系和物理系与计算机专业有关的老师都转入计算机系,吴立德也参与了新计算机系的创立,并开始了计算机专业的研究。方向包括数字信号处理、数字图像处理、模式识别等。
当我问吴老师为什么开始做计算机视觉的研究时,吴老师说,他是很幸运的,文革时期还可以一直做研究。因为一直做数字信号处理的研究,信号是一维的,随着研究的推进,自然而然就开始研究二维的数字信号,研究方向就演变到模式识别和计算机视觉。
1977 年,吴立德开始招收硕士研究生,那时的研究方向就已经包括模式识别。
1978 年,吴立德荣获上海市先进工作者,同年越级晋升为副教授。
1979 年,吴立德和汪嘉冈、李贤平、卞国瑞三位老师共同编著由上海科技出版社出版的《概率论》(共三卷四册)。这套教材累积发行超过 60 万册。
1980 年 1 月到 1982 年 12 月,吴立德教授在美国普林斯顿大学和布朗大学进行为期两年访问学者的研究工作。吴老师跟我讲,本来 1979 年就准备去加拿大的高校做访问学者,结果因为手续方面出了差错没有去成。拖到 1980 年才出发,而这次学校把他派到了美国进行访问。
在普林斯顿大学,吴立德教授的合作导师是 Theodosios Pavlidis(西奥多西奥斯·帕夫利迪斯)教授,Pavlidis 是美国知名模式识别专家,也是 2000 年国际模式识别领域最高奖“傅京孙奖”的获得者。吴立德在普林斯顿从事的是直线链码相关的研究工作。直线链码,就是数字图像中表示曲线或线段的方法,可以在计算机中描述线段的路径走向。
在布朗大学,吴立德教授的合作导师是 Ulf Grenander(乌尔夫·格雷纳德)教授,Ulf 教授早期的工作为国际模式识别和计算机视觉的研究奠定了数学基础。吴立德教授在布朗大学的研究方向就是数学统计方面的工作。
回国后,吴立德教授开始担任复旦大学计算机科学系主任。
也是在 1982 年,吴立德教授在《IEEE Transactions on Pattern Analysis and Machine Intelligence》(TPAMI)上发表论文《On the Chain Code of a Line》,TPAMI 是计算机视觉和人工智能领域公认的顶级国际期刊。这是中国大陆学者在该期刊上发表的第一篇论文。
这是一篇关于识别直线链码的论文,这篇论文提出了一个识别一组编码是否为直线链码的方法。是模式识别和计算机视觉的基础工作。要知道,如果把 2022 年 ChatGPT 发布看做大模型的诞生,这可是大模型诞生之前 40 年做出的研究。
1984 年,经国家教育委员会特批,吴立德晋升为教授。
同年,吴立德教授又发表了 TPAMI 上的第二篇论文《A piecewise linear approximation based on a statistical model》,这篇论文提出了一种分段逼近算法。在数学和计算机科学中,非线性函数要比线性函数复杂很多,为了简化计算,分段逼近算法才用若干简单的线性函数去近似表示一种非线性函数。
这些工作都是复旦大学早期模式识别和计算机视觉研究的基础工作。
1985 年,复旦大学计算机系的老师张然从日本留学归来。当时国内计算机软件人才稀缺,他带回来了一个快速培养计算机相关人才的方法。在日本,国家会面向社会人员提供计算机专业水平考试,考试通过者则可以被认为是计算机专业人才。张然觉得中国也可以采用这种计算机水平考试选拔人才,所以把这个建议给到了上海市科技委员会。
上海市科委觉得这个方案很好,并决定立即实施。由科委出资,复旦大学计算机系来具体执行。从那一年起,吴立德教授开始负责上海市计算机应用软件水平考试的组织和命题工作。
逐渐地,外省市知道了这个考试,并且也愿意参加。于是由国家人事部协调,还是由复旦大学命题,几个省一起考。最后,这个考试从上海市彻底归到了人事部,变成了国家计算机技术与软件专业技术资格(水平)考试,这就是大名鼎鼎的“软考”,吴立德教授是这个考试的早期推动者之一。
1989 年《上海市计算机应用软件人员水平考试的研究与实施》获得了上海市科技进步三等奖。
1987 年,吴立德教授开始招收博士研究生,首批招收的博士生是庄青和翁富良,其中庄青的博士课题为三维物体的识别研究。
也是在这一年,吴立德教授开始从事自然语言处理方向的研究。说起为什么要做自然语言处理,吴老师跟我说了两点原因,一是研究计算机视觉对硬件的要求高,当时的设备和经费都很吃紧。二是当时觉得语言比视觉更加接近人类智能。如今,大语言模型是发展最早的大模型技术,站在今天回望,真的很佩服吴老师当年高瞻远瞩的思想。
吴老师说,当时做自然语言处理是从零做起,从中文的分词方法开始研究,然后是更深入的句法分析、语义分析等。
1988 年,吴老师培养的第一个自然语言处理方向的硕士徐坚毕业,毕业论文的方向是自然语言处理中的句法分析,论文题目为《FDATN——一个英文句法自动分析系统》。
同年,吴立德教授申请到了他的第一个国家自然科学基金项目《早中期机器视觉中的新方法》。20 世纪 70 年代,美国麻省理工学院 David Marr 提出了视觉计算理论,阐述了视觉系统处理外部信息的三个过程。第一个过程主要是对图像边缘的抽取,第二、第三个过程分别是对图像建立二维和三维的模型。吴立德教授当时对这一过程的前两个阶段进行了研究。
1991 年,吴立德教授申请到了第一个自然语言处理方向的国家自然科学基金《自然语言(汉语)理解中语义解释新方法的研究》。
1991 年和 1992 年,吴立德教授承担了两个 863 课题《立体视觉和运动视觉》和《汉语及其他自然语言理解的基础性研究》。
1993 年,吴立德教授的专著《计算机视觉》由复旦大学出版社出版。
1997 年,吴立德教授和博士生黄萱菁合著《大规模中文文本处理》,这本书是第一部中文统计自然语言处理专著,该书系统地介绍了大规模中文文本信息处理的理论和方法,有力促进了我国中文信息处理领域研究快速发展。
1999 年,黄萱菁博士毕业。后来,黄萱菁教授成为了吴立德教授的得力科研助手和复旦大学自然语言处理方向的学术带头人。
2000 年起,吴立德教授开始语义视频信息检索方面的研究,同时开始参加文本检索会议(TREC)的评测,并取得了很好的成绩
语义视频信息检索,顾名思义,就是根据自然语言的关键词和句子在视频中检索出想要的信息。吴老师说,这个研究他们做了七年之久。
2007 年,吴立德教授正式退休。
特别难得的是,吴立德教授退休之后的 10 年还在一直工作。从退休起,吴立德教授开设了自然语言处理方向的专题讨论班,每周固定一天下午为学生讲课,并且吴老师一直坚持着手写板书而不用 PPT 的习惯。复旦大学计算机专业的学生们在这十年间可以听到吴老师这样的学术泰斗亲自授课,真的是一种幸运和幸福。
2018 年,吴立德教授获得中国计算机学会计算机视觉专委会(CCF-CV)终身学术贡献奖。
2021 年,吴立德教授当选中文信息学会会士。
截至目前,吴立德教授是同时拿到计算机视觉领域和自然语言处理领域两项中国学术界最高成就的唯一学者。
吴老师在严谨和谦和的态度让我很感动,作为一个 87 岁的学者,吴老师耐心详细的给我讲解了 60 年前地面沉降和石油勘探两个项目的原理。
吴立德教授一共培养了 26 名博士生,66 名硕士生。当我问吴老师一共培养了多少学生时,吴老师拿出他的学术论文选,对我说:“这个后面有培养学生的名单,具体有多少个我来给你数数。”说完就一个一个的学生数了起来。
经过几十年脚踏实地的科研经历,吴立德教授在计算机视觉和自然语言处理两个领域取得了丰硕的成果,还有早年在概率论方面扎实的工作。这一切成绩都源于吴老师务实和宝贵的研究思想。
就像吴老师告诉我的,因为本来是研究信号处理的,一维的信号处理过渡到二维自然要做模式识别和计算机视觉。后来因为硬件条件的限制,也希望做更贴近人类智能的研究,所以开始做自然语言处理。正是这些务实而专注的方向选择成就了一位中国人工智能两个领域内的学界泰斗。在这样一个竞争激烈且很容易迷茫的时代,这样宝贵的精神尤其值得借鉴和参考。
秦海龙,香港科技大学社会科学部博士后研究员,中国中文信息学会社会媒体处理专业委会委员。主要研究方向为中国人工智能发展史和计算社会学。博士毕业于哈尔滨工业大学社会计算与信息检索研究中心,前自然语言处理研发工程师,曾就职于小米科技和三角兽科技。
今日荐文
这个离开大厂去 AI 创业的互联网大佬,带着他的“Killer Agent”来了
都白学了!Mistral 的首个“开放”编程模型,精通Python、C等 80+ 语言,用220 亿参数赢了 GPT-4
奥特曼突然变身OpenAI “安全卫士”!网友:刚被实锤不关心安全还“心理虐待”,谁信啊
禁令再升级!拜登政府已不想让中国人在美从事AI工作了,套壳大模型的公司也危险了
老黄急了!为跟华为抢业务,英伟达也得低头降价,但大家已经不买账了?
你也「在看」吗?👇
微信扫码关注该文公众号作者