科技信息是创新的基础,而学术搜索使得科研工作者可以从海量资料中更快捷、更精准地搜集所需要的信息。
近年来,学术搜索的内涵和外延不断扩大,从文献检索一直扩展到科研人员画像、交叉学科发现、学术趋势分析等。同时,AI技术的快速发展深刻影响了用户搜索的习惯,在AI时代,学术搜索的内涵与外延是什么?学术搜索的技术、应用、产业发展如何?研究者该如何借助学术搜索引擎站在巨人的肩膀上?学术搜索提供商如何为学术发展贡献力量,优化学术资源生态,实现技术价值?
在AI时代,学术搜索的内涵与外延有什么变化?
2009年至2019年,中国科技人员共发表国际论文260.64万篇,按数量排名,处在世界第2位;论文共被引用2845.23万次,增加了25.2%,也排在世界第2位。快速增长的科技文献规模已远远超出了个人的处理能力,面对海量的文献资源,学术搜索的范围有哪些变化?学术搜索的用户和应用场景发生了变化?研究者该如何去粗取精,找到自己需要的资源?
对此,李涓子认为:学术搜索的本质是帮助我们找信息的,即如何从海量的文献资源中找到需要的资源。找文献的目的是辅助研究或者了解研究现状。从整个技术发展的角度来说,学术搜索要助力科研创新,提升创新的速度,发现值得研究的问题以及具体的研究方法,以加速研究过程。在这个过程中,学术搜索可以助力研究者看到整个环境对人、机构、研究问题的评价,发现现象背后的科技创新的规律,而不仅仅是找信息,这已经突破了传统的直接搜索的范畴。
从学术搜索整个发展过程来看,周园春谈到随着大数据驱动的科研创新的发展,我们越来越侧重基于数据做科技创新,而科技创新必然会带来数据。所以,在这过程中学术搜索的范围越来越大,除了传统的论文、专利、其他文献,学术搜索还需要附加其他的一些资源,ImageNet项目就是找到、使用大规模的科研数据,以支持科研创新甚至引发新一代技术浪潮的典型例子。科学数据既是学术创新的源头,也是学术创新的成果之一。所以:学术搜索的外延可能不断扩大;在扩大过程中,学术搜索也将和NLP、知识图谱等新的技术等不断融合;另一方面,学术搜索服务提供商和用户可能会双向促进,学术搜索在为科研人员提供精准的信息搜索时,科研人员也会为学术搜索贡献自己的智慧,交互式的学术搜索在未来将会借助大众参与实现系统完善、准确性提高的过程中来。学术搜索的发展趋势应该是用户群体不断地平民化,外延不断地扩展,以便使得自己能够更好地与技术、应用、产业相互的关联。
刘筱敏从应用方的角度进行了分享。从学术搜索的内涵来说,无论是过去的图书馆服务读者,还是今天的学术搜索服务更多的用户,其本质都是搜索信息,即图书馆中所说的检索。检索从18世纪40年代诞生以来,走到今天拥有了两个极大的特征:检全率(怎么检索到全部信息);检准律(怎么检索到准确的信息)。从学术搜索的外延来说,因为现在所有的信息都服务于科研的整个学术生命周期,所以搜索本身就是围绕着科研的任何一个因素或任何一个生产要素,将其作为学术搜索的对象,并随着科研方式的变化而演变。学术搜索的关键是要抓住学术是什么,搜索在检索的全面、准确、深度上能做什么。
刘雪峰从产业界的角度进行了展开。他认为学术搜索最主要的变化是在用户层面,即解决的问题一直是没有发生剧烈变化的,但是用户群体在不断扩大。以前学术搜索的使用可能都是一些专业学者,而随着技术的发展,很多高校学生、普通用户、甚至是对某些专业领域有疑问的爱好者都来使用学术搜索查找自己问题而答。百度学术也在顺应这样的潮流,其正在做得就是这样一个事情,希望能服务更多的用户,扩大用户群体。
学术搜索的技术发展
在聊完了学术搜索的内涵与外延以后,大家开始了对学术搜索的相关技术的探讨。
问题一
学术搜索和普通的搜索有什么区别?是更容易了,还是更难了?
对此,刘雪峰认为判断难易程度要先定义维度,学术搜索的难点在于学术搜索的核心是背后的学术内容,即怎么保证内容的准确性、权威性,以及如何把那些异构的数据库实现成结构化的数据。刘雪峰举了一个形象的例子:如果说普通搜索是建造一栋百货大楼,学术搜索可能就是开一家书店。开书店的成本更低,但是要想开好一家书店,需要提供非常优质的书籍和内容,满足各个读书群体的需求,这里面其实可能是学术搜索的难点所在。
李涓子补充到:通用搜索的是和学术搜索不一样的,学术搜索作为垂直搜索,其资源的准确率、覆盖面以及对特定领域的分析深度决定了学术搜索的品质。此外,学术还需要注意对需求方的服务程度,因为需求方的要求可能会更高,需要的信息更精细,对学术前沿的预测能力要更强,这些可能是学术搜索更难的地方
问题二
在这个领域,我国现在技术方面的现状是处于领跑、并跑还是跟跑状态?
周园春提到学术搜索不仅是技术问题,还是一个综合问题。一些学术搜索服务提供商之所以强大,很大程度上是因为拥有多年的数字资源的积累,而积累量是查全率的基础。目前来看,与国际对比,我们在技术上的差距比内容上的差距要小,这是我国目前面临的现状。这个问题在这次疫情中展现得也比较明显,数据孤岛的现象比较严重。近几年国家一直在推动资源的开放共享,出台了一系列政策实现资源的汇聚,以打破数据孤岛。
问题三
关于学术搜索中的实体、知识融合,学术界已经有很多方法,但是在实践上并不能完全满足要求。如何应对这类问题?
李涓子强调打破信息孤岛最重要的一个技术就是融合,而实体的歧义是这里面一个最困难的问题。消歧问题被研究了很多年,从自然语言处理一直走到知识工程,但是一直达不到应用的状态,成为学术搜索的一个技术瓶颈。要打破技术瓶颈、推动学术搜索的技术进步,可以尝试设置一个长期的比赛,以鼓励每年都用一些技术更新来推动相关领域的技术发展。
周园春分享了自己正在做的事情:在科研数据中设置一个数据资源的ID,通过异构的标识融合和解析,在实践上、工程上实现底层资源和基础设施的互联互通,然后实现语义的互联互通,这样可以实现几个层面的一些交叉融合,最后在实践上提高学术搜索的准确率。
刘筱敏提到了国际上作者、机构、基金等的唯一识别号的发展现状、存在的各种风险,以及其在国内面临的挑战。并认为它一方面从在提高技术含量,另一方面也在鼓励科学工作者开放交流。
周园春补充到通过统一的标识实现科技资源融合是一个从源头促进科技实体标准化的有效手段,我国也已经开始尝试做相应的工作并取得了初步的效果。要想进一步提高效果,还需要从制度体系包括技术体系等方面共同解决这个问题。
刘雪峰谈到百度学术正在搭建自己的学者体系,就是为每一位学者建建造了专属的唯一ID,除了国家机构去推动,是不是可以通过为学者建造高影响力的个人网站等方式让学者更主动地去分享自己的学术成果,把自己的一个学术体系给它搭建起来。
问题四
在自动摘要生成、交叉学科发现、趋势分析与预测、学术影响力评价、专家&机构画像等场景中,还有哪些技术可以赋能?
刘雪峰首先分享了百度学术在实现自动摘要生成过程中遇到的问题。
周园春结合自己工作重点分析了交叉学科发现领域的技术。第一,中科院计算机网络信息中心一直在数据服务、软件工具等方面支撑中科院的科技创新,鼓励研究者进行跨所、跨学科领域的交叉学科的发现。第二,从国内外基金申请、管理的情况看,打破学科的限制,更多地按关键词来对专家、项目等进行评估,从这些交叉学科里面发现哪些技术是值得深入探讨的。
李涓子提到要从学术搜索的整体去分析到底需要什么样的信息,如专家画像、专家的学术影响力分析等。知识图谱是支持整个学术搜索底层内容,摘要生成是中间层的支撑技术,上层的应用则是根据精确的知识支持不同业务场景,如趋势分析等。学术搜索最终要赋能用户,增加用户的能力,让用户能够更好地去做自己要做的事情。
刘筱敏认为5个场景都是学术搜索的目标,只是因为用户需求不同衍生出来了不同应用场景,核心都是能够把所有信息的内涵比较简单地、显性化地展示出来。对此,技术需要发挥极大的作用。大家比较诟病的影响因子等指标,主要是过去受传统的阅读方式、文献使用方式的影响。未来,在学术搜索的环境下,用户行为更多元,可以抓住数据应用过程这个着力点,创造新的学术评价方法甚至算法,这将产生新的结果,也将引导用户采取一种新的使用学术资源的方式。
周园春对刘筱敏老师的内容进行了评价,认为学术搜索在科研诚信、学术影响力评价方面可以做一些工作。现在国内的科研评价(学术影响力)侧重于论文,未来也许评价范围应该超越科学研究领域,在评价体系中包含专利申请、技术转化和综合创新等,从解决国家层面的问题、服务社会经济发展、服务整个国家战略的角度进行评价。
学术搜索的应用落地
问题
从用户角度(例如学者、期刊/会议、高校、基金资助机构等)来看,AI在哪些场景已经发挥了作用?哪些场景还需要改进?还有哪些需求没有被满足?在学术搜索领域还有哪些场景可以用AI赋能?学术搜索+AI对国内外学术环境有哪些影响?
刘雪峰首先就百度学术的现状和AI技术赋能的方向进行了介绍:第一,百度学术现在很大一部分用户是毕业生群体,他们面临的一个主要问题是如何开题。此外,很多热门的研究方向其实都有很多人在做,能不能通过AI算法观察整个行业的研究趋势、热点方向、演进图,然后分析出自己应该聚焦的研究方向?第二,语义搜索是否是一个有价值的方向,传统都是通过关键词进行搜索,未来能否借助AI技术,实现用户可以用自然语言进行交互,对搜索请求进行智能化的搜索和分析?
周园春提出:在学术搜索、科研评价过程中,当前我们聚焦的范围是不是太狭隘了?评价体系是不是可以多元化一点?并指出在最近的一些政策文件已经提出数据可以作为我们生产要素,如果科研评价的要素更广泛、更多,这将对学术搜索带来的挑战。因为搜索的范围、服务的内容、资源都更广泛的话,收集、整理的难度会更大,这可能就是我们未来需要持续改进和持续往前走的一个理由。
李涓子谈到,随着学术搜索的发展,大家看到了它除搜索文献之外的应用场景,如评审人的智能指派等。在此过程中,学术搜索实际上已经发生了很大的一个变化,应该把学术搜索放到科技信息服务业的一部分这样一个角度,从科技情报、科技信息、科技技术整体服务的角度来考虑。在这当中,学术搜索可以满足的需求非常多,自身可以扩展到非常大的一个空间,值得投入非常多研究资源,也必将能够帮助用户更好地做出科技的创新。
学术搜索的产业化突破
问题一
目前,谷歌、百度、微软等大型企业都持续在学术搜索上发力,作为Semantic Scholar、AMiner这样的学术搜索平台,在哪些方向会有所突破?面对AMiner这样的平台的冲击,百度学术这样的传统学术搜索引擎,应该如何响应?
李涓子认为很多新涌现的学术搜索,如Semantic Scholar、AMiner等,更多地是希望能够用新的这样技术来去助力面向科研、科技的信息服务。如AMiner提出“打造最智能的学术搜索引擎”,Semantic Scholar的发起人则直接提出“希望能去发现最本质的研究点、交差研究点,从而促进创新”。后起的学术搜索可能更希望在搜索的基础上更上升一步,更好地理解科研资源背后隐藏的引领科技创新的东西。
刘雪峰提到传统学术搜索和新锐学术搜索二者存在差异。第一:AMiner和百度学术并不构成一个直接的竞争关系,双方都是希望成为科研学者学术道路上的一个好帮手,双方的产品定位不同,面向的用户群体以及提供的一些服务也有一些差异,AMiner是用计算机技术完成计算机领域的一个学术搜索,有非常大的一个学术和社会价值。而百度学术的定位与AMiner存在差异,它是全网论文的搜索平台,涵盖各个领域,用户和内容是百度学术的一个优势和责任。第二:AMiner提供的服务更加的深度,对很多前沿的技术做得更加深,而这些是百度学术正在做的,百度学术希望能把CS领域的一些AI技术等尖端的技术也应用在别的领域,让别的领域的用户也能够对体会到AI技术带来的一些搜索体验的提升。
周园春认为:从产业的角度来说,最终还是面对用户,从用户的角度来说,用户希望能够确实在技术发展的过程中,服务内容、服务形式要吸引人。
刘筱敏从学术搜索用户的角度提出:用户黏性很重要。很多人使用百度学术等的主要原因就是因为它使用起来简单、快捷、直观,这是它的优点。而使用AMiner算出来的结果需要用户自己进一步分析。二者的产品定位存在差别,所以目标用户、使用体验存在差别。AMiner揭示了学术创新背后的内涵,如果能把内含变得更为显性,更便于理解的话,将会有更多的用户愿意使用他。
问题二
学术搜索对学术出版,科技情报产业的意义在哪里,能否突破产业局限?还有哪些商业上的想象空间?
刘筱敏首先介绍了科技情报产业与学术搜索的关系。“中国科学院文献情报中心”这个名字从字面意义上来看就已经不在是传统意义上的图书馆,而是要做大量的文献分析、情报服务。中国科学院文献情报中心大量的情报服务其实都是以数据为基础,然后进一步分析、专家解读,最后形成报告。而AMiner挖掘了深层次的科技信息的内涵,并且给显性化了,描述了学科交叉发展的状态,这是非常值得关注的一个点。
科技情报产业的需求非常的旺盛,而且需求的点也不一样,它可能会定定制某一些研究的领域或者是某一个微小的点信息。现在,文献是主要的分析对象,其次是专利甚至会议信息,以后甚至可能是科技成果转移、转化当中的某个点。正因为科技情报需要比较专注或做得比较深,所以,类似AMiner的学术搜索引擎就需要做深,做个性化的定制,把深度的内容给挖掘出来,这样才能辅助于科技情报产业的发展,才能摆脱对大量的数据的计算,进而做专家解读,更好的指引研究方向。人工是辅助智能发展的,最终结论还是需要专家来解读的。学术搜索肯定是有意义的,而且肯定是有大的辅助作用,但是学术搜索后面还需要有情报人员的个性化定制过程,只有情报人员参与,才能使数据活起来,才能诞生更有价值的情报产业。
从学术出版角度来看,学术搜索可以辅助发现人才,如编委、主编等,可以成为学术出版中一个很好的工具。
周园春认为:第一,现在对学术出版也做了很大的延伸,如预出版、数据出版等,这些新的出版形势如何进入学术搜索,如何被客观评价是一个很大的问题。第二,学术搜索本身是科技情报的一个基础,学术搜索如果要提供精准的搜索,需要对专利和论文做深度的分析,为科技情报提供一个很好的支撑。此外,科技情报它的范围更广,除了相应的政策分析等,通过企业的招聘信息可以推断出企业的战略布局,进而发现行业整体的发展走势,这些都是未来科技情报产业的一个基础,学术搜索的很多东西可以用到这个地方。从中央政府、到地方政府在到风投机构,大家对科技情报的关注度都很高,因为科技情报可以观察科技贡献,进而辅助评估高新区的新型研发机构。由于面向整个创新创业,科技情报其实很大的想象空间。学术搜索很多的积累、沉淀给科技情报产业能够带来什么很大的想象空间。目前,我们希望打通从设备到数据,然后再从数据到人和成果的整个链条,而这需要我们精准的搜索、准确的评估,进而提供相应的支撑,这里的想象空间很大。
问题三
目前,有一种模式是跟一些出版商进行合作来去汇聚了大量的资源,我们称它为自外而内。还有一种模式是基于内部的一些数据来去做自己的学术搜索,我们称它为自内而外。这两种模式有什么差别,以后有没有可能由一个这样的融合?
刘雪峰觉得在本质上这是两种完全两种不同的模式。百度学术、谷歌学术等没有自己生产的内容,提供的是爬取信息、作为连接人与信息的中间的桥梁,而自内而外本质上就是说是作为内容的生产方。
二者在运营模式上会有一些很大的区别。百度学术这种平台是一些免费的平台,如果想沉淀自己的内容,可能是基于全网的内容再做一些结构化的处理上,然后再生成自己的内容来展示给用户。而自内而外的一些平台可能本身就有一些内容,他在运营模式上可能就相对的封闭一些,他要解决的一些问题可能是更加专业的,或者是某一个垂直领域的一些内容,因为它也不可能兼顾到所有的一个行业的方向。所以,不管是在面向的用户群体上,还是在经营模式上,二者都会有一些区别的。
周园春认为两者的服务对象的差别非常大。第一,因为人是社会的人,所以不可能将搜索只限定在某一块,他还需要很多外部的东西。从服务模式来说,如果要满足用户要求,需要跟外界的数据的融合贯通。第二,从用户的要求来说,因为从内而外类搜索的受到限制、场景比较明确,所以用户对他的服务要求相对明确,所以对准确性要求可能就非常高。对数据质量、准确性的要求不一样,带来的后果就是所需的技术完全不一样,这时,在构建时可能需要人工和技术融合。第三,从未来的角度,二者很难融合。总结来说,由外而内可以给由内而外提供很好的支持和技术。由内而外构建的高质量数据集反过来也许会为外面的模式提供一个支撑和基础。这样的话两个做这样一个融合还是很有必要的。此外,两者都需要有商业模式运转起来,如由外而内的模式慢慢也许可以聚焦一些大客户。总之,两块之间慢慢可能会有一些交叉和融合。
李涓子提到由内而外和由外而内其实应该是都需要的。由外而内的通用的服务是面向大众的服务,如果要做更精细的服务的话,可能还是需要在一个领域或者一个方向上面去深耕。AMiner现在有一个整体的、大的数据,同时,在40个领域上建立了一些有代表性的资源,然后在每一个领域里面深耕。不过,不同领域之间的技术是有共性的,我们希望能够深耕每一个领域里面共性的技术,同时,把通用的需求抽象出来形成一些技术点,然后把它做深,最后为所有的科研人员提供这样一些服务。这样的话,需求方可能就更多了。如果可以去找到最根本的需求,就可以在不同的需求下去做服务。此外,即使有自己特别封闭的一个领域的,它也是需要根外部的库结合。
刘筱敏认为两者之间有关系,简单来说就是如何把科研的成果用到市场上去,这其中最重要的是用户的需求。无论是什么模式,我们只是把研究成果做一个产业化的应用。
AI学术搜索的前景与机会
问题
作为计算机、文献情报界以及产业界的代表,各位对学术搜索的未来怎么看?为学术搜索领域从业者(科研人员、项目研发、产品设计等)提供一些建议?
以计算机行业的代表,李涓子认为对科技信息的这种分析需要很深入的这种对科技文献或者科技信息的理解,第一,科技领域的知识图谱是一个非常重要的资源,它是一个分析科学脉络、组织相关的科学研究的人物机构的一个特别重要的基石。我们应该投身到科技信息情报相关研究的这种基础知识、基础设施的建立过程中,这个过程可能不是一蹴而就的,而是一个长期的过程,但是积累下来之后,它就是关于科技信息的一个很好的财富、一种很好的资源,我们应该做这样一个积累。第二,现在AI技术、算法对数据、知识都有很好分析,我们应该把这资源与分析能力两个驱动力都用上,更好地用AI技术去赋能学术搜索。
刘筱敏从文献情报界特别是图书馆的发展现状进行了剖析。
第一,现在的图书馆面临着很大的挑战,在工具越来越多的情况下,图书馆在做什么?这是图书馆行业的一个问题。刘老师希望有更优秀的学术搜索工具能够辅助、服务于科学家,这事这是肯定的。为了使学术搜索做得更好,图书情报界对数据非常了解的老师们在思考如何把大数据变成一个相对精准的数据,从而提高我们的学术搜索的质量,这是可以有所作为的地方。
第二,面对科研伦理问题,从学术搜索的角度来说有两个点需要注意,首先是学术搜索后边的算法问题,这个算法对用户来说是黑箱,这时就要非常注意要不带歧视地去做,这是非常关键的一个点,即保证你推荐的东西是别人相信的。那么从这个角度来延伸的话,就是说我们整个的学术搜索或者AI的学术搜索的科研伦理是什么,有什么边界和标准需要遵守。
第三,怎么实现用户信息与AI之间的匹配和交流。用户在搜索中的留痕,甚至对信息的一个评价如何反哺学术搜索,然后提高学术搜索的价值,这个可能期待于未来能够和科学家之间有一个互动。
周园春谈到在当下畅想未来需要“不忘初心,牢记使命”。第一,面对当前国际形势带来的实际挑战,作为从业者来说,无论是从内容上还是从技术上都只能埋头苦干,脚踏实地。第二,多年以来,中科院计算机网络信息中心聚焦科学数据很长时间,但是现在回过头来看压力非常大,因为突然有些数据不可挽回的。这是非常遗憾的,所以对数据的积累,还是希望科研人员、项目研发人员、产品设计人员等真正为国家服务,为人民服务,然后脚踏实地,砥砺前行。
作为产业界的代表,刘雪峰认为我们更关注的应该还是用户的需求。随着AI的发展、5G的应用,技术的进步本身对学术搜索的冲击力是非常很大的。
第一,学术场景变得多元化了。之前做学术搜索可能是埋在图书馆里或者电脑前,未来可能我们可以时时刻刻都进行学术搜索,怎样把各个场景下的搜索体验做好,这是产业界一定要横下心来考虑的一件事。
第二,学术内容的多样化了。现在,科研学者的产出可能主要还是以期刊文献为主。其实,学术内容正在以各种各样的形式喷薄而出,如直播等,怎么把多样的数据进行结构化的处理、融合,提炼出有意义的价值,这些都是可以做的一些事情。
第三,学术内容的下沉。学术搜索面向的用户会越来越多,怎么把一些晦涩难懂的一些学术的问题,通过一些AI、可视化的手段向普通大众展示出来是学术内容下沉的关键。搜索的本质在开始时是人找信息,学术搜索的未来可能直接是人找人,如我找一个或研究领域的时候,能够通过AI的手段直接连接到想要咨询的专家,这之前是做不到的。
最后,做学术的最重要的严谨,内容是最重要的,要鼓励产出精品的内容、高质量高标准内容,对科研学者的学术成果要给予充分的尊重,这是最重要的。此外,互联网人是再做学术搜索中要多实践多创新,学术搜索作为一个有很多年历史的东西,从前期的人工到现在的一些使用AI的技术,技术在不断进化,我们要打破之前的一些传统,多创新,摸着石头过河可能会创造出一些比较好的产品。
Q&A
最后,各位老师就观众感兴趣的话题进行了答疑。
问题
学科图谱的构建范围如何界定,学科图谱的术语、概念、属性该如何定义?
李涓子对此做了解答。学科范围的定义,实际上现在在AMiner里面,还是面向一个学科有代表性的期刊和会议,然后从里面去找相关的术语,如果这个领域已经有一些术语,就把它作为比较好的种子,在总的基础上利用各种资源进行扩展。论文是一个获取这些术语的比较好的资源,但我们也可以从论文之外的一些外在的资源去扩展。
此外,知识图谱的构建是挺复杂的一个事情,建一个简单的前后续的关系就挺难的。
在科研信息里面,其实我们也可以建立一些重要的关系,比如某篇论文的研究点,论文研究的问题,或者在论文里面用什么方法去解决这个问题,再比如对论文的一些问题和研究方法进行一些标注,对一个研究点的定义,中英文的对应,以及研究点一些固有属性。
怎么去确定呢?实际上,我们可能会分析这个领域里面大家通用的一些属性,也会利用论文里面上下文的这种情景,去把那种描述两个研究点之间的属性来去学到,后者这个情形其实应该是更难,离实用更远一些,也是我们的一些研究的问题,但是前者可以给他定义一个通用的知识图谱的这样一个结构,而目前我们更多关注上下位的关系,即学科的分类的信息,以及研究点之间的先后序的依赖关系,这是我们定义的一些通路的关系。
本文地址:http://nhjcxspj.xhstdz.com/quote/1857.html 物流园资讯网 http://nhjcxspj.xhstdz.com/ , 查看更多