bing学术(bing学术和百度学术比较)

生活百科 1年前 阅读:116 评论:0

必应学术论文没有引用两个字可以引用吗

论文引用参考文献要标出参考文献的出处。一段的引用就是引用了参考文献。不引用原话的话,概括的写是可以的,如果是原文的话,要加引号。

必应学术怎么找英文文献

网址是:scholar.bing.com,

目前百度学术和必应部分文献是免费的,可以直接下载。无法下载的文献,请复制文献的DOI号,可以去必应上搜索期刊的英文名,然后就可以得到网址了

百度学术能否替代 Google 学术网站?有没有其他选择

本来找了一些关键词,打算对这几个学术搜索引擎做个评测。关键词的选择包含多个领域,没有加入任何个人倾向,以求真实反映几个引擎的水平。bing学术(其实是叫Microsoft Academic Search)。答案写了一多半,截图也做了不少,但后来全删掉了。原因很简单,因为根本没有意义。作为非专业领域的研究人员,你根本无从评价用这个关键词搜出来的那些文献对你有没有参考价值。作为专业领域的研究人员,你也不知道是不是只有你这个领域的东西用这个搜索引擎结果比较好。

以我个人比较擅长的领域搜索结果来看,百度学术,Google Scholar和Microsoft Academic Search这三个引擎里面,Google的结果相关度比较好,Microsoft与其不相上下,百度的稍差。但这个还是要看搜索的关键词,有些关键词在这个引擎上结果比较好,有些就很差。他们三家本质上的区别在于默认情况下,Google Scholar会搜索作者名,百度会搜中文文献并且没法改,Microsoft只会搜论文标题和内容。

在学术搜索里,更懂中文其实没什么优势。除了某些特定领域外,大家都知道中文期刊和论文是个什么水平。至于英文文献来说,百度的索引量好像还不够。比如你直接搜Deep learning,百度只能给出1010个结果,而Microsoft是13,123,Google是2,830,000。虽说一般只看前几页的内容,而且后面也有很多不太相关的搜索结果,但多个关键词的结果来看,Google能索引到的东西总比Microsoft和百度多,而前几页的内容基本上Google和Microsoft是差不多的,只是排序可能不同。

从实用性看,百度无疑是最差的,功能简单到有些简陋。看起来只是个简单的试用版,除了搜索其他功能一概没有,估计以后可能会增加。而另外两家功能相当丰富,比如论文的引用统计,生成不同格式的引文或者导出到软件,基本能用到的功能都有了。

其实实际使用中并不存在转向问题。一个搜不出来想要的,就换一个好了。可能你想搜索东西的时候,最先打开的就是Google Scholar和Microsoft Academic Search,实在不行也试试百度。但不是说你用Google这辈子就不用百度了。

开题报告国外研究现状没有怎么办

我认为在查询国内外研究现状之前,需要弄明白两点:

研究现状需要写在什么地方?

写研究现状的目的是什么?

第一个问题--在我个人的理解中,需要在论文的两个部分中梳理国内外现状,其一为introduction,其二为literature review,如果涉及到研究方法需要在他人研究的基础上继续变更,那么在methodology部分也是需要提到一些已有的研究现状的。

第二个问题--所有的引用,无论是国内外的研究现状,还是理论的梳理,目的都是为了突出自己的研究有什么好的地方,这个“好”就在于已有的研究和我的研究之间有一个gap,而我的研究就是把这个gap填上。

在回答了这两个问题以后,接下来就是文献的搜索了:

【我的搜索是结合了学术写作课和个人查文献的经历的】

这里分成两个部分来进行:part 1: selecting key words; part 2: how to take note when reading an article

Part 1: selcting key words

(因为文字有点多,所以我就直接发一个表格来啦)

有两个方法,表格是方法1: strat from keywords

方法2: start from an article

看文章后面的references: 1-author重复出现的作者;2-year名字与年代(recent ten years)

先搜索作者(通过网站research gate,搜素作者的全名(full name)--research gate;再搜索文章(可以在学校提供的数据库中搜素,或者在bing学术中等等。)

Part 2: how to take note when reading an article

在找到文献以后,接下来就是建立自己的文献管理库,我的方法是通过表格进行梳理:

表格中包含几个维度:

Author Year;2. Research focus/questions;3. Methodology;4. Participants Contexts;5. Conclusions;6: Key word

梳理好以后,现在就会对于你所要研究的题目有一个大概的认识了。你可能会知道这个领域中最近常用的研究方法

经典机器学习系列之【集成学习】

  中国有句老古话,叫“ 三个臭皮匠顶个诸葛亮 ”,说的是人多力量大,可也有句成语叫“ 乌合之众 ”。在机器学习中也有一类算法,将这两种思想融合起来,取其精华,它就是 集成学习 ,算法将不同的学习器融合在一起。

  在集成学习中,算法不要求每个学习器性能最好,但是期望它们对问题具有不同的看法,Good But Different (好而不同)。

  如果在分类问题上描述的话,所表示的就是具有不同的划分能力,对于一些样本学习器 能划分,对于另外一些样本,学习器 能划分。并不要求单个学习器对所有样本都具备划分能力。

  用专业一点的属于来说的话,就是不同的学习器具有不同的偏好模型,但是每一个都是弱监督模型,集成学习将多个弱监督模型组合,得到一个好的强监督模型。其思想是,不同的学习器之间相互地错误纠正,以达到最终准确率的提升。

  集成学习,其英文名称叫做( ensemble learning ),它通过将多个学习器集成在一起来达到学习的目的。主要是将有限的模型相互组合,其名称有时也会有不同的叫法,有时也会被称为多分类器系统( multi-classifier system )、委员会学习( committee learning )、Modular systems、classifier fusion、combination、aggregation等。这些概念相互之间互相联系,又有些许区别,对于概念的定义业界还没有达成共识。整个算法所表现出来的性能非常地强悍,许多高水平的竞赛(Knowledge Discovery and Data Mining、Kaggle)中都是首选。

  在机器学习,满足训练集的假设不一定在实际应用中有同样好的表现,这样学习算法选择哪个假设进行输出的时候就面临着一定的风险,把多个假设集成起来能够降低这种风险(这可以理解为通过集成使得各个假设和目标假设之间的误差得到一定程度的抵消)。

  在周志华西瓜书中通过Hoeffding不等式证明了, 随着集成中个体分类器数目的增大 , 集成的错误率将指数级下降 , 最终趋于零 。

  集成学习先产生一组“个体学习器”( individual learner ),再通过某种策略将其结合起来。依据每个个体学习器所采用的学习算法是否相同,可以分为 同质集成 和 异质集成 。

  集成学习器性能要好于单个个体学习器需要满足 好而不同 的两点要求:

  第一个条件相对来说比较容易实现,在当前问题下训练一个模型,结果比瞎猜的结果好就行了。 第二个条件是集成学习研究的核心问题 。每个个体学习器学习的都是同一个问题,所以个体学习器不可能做到完全相互独立。想想小时候,老师让你发表不同的观点,想想写论文的时候找创新点,人都很难做到这样一件事情,何况它只是一个小小的学习算法。

  想要在个体学习器足够好的前提下,增强其多样性,我们可以直观上来想象一下。整个的算法学习过程是从数据到模型再到输出。

   首先考虑输入 。如果每个学习器学习不同的样本,那么可以学习出相对来说不同的个体学习器。那么现在的问题就是怎么划分训练样本,你可以随机抽取,或者利用不同的属性子集训练出不同的个体学习器。

   其次考虑模型 ,如果基学习器的模型不一样,也能训练出不同的个体学习器。

   最后考虑输出 ,如果我们依据标签的特性来进行划分,也能得到不同的个体学习器。

  依据上述三点概念,主要有以下5种方法:

  从原始训练样本中产生不同的样本子集,然后利用不同的样本子集训练不同的个体学习器。如 Bagging 中使用的 自助采样 , Boosting 中使用的 序列采样 。

  这种训练样本扰动的方法简单高效,但 只对不稳定的基学习器有效 ,像 决策树 、 神经网络 等;对于稳定的基学习器,如线性学习器、支持向量机、朴素贝叶斯、K-NN等,就效果不明显,产生这个问题的原因就是因为稳定的基学习器,“变通能力”并不是很强。

  说到Bagging和Boosting,这里详细介绍一下这两种经典的方法:集成学习分为个体学习其之间存在强以来关系、必须 串行生成的序列化方法-Boosting 和不存在强依赖关系, 可同时生成并行化方法-Bagging 。

  具体的实现方法是:首先给每一个训练 样例赋予相同的权重 ,然后训练第一个基本分类器并用它来对训练集进行测试, 对于那些分类错误的测试样例提高其权重 (实际算法中是降低分类正确的样例的权重), 然后用调整后的带权训练集训练第二个基本分类器 ,然后重复这个过程直到最后得到一个足够好的学习器。

  Boosting中最著名算法是1997年Yoav Freund所提出的AdaBoost(Adaptive Boosting)方法。下图是AdaBoost论文Bing学术搜索结果:

  本文以周志华西瓜书推导过程为例,以“ 加性模型 ”(additive model)进行解析:

  将基学习器 线性组合,则基学习器的线性组合表示为如下 形式:

  定义整个学习器的损失函数为指数损失函数( exponential loss function ),期望指数损失函数最小化:

  其中 是真实函数, , 表示样本的权值分布(对于错误的样本权重要高一点,正确的样本权重要低一点,所有的样本组合起来就相当于有一个分布)。

  若基学习器的线性组合 能够使得指数损失函数最小化,一般的做法就是求偏导数,令其等于零,求解。由于 取值只有两种,所以其求偏导数之后的结果如下所示:

  令其偏导数为0,解得:

  有:

  这意味着若指数损失函数最小化,则分类错误率也将最小化。说明指数损失函数是原任务的替代函数,但由于其连续可微,所以用它替代 0/1 损失函数作为优化目标。上面这么多就是说接下来用这个连续的指数损失函数做进一步的处理。

  在AdaBoost算法中,第一个基分类器 通过直接将基学习算法用于初始数据分布而得到;之后的 和 是通过迭代生成得到的。当基分类器 基于分布 产生之后,基分类器的权重 应该使得 最小化指数损失函数,只有 在判断错误的基分类器给予较小权值,判断正确的基分类器给予较大权值,才能使得 具有较准确的判断,从而最小化指数损失函数

  其中 ,其实就是误判率。为了求得基分类器的权重,对其求导:

  再令导数为0,可得:

  到这里相当于自适应做完了,在这里,AdaBoost自适应的思想采取的是加权多数表决的方法,上述公式体现出来的就是加大分类器误差率小的弱分类器的权值,使其在表决中起较大作用。误差率较大的则相反。

  现在要回到Boost的原理中对样本的处理,在改变这个样本的权值,或者说概率分布的时候,我们要实现的直观想法是: 提高那些被前一轮弱分类器错误分类样本的权值 , 降低那些被正确分类的样本的权值 。接下来我们去把这个公式证出来:

   这里通过基学习器开始证明,看基学习器在什么样本分布下能够学出来最小化分类误差。

   AdaBoost 在得到 之后,调整样本分布,使得 能学出来之前的基学习器无法学习到的东西,能纠正 的一些错误,那这个 就能够最小化:

  注意到 ,上式可使用 的泰勒展开式近似为如下公式:

   于是理想的基学习器:

   注意到 是一个常数。令 表示一个分布:

   依据数学期望的定义,等价于令:

   由 , , ,有:

   则理想的基学习器:

  由此可见,理想的 将在分布 下最小化分类误差。 和 的关系有:

  上述公式就是下图AdaBoost的第7步更新公式,整个的AdaBoost算法如下图所示:

  AdaBoost 算法第五行检查当前基分类器是否比随机猜测好,一旦不满足条件,当前基学习器即被抛弃,且学习过程停止。在这个请款下就有可能导致集成中包含基学习器数量过少,导致整体性能不佳。采用“重采样法”(re-sampling)来处理,即在每一轮学习中,根据样本分布对训练集重新采样,再用重采样而得到的样本集对基学习器进行训练,则可获得重启动。

  是并行式集成学习方法著名代表,基于自助采样法( bootstrap sampling ),给定包含 个样本的数据集,有放回随机采样,经过 次得到含有 个样本的采样集,这样的采样,初始训练集中约有 的样本出现在采样集中。

  照这样采样出 个含 个训练样本的采样集,然后基于每个采样集训练一个基学习器,再将这些基学习器进行结合。在预测输出时,Bagging通常对分类任务使用 简单投票法 。对回归任务使用 简单平均法 。

  上图中 表示自助采样产生的样本分布。

  输入属性扰动通常是从初始属性集中抽取出若干个属性子集,然后利用不同的属性子集训练出不同的个体学习器。比如有:

   RF 在以 决策树 为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入随机属性。传统决策树在选择划分属性时是在当前结点的属性集合中选择一个最优属性;而在RF中,对基决策树的每个结点, 先从该结点的属性集合中随机选择一个包含 个属性的子集 , 然后再从这个子集中选择一个最优属性用于划分 。

  随机森林中基学习器多样性不仅来自样本扰动,还来自属性扰动,使得最终集成的泛化性能可通过个体学习器之间差异度的增加而进一步提升。

  但这类输入属性扰动的方法只对大量冗余属性的数据集有效,但若数据集只包含少量属性,或者冗余属性很少,则不宜使用。随机森林由于起始引入了属性扰动,性能会比Bagging差一点,但随着个体数量增多,随机森林通常会收敛到更低的泛化误差。

  算法参数扰动指的是通过随机设置不同的参数来训练差别较大的个体学习器。如下图所示的神经网络的隐层神经元数、初始连接权值等不同。

  此类方法对参数较多的算法有效,对参数较少的算法,可通过将其学习过程中某些环节用其他类似方法代替?从而达到扰动的目的。这可能也是发论文的一个点吧,自己以后可能也不咋用这个算法,就不去做算法调研了。

  输出标记扰动是对训练样本的类别标记稍作变动,将原来的多分类问题随机转化 多个二分类问题 来训练基学习器。经典的一个算法就是纠错输出编码法(Error-Correcting Output Codes,ECOC)

  将每个类别对应一个长度为n的二进制位串(称为码字),共形成m个码字,这些码字的同一位描述了一个二值函数。学习结束后获得n个二分器,在分类阶段,每个二分器对输入样本产生的输出形成输出向量,然后由决策规则判定输入样本的类别。

  这类方法对类数足够多的数据集有效,但若数据集包含的类数较少,则不宜使用。

  混合扰动在同一个集成算法中同时使用上述多种扰动方法。比如随机森林就同时使用了训练样本扰动和输入属性扰动。

  上文五点讨论的是如何产生好而不同的个体学习器。那产生了好而不同的个体学习器之后,我们如何结合这些策略?主要有 平均法 和常见的 投票法 (voting),具体包括:

  简单地将输出结果平均一下

  乘以权值系数将其加起来。

  即若某标记得票过半数,则分类为该标记,否则拒绝分类。

  分类为得票最多的标记,若同时有多个标记获最高票,则从中随机选取一个。

  给每个个体学习器预测的类标记赋一个权值,分类为权值最大的标记。这里的权值通常为该个体学习器的分类置信度(类成员概率)。

写论文去哪个网站

写论文推荐以下网站:

1、知网

这个网站作为大学生都应该知道,知网是国内查找学术文献最齐全的网站,以收录核心期刊和专业期刊为主。

大多数高校都会给学生购买知网的版权,学生可以通过校园网登陆网站进行查询下载资料,那在校外也可以通过对应的账号进行登陆,随时下载文献。

2、维普网

中文科技期刊资源一站式服务平台,维普网是国内独家仓储式作品出版平台,提供各类学术论文、各类范文、中小学课件、教学资料等文献下载。

3、万方数据知识服务平台

内容以科技信息为主,兼顾人文,适合工科或理工科院校,重点收录以科技部论文统计源的核心期刊,核心期刊比例高,收录文献质量高。

4、百度学术

百度学术可以快速检测到收费和免费的学术论文、图书、会议等,而且支持时间、关键词、作者等多种条件的筛选,针对一篇文章还提供了多个来源,一个网站无法下载,可以用另外一个。

与百度学术类似的还有Bing学术搜索、谷歌学术搜索。

5、中国国家图书馆

与国内多家公共图书馆联合,集合4万余册电子图书资源、上千种电子期刊以及各地图书馆分站的优质特色数字资源。只需要注册、实名认证就可以免费下载和查看。

6、超星发现

这个网站主要面向大学以上高校用户,是全世界最大的中文电子书图书网站,数据涵盖了1949年后85%以上的中国大陆所有出版书籍。

标签:bing学术

网友评论