百度的竞价排名有问题吗？

2016年05月02日百度个人观点互联网信息思添加评论

众所周知，百度使用竞价排名来确定条目在搜索引擎的排位。很多人可能到此就不再关心了，因为至少听起来这不是一个那么正当的方案。但是，我想说并不是这样，作为一个互联网商业公司，百度不是做慈善事业，也不是做信息分享的慈善家，没有理由要求他不为付费用户提供靠前的排名，实际上我认为对于以盈利为目的的搜索引擎可能都在变相的提供各种不同的竞价排名制度。比如，不需要操作搜索结果，只需要操作你的搜索关键字就可以产生完全不同的搜索结果（这个公司提供的互联网广告可能就是一个不错的平台来操控你的搜索关键词）。同时，“优秀”的搜索引擎还会根据你的搜索历史、网页浏览历史、电子邮件内容、网上公布的各类信息等等来“为您提供”更个性化的搜索结果。我不知道什么叫更个性化的搜索结果，也不知道这个里面是不是和广告有关，但是可以肯定的是您获得的搜索结果并不是完整按照网页价值排序的搜索结果，而是某公司按照他自己的理解提供给你的最有价值的条目。然而，遗憾的是这些公司也是利益获得者，其在排名上的客观程度也是值得怀疑的。

OK，说回来百度。刚才说了商业搜索引擎对于广告用户调整搜索结果并不奇怪，至少我还是支持竞价排名的基本逻辑的。这套逻辑是这样的：

只有值得花钱推广的信息客户才会去广告，不然就是烧钱；
客户愿意在一个广告上花更多的钱说明客户对这个信息扩散的价值预期更高，那么这个信息本身更可能是更有效的信息（基本假设是观众对于无效信息会在后期反馈中自动移除，并对信息提供方产生负面效应）。

至少在我看来，上面这样的假设在整个广告界可能是能站住脚的。当然，广告界也像所有其他行业需要监管，光是遵循一些基本假设永远是不可靠的。这方面看起来也确实有不少法律法规，到底执行的怎么样我并不知道。

百度的竞价排名策略

百度的竞价排名并不是说说，而是确实存在而且很光荣地存在，在它旗下的百度百科上对此进行了详细介绍。有兴趣的读者不妨去百度看看具体的算法，我在这里讲一下我对这个策略的理解。

百度展示的排名按照它自己的说法是根据网页的关键词质量度 乘以客户的出价确定的。第二个词汇很容易理解，第一个词汇比较难以理解，为了避免由于用词导致大家对策略的误解，我们将关键词质量度记为W，也即权重，因为它本来就是个权重。然后按照百度的解释，排名是根据如下值的大小进行的（对于相同值的处理不知道是怎么进行的）

$W \times 钱$

中间是乘以，这个做法实在太常规了，常规到各种加权余量法基本泛滥在各个学科的理论和方法中。所以，我觉得这个加权算法本身并不算有问题，按照前面的基本假设，这个算法应该不算太糟糕，而且实际上让人感觉这是一个很优选的方案。

因此，就百度的运营机制而言，我个人并不反对它使用竞价排名的策略，从某种意义上讲，对于一个广告网络而言，如果系统的设计能够合理有效的话，这样的策略很有可能是最优策略之一。然而这套策略中却明显的存在一个重大的难以解决的问题，而我相信正是这个问题导致了诸多的不幸事件。

竞价排名的问题

前面已经说了$W \times 钱$的公式里，钱应该是没有问题的一个因子，乘法也可以看作一定意义上的合理，那么问题很显然就处在W上。这个问题在所有领域都一样地难以解决，很多学科采用的处理方法是同等无知假设，这对与搜索引擎无疑是完全无意义的选择。Google的崛起一定程度上与它使用Pagerank作为权重方案有重大的关系，所以如何选取权重系数在搜索引擎行业是一个非常关键的问题。正是这个权重的不同产生了不同质量的搜索引擎。

这方面搜索引擎行业应该有很多的指标来衡量一个权重系数的好坏，我也无意去调研到底有多少种方案，哪种方案更好。但是，就我一个局外人的观点，我个人觉得一个合理的加权方案应该至少有以下三个特点：

对于由官方机构、组织提供的信息，其自身应该具有无穷大的权重，也即无论另外一个因子是多少官方信息必须具有最高的排名。比如，搜索“百度”返回的第一个结果应该是“百度”的官方网站，而不是某个出了很多钱的“千度”（假设名）的网站；
对于专业名词，来自可信的来源（这个是不可操作的定义，不过一般认为政府权威机构、高等教育和学术机构的官方信息库，而非个人信息库应该是可信的；来自于公认的高质量网站的信息可能是次之的可信来源）的结果应该具有足够高的排名以超越一般的广告客户（让那些有钱的客户去资助研究而不是资助广告）；
对于虚假信息的W应该设为非正，如果W非要是非负的话，起码应该是0。对于已经出现过虚假信息的来源应该将其排除出可信来源的列表。当然，虚假信息本身是个不可操作的定义，但是并不意味着就没有办法可以降低虚假信息的危害。我不相信那种所谓的没有绝对正确的信息，所以任何信息都是虚假的论断。这样的哲学讨论或许是有意义，但是在实用意义上，短期时间内的真实和虚假信息大多是可以判定的。我窃以为搜索引擎的公司不会想让自己成为与这个时代相背离的群体，所以基于现时约定的信息正误判断应该是没问题的。

对于虚假信息在门户网站的控制应该作为行业自律的重要部分，不是说这部分行为不带来利润就可以不去做。（实际上，很多公司在对于有害信息的移除方面确实走在了时代的前列，为什么不将虚假信息的移除也一起加入到信息审查的行列呢？我觉得虚假信息也是有害信息吧。）这方面传统行业做得好很多，作为新兴的互联网行业应该向传统行业学习，一些必须进行的审核和校验必须写入行业规范和国家标准，对于门户网站推广不符合标准的信息应该进行问责，不是说一个问题难就不去解决。打个比方，给房屋做抗震设计和施工对于建筑方无疑是增加了劳动量和成本的事情，但是这不是说没有利润而且还提高成本就可以免去做抗震。对于门户网站，避免虚假信息泛滥应该是行业承担的社会责任之一，不是说这个问题难，需要花钱就可以不做。做房屋抗震难道不难，建筑行业不也一样通过国家标准的形式，使得大量的房屋一样可以在地震后正常使用。同样的情况，在机械行业一样有大量的国家标准来规范从业单位和个人的行为。

说到这里，又要老调重弹了，互联网行业除了虚假信息的问题，另一个很大的问题就是用户数据收集和保护的问题。这方面的行业自律和问责是不是也应该起步或者执行了？大数据时代的来临不应该伴随着数据的混乱和诚信的丧失。这里举个例子，五年前或者十年前可能一个网站需要进行用户个人身份认证只需要输入身份证号就可以了，到现在还有很多服务的设计还在依赖于一个人的身份证号是其隐私信息的假定。但是，我们其实不用太仔细的调查就会发现就从携程和其他几个网站的泄露的已经公开的数据，大量人员的身份证与姓名信息早就已经成为公开的可查询信息。那么那些依赖于身份证号和姓名作为身份验证的服务在这个时候就是一个安全漏洞，原则上讲（实际上很多服务并没有）这些服务应该迅速停止使用这样的信息作为身份验证。随着大量的数据得不到妥善的保管和无限度的收集，相信不远的将来互联网将无身份验证信息可用和毫无信任可言的地方，我相信就连现在所谓的拿着证件拍照上传作为身份验证的方案也会在不远的将来失效。到时候，可能像什么电子身份证的技术都不能阻碍身份验证无法在网上完成的问题。互联网上信息的收集是用户丧失的不仅仅是隐私，而且还包括而不限于人与人之间的信任。

最后，再扯到另外一个问题吧！中国的电信运营商前一久传说爆出了仅仅基于短信验证码就可以更换4G SIM卡的漏洞，如果这个消息是真的，作为一个完全推行实名制的行业，这样的安全设计简直就是无理取闹。至于下游的依赖于手机作为身份验证的公司，只能是意料之外又意料之中啊！实际上，现在已经没有太多的方式可以做到真正的身份认证了，特别是在网上。

早是时候该管理和规范相关行业的服务和行为了！不知道是谁说的：难不是理由，不难要你干什么？

网站最近更新

Why & How

回炉夜话

百度的竞价排名有问题吗？

百度的竞价排名策略

竞价排名的问题

展开本分类索引