2018年10月4日星期四

马云不去打造搜索引擎|林子超博客


作者:刘正

搜索引擎不是不想做,有钱谁不赚?根本原因是阿里做不出来,或者做不好~
搜索引擎分四块,爬虫,存储,检索与排名,前三种阿里肯花时间与成本挖人应该没多大问题,关键是排名这个需要大量的用户搜索数据来增强用户体验,这是阿里根本没办法完成的,市场的先入为主导致第一第二占有行业流量市场的90%,剩下的厂商没有办法收集到数据自然做不好~根本不是动力问题。
这也是bing这类二级市商做到死也做不上去的原因,后来这一点供应商想了些歪路子,比如监控输入法或者浏览器来搜集搜索数据,质量马上上升一个台阶。
所以在搜索引擎二级市场上,只有能搜集到用户数据的公司能存活,也就是输入法厂家和浏览器厂家,比如360,搜狗,必应。
不过百度再这么下去迟早自己搞死自己。占有互联网流量入口,具有天然的人工智能发展优势,结果就不说了,做的那叫个什么事儿,一手好牌打稀烂~得,也甭管怎么瞎搞,我只用谷歌,翻墙也要用~
ps,这里仅指大型综合类搜索引擎,我说过搜索引擎的门槛是数据,阿里正是因为搜集了大量电商数据才会有好质量的面向电商与购物的搜索平台,但是综合类不是电商,人上网也不是都去逛淘宝,学术,地理,人文,历史,经济,新闻,社交,当然还有番号,我这里说的是所有的领域的综合类大型搜索。
搜索引擎这块从历史演进分成了三代,第一代搜索基于规则式,这里不提了,第二代搜索引擎以谷歌的民主表决排名为代表,通过大规模矩阵计算判定其网页价值的“权威性”,所有目前除谷歌之外的搜索引擎均停留在这一代,而第三代则以联想查询,线索分析,人工智能知识图谱为代表,从原来的生硬的关键字搜索变成了可识别复杂语境的搜索。
用发展的眼光看问题的话,三个时代分别代表了计算力的飞跃与数据体量的质变
就以谷歌为例,正是因为排名的检索需要动辄数十亿量级的矩阵计算,所以计算力成了谷歌的瓶颈,于是谷歌提出了分布式计算的论文map reduce,用分治的思维去解决计算力问题。
正是由于数据量的猛增,存储也成了瓶颈,于是谷歌相继发布了分布式存储的相关论文bigtable与gfs,用分治的思维以解决存储瓶颈。
然后谷歌相继发布了与之相关的分布式调度论文,在产品线实现了闭环,于2009年,正式提出云计算的概念。
然后在国内引发了第一波云计算传销展,各类骗子层出不穷。
也正是由于第三代搜索引擎的设计目的,谷歌开发出了谷歌大脑,作为第三代搜索引擎的底层基石,自此谷歌在搜索引擎,云计算,分布式计算,人工智能领域以及这些领域的相关细分领域吊打一切对手。
另外值得一提的是,谷歌三神器和谷歌大脑的总设计师是同一个团队,号称写程序的瓶颈来自usb传输速度的,谷歌最强程序员,杰夫迪恩,以及其搭档盖莫沃特。敬仰中……这手速得单身多少年……
做到这些的最基本原因之一,就是谷歌占有比其他公司多出几个数量级的数据。
然后国内迎来了第二波人工智能传销展,还是原来的骗子,还是熟悉的味道。
我并没有否认阿里的技术,说了,不是技术问题,而是数据问题。
ps,正是由于谷歌三神器的发布,由lucene创始人发起,在开源社区开始规划以三神器理论的蓝本,完成开源化的工作,这就是后来广大程序员屌丝面试简历占有率第一关键词的hadoop,后来由于多核处理器的衍生,原来的面向对象的编程模型无法很好的进行事务描述,于是,广大开源屌丝们开发出了面向函数式编程模型架构(原来早有了,只不过适合需求拿来回炉一次),jdk也从1.6跨度到了1.8,于是就出现了广大程序员屌丝面试第二关键词spark。

真问到了这些玩意儿,十个里面九个水,还有一个也就都会配些hello world,就这也敢说精通哩~
再ps,我这里说了浏览器与搜索引擎往往强相关,其本质也是由于搜索引擎技术的积累。
搜索领域的第一件事就是爬虫,而爬虫这个东西的核心难度之一就是将现阶段的动态网页静态化存储的过程,现阶段比较成熟的策略是做一个虚拟引擎进行实时编译,这就需要优秀的浏览器内核工程师去设计(不是脚本程序员),所以,一般上来说,搜索引擎做得好的公司,对浏览器产品有天然技术底蕴。当然这话反过来也成立,仅说明之间存在强联系。
至于输入法,我印象中bing好像因为这个事情和谷歌法院见,具体的时间与内容记不清了。
以上是码畜在技术层面的分析,部分观点来自吴军博士的《浪潮之颠》一书,钢筋请绕道~市场分析我不懂,哥一写代码的屌丝单身狗,市场的大姐大就没拿正眼看过~so,上nmmb的逼乎,搜索引擎做起来了又不给我发工资,把需求改完再说~
——————
最后ps,写完敲代码去了……
评论区里对用户搜索数据的价值有些藐视啊,
我们从本质上看问题,搜索引擎的本质是互联网网页资源的索引。
我们把资源类比成实际的资源。
那么搜索引擎就是标注所有资源点的地图。
注意,这里的资源不是一成不变的,它的反应了当前社会环境的缩影,具有明显的生命周期,比如川普,李宗瑞,仓……也就是说,这是一个实时变动的卫星地图~
先比较体量上的差距,如果把阿里的引擎比做金矿地图,那么百度则是所有矿产的资源地图,谷歌则是所有资源的卫星地图,包括矿产牧场,森林,渔场,粘土~
用户搜索数据呢?相当于拓荒者的信息反馈,比如渔场,由于小冰河期来临而发生了变迁,那么用户搜索数据就能反馈给地图说这里发生了变动,拥有大量的用户数据,甚至能统计其变动的幅度与总量,也就是说,它比卫星地图又多了一个维度,我们不止能知道这个矿在哪里,甚至还能知道这个矿每年的产出量与剩余量。用户数据越多,精准度越好,信息量越大。
控制论中有一个经典的概念叫做信息的反馈调节,这个概念适用于搜索引擎,只有拥有反馈调节的信息控制系统才能实现闭环与演进,才能保证一个信息控制系统的稳定性。
没有反馈的系统是不稳定的,这个概念不仅适用于搜索引擎,也适用于为人处事,长期当女神的备胎,出钱出心又出力,砸锅卖铁烛光晚餐,结果女神鸟也不鸟你,进度条也不给你,做鬼的任务,所以常常就是一个悲伤的故事~这时候来了个平胸鬼求抱抱,本着充点气还是能看的心里,屌丝们还是会改变想法的~
现代控制论中,稳态系统一旦形成,那么反馈使得它具有自我修正机制,外来因素对其产生影响会被修正,重新进入稳态~
就好像女神答应你去华都大酒店,这时候来了个平胸鬼求抱抱,屌丝们肯定装不认识,生怕女神误会,这叫用户习惯~
当然,如果外来系统如海啸般高潮迭起,那么会加速破坏稳态系统结构,而形成新的稳态,就好像突然有个36D白富美主动倒贴,女神还在奇怪最近怎么没下文了……
看月亮的时候,叫人家小甜甜……
有了新欢,就叫人家牛夫人……
但是以目前的情况,这几乎不可能~在未来很长一段时间内,搜索引擎市场份额仍然会稳定在721,也就是第一名占7成,第二名占2成,其他屌丝厂家共同分享最后1成~
当然,第一名要自杀谁也拦它不住。
这就是用户搜索数据的价值。

2 条评论:

  1. Do you need to increase your credit score?
    Do you intend to upgrade your school grade?
    Do you want to hack your cheating spouse Email, whatsapp, Facebook, instagram or any social network?
    Do you need any information concerning any database.
    Do you need to retrieve deleted files?
    Do you need to clear your criminal records or DMV?
    Do you want to remove any site or link from any blog?
    you should contact this hacker, he is reliable and good at the hack jobs..
    contact : cybergoldenhacker at gmail dot com

    回复删除
  2. I can’t say much but with my experience through divorce, I had no one until I met hackingsetting50@gmail.com online then I contacted him, surprisingly he helped me hack into my partner's phone and all his social media platforms and i can now access everything and even documented and printed stuffs to show as evidence , now I’m happy with my kids and working for Riches. I hope this helps anyone in need.

    Thanks.

    回复删除

注意:只有此博客的成员才能发布评论。

Also Read: