久久精品水蜜桃av综合天堂,久久精品丝袜高跟鞋,精品国产肉丝袜久久,国产一区二区三区色噜噜,黑人video粗暴亚裔

首頁站長新聞搜索引擎的大數(shù)據(jù)時(shí)代

搜索引擎的大數(shù)據(jù)時(shí)代

2013-02-28 206

        近日百度和藥監(jiān)局達(dá)成戰(zhàn)略合作,百度將使用藥監(jiān)局的的藥品數(shù)據(jù)為人們提供用藥相關(guān)的查詢。百度為這批數(shù)據(jù)付出的代價(jià)并未提及。天下沒有免費(fèi)的午餐,藥監(jiān)局雖然是要造福于民,但是這批數(shù)據(jù)顯然不會(huì)白給。這意味著搜索引擎為數(shù)據(jù)買單的時(shí)代已經(jīng)到來。筆者今天想談?wù)勱P(guān)于搜索和數(shù)據(jù)關(guān)系的一些看法。注意,大數(shù)據(jù)離我們太遠(yuǎn),這不是談大數(shù)據(jù)。

        360即刻此前已達(dá)成戰(zhàn)略合作,共同運(yùn)營食品安全和曝光欄欄目外,且360將與即刻共享藥監(jiān)局的數(shù)據(jù)。再前,360搜索引擎通過云云搜索接入了微博搜索結(jié)果,再之前,Google購買Twitter數(shù)據(jù)以提供Twitter搜索結(jié)果。

        谷歌不作惡,干的事情是“整合全球信息,使人人皆可訪問并從中受益”和“加速信息流動(dòng)”。百度簡單可依賴,干的事情是“讓人們最便捷地獲取信息,找到所求”。不同的表示,搜索引擎本質(zhì)卻是一致的:幫助人們找到想要的信息。伴隨著社會(huì)化和移動(dòng)互聯(lián)網(wǎng)的浪潮,網(wǎng)絡(luò)上的數(shù)據(jù)爆炸式的增長。如何應(yīng)對(duì)這些爆炸的數(shù)據(jù),既是搜索引擎面臨的挑戰(zhàn),也是搜索引擎們的機(jī)遇。

搜索引擎的大數(shù)據(jù)時(shí)代

        具體分析如下:

一、比暗網(wǎng)更暗的大數(shù)據(jù)網(wǎng)

        聚合所有網(wǎng)絡(luò)上的信息,一直是有抱負(fù)的搜索引擎的夢想,但這是不可能完成的任務(wù)。

        94年Dr.Jill Ellsworth便提出”暗網(wǎng)“的概念。指存儲(chǔ)在網(wǎng)絡(luò)數(shù)據(jù)庫里、不能通過超鏈接訪問,不屬于那些可以被標(biāo)準(zhǔn)搜索引擎索引的表面網(wǎng)絡(luò)。暗網(wǎng)的規(guī)模也遠(yuǎn)超我們的想象,據(jù)科學(xué)家研究,人類信息只有不到1%的實(shí)現(xiàn)了WEB化,而WEB化的網(wǎng)頁中,搜索引擎能抓取的大概為1%500。

        不能抓取的既有網(wǎng)站本身非主觀的問題(不符合網(wǎng)頁規(guī)范,對(duì)搜素引擎不友好等),也有網(wǎng)站本身的主觀屏蔽的問題,如淘寶、優(yōu)酷等網(wǎng)站屏蔽百度的爬蟲既是這類。搜索引擎在解決這兩類問題上已經(jīng)做過很多努力。包括爬蟲爬取技術(shù)的優(yōu)化、合法SEO的推動(dòng)以及類似百度阿拉丁計(jì)劃。

        百度的阿拉丁計(jì)劃通過提供接口的方式,第三方網(wǎng)站主動(dòng)接入自己的結(jié)構(gòu)化數(shù)據(jù),用戶在搜索時(shí)即可在結(jié)果前面看到這些信息。百度期望阿拉丁燈神可以“照亮”暗網(wǎng)。與此類似的計(jì)劃還有Google的OneBox,360的oneBox(360這名字取的)。但在暗網(wǎng)的問題還未解決之際,一個(gè)更暗的網(wǎng)已經(jīng)到來。

1、越來越多的私有化的WEB化數(shù)據(jù)

        電商網(wǎng)站、BBS、知乎問答、互動(dòng)百科、豆瓣電影等內(nèi)容便是屬于此類。垂直網(wǎng)站在達(dá)到一定規(guī)模后,擁有與搜索引擎博弈的能力時(shí),便可屏蔽搜索引擎的爬蟲,將自己的數(shù)據(jù)“私有化“。垂直網(wǎng)站提供的搜索功能,可以用個(gè)性化的搜索功能和獨(dú)有的挖掘能力,提供更好的搜索體驗(yàn)。甚至上升為垂直搜索引擎,如知乎搜索。另外一種垂直搜索引擎即是綜合其他垂直的結(jié)構(gòu)化數(shù)據(jù),提供搜索服務(wù),如去哪兒、一淘。

        筆者相信隨著WEB的發(fā)展,垂直搜索是未來搜索引擎細(xì)分的一個(gè)方向,且將對(duì)傳統(tǒng)搜索引擎構(gòu)成威脅。類似手機(jī)上瀏覽器和原生APP之間的關(guān)系:瀏覽器和APP流量對(duì)半分。我們把傳統(tǒng)搜索引擎如百度看成這一個(gè)瀏覽器,那么垂直搜索引擎便是APP。垂直搜索引擎也如APP一樣正在滋長壯大。且他們具有的核心優(yōu)勢都是:個(gè)性化VS統(tǒng)一的優(yōu)勢。

        如果說WEB數(shù)據(jù)私有化使前面提到的“WEB化的信息,能抓?。翰荒茏ト〉募s為1:500”這個(gè)比率發(fā)生變化。下面要談的將影響“不到1%的信息WEB化”的1%。

2、巨量增長的沒有WEB化的數(shù)據(jù)

        隨著10多年的發(fā)展,PC互聯(lián)網(wǎng)已積累大量的數(shù)據(jù);而在移動(dòng)互聯(lián)網(wǎng)的浪潮下,APP、云應(yīng)用、社交和物聯(lián)網(wǎng)讓數(shù)據(jù)爆炸式增長。對(duì)搜索引擎來說,這些數(shù)據(jù)幾乎都是不可見的。

        人工整理的數(shù)據(jù):

        藥監(jiān)局的數(shù)據(jù)就是例子。這類數(shù)據(jù)集中存在于政府部門、機(jī)構(gòu)組織和一些企業(yè)手里。他們手里即掌握著民眾關(guān)心的權(quán)威民生數(shù)據(jù),又暫時(shí)沒有將這些數(shù)據(jù)通過網(wǎng)站開放出來。與此類似的擁有數(shù)據(jù)的還有交通部門、環(huán)保部門、旅游局、衛(wèi)生局、教育局等民眾關(guān)注的各個(gè)領(lǐng)域。經(jīng)過十多年的信息化建設(shè),這些數(shù)據(jù)想必已經(jīng)達(dá)到可觀的量級(jí)。

        另外,“我查查”的條形碼數(shù)據(jù)也可歸為此類。我查查團(tuán)隊(duì)創(chuàng)業(yè)初期,數(shù)百人團(tuán)隊(duì)在全國商場收集商品條形碼數(shù)據(jù)。我查查有一定規(guī)模后,用戶才主動(dòng)為其添加條形碼數(shù)據(jù)。

        社交產(chǎn)生的數(shù)據(jù):

        這里的社交網(wǎng)絡(luò)不僅僅指微博或人人網(wǎng)。QQ聊天也是一種社交。郵件也是一種社交?;⑿峋W(wǎng)也是一種社交。甚至短信通信也是一種社交。我們不妨將這稱為“暗社交”。這些社交過程又產(chǎn)生了大量的信息,尤其是分享行為。一定程度上部分社交網(wǎng)站的數(shù)據(jù)是WEB化的,但是它們是封閉的。這部分?jǐn)?shù)據(jù)正在巨量增長,而搜索引擎對(duì)他們無能為力。Facebook可以通過Graph Search搜索自己的數(shù)據(jù),微博有微博搜索,人人的,以及“暗社交”的數(shù)據(jù),誰來搜索?

        APP產(chǎn)生的數(shù)據(jù):

        搜狗王小川曾經(jīng)拋出過“WEB已死”的說法。移動(dòng)互聯(lián)網(wǎng)已經(jīng)不再是由WEB通過超鏈接互相連接的網(wǎng)絡(luò)。APP之間通過接口互相鏈接,APP上的不同用戶通過QQ好友關(guān)系、微信圈、微博關(guān)注關(guān)系、手機(jī)號(hào)碼等方式互相鏈接。而傳統(tǒng)搜索引擎正是基于超鏈接的。帶來的問題實(shí)際問題就是,搜素引擎如何搜索啪啪等APP的數(shù)據(jù)?

        個(gè)人云應(yīng)用產(chǎn)生的數(shù)據(jù):

        個(gè)人云應(yīng)用主要是解決多屏同步的問題。這讓更多用戶選擇將數(shù)據(jù)保存在云端。在不同設(shè)備上賬號(hào)認(rèn)證后下載并使用這些數(shù)據(jù)。這類應(yīng)用除了同步通訊錄、收藏夾這類私密性強(qiáng)的數(shù)據(jù)外,還有印象筆記、網(wǎng)易云閱讀等類型的大文本數(shù)據(jù)。個(gè)人云應(yīng)用將越來越多。若干年后,筆者認(rèn)為OFFICE提供云同步功能也不是沒可能。這些數(shù)據(jù),搜索引擎無能為力。

        物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù):

        車聯(lián)網(wǎng)、監(jiān)控錄像、電子抄表、水文監(jiān)測等物聯(lián)網(wǎng)應(yīng)用每時(shí)每刻也在產(chǎn)生大量的數(shù)據(jù)。這個(gè)行業(yè)還沒爆發(fā)。爆發(fā)的時(shí)候,應(yīng)用也不會(huì)局限與此?;ヂ?lián)網(wǎng)鏈接網(wǎng)頁,移動(dòng)互聯(lián)網(wǎng)鏈接天下蕓蕓眾生,而物聯(lián)網(wǎng),鏈接天下萬物。現(xiàn)在中國的手機(jī)用戶數(shù)突破11億。蕓蕓眾生基本已連起來。不過相比11億,物聯(lián)網(wǎng)用戶數(shù)則是一個(gè)驚人的量級(jí)。這些“用戶”也將產(chǎn)生大量的數(shù)據(jù)。這些數(shù)據(jù)將來是否要被人類搜索,以什么形式搜索,搜索的結(jié)果是什么?

搜索引擎的大數(shù)據(jù)時(shí)代

二、大數(shù)據(jù)如何流動(dòng)

        百度的阿拉丁計(jì)劃曾經(jīng)一度擁有吸收結(jié)構(gòu)化數(shù)據(jù)的魔力,眾多結(jié)構(gòu)化數(shù)據(jù)如天氣預(yù)報(bào)、圖書信息等都主動(dòng)去接入百度框計(jì)算。以便從百度獲取流量和用戶。垂直網(wǎng)站們也一度通過SEO提升百度排名。而這個(gè)形勢正在逆轉(zhuǎn)。結(jié)構(gòu)化數(shù)據(jù)不再主動(dòng)流到百度。垂直網(wǎng)站們趨于將這些數(shù)據(jù)私有化,或者有限地開放給部分搜索引擎。

        云云搜索由雄心勃勃的Google工程師出來創(chuàng)立,最初立意于做社交搜索。此時(shí)FACEBOOK的GraphSearch還不為大家所知。但是云云搜索現(xiàn)在走向了為新浪、即刻等公司提供搜索技術(shù)服務(wù)的方向。云云搜索之所以在自己的社交搜索上沒有起色,歸根結(jié)底就是從搜索切入社交是癡人說夢,因?yàn)闆]有用戶,就沒有社交,也就沒有社交搜素依賴的數(shù)據(jù)。云云需要的社交數(shù)據(jù)在微博。所以,云云投奔微博而去。

        百度搜索做了10多年,在如何吸引用戶登錄上做出很多努力,但仍然沒有形成自己的賬號(hào)體系。Google煞費(fèi)苦心的GooglePlus也無法撼動(dòng)Facebook在社交網(wǎng)絡(luò)的地位。同類的例子還有BING。2012年10月沈向陽接受采訪時(shí)說BING戰(zhàn)略是社交搜索、實(shí)體搜索(移動(dòng)搜索)和地圖。而現(xiàn)在,BING中國主要方向已變?yōu)橛⑽乃阉鳌?/p>

1、遠(yuǎn)離搜索引擎的數(shù)據(jù)

        搜索需要的大數(shù)據(jù)掌握在誰手里呢?垂直網(wǎng)站正將其數(shù)據(jù)私有化,社交網(wǎng)站天生私有化,云應(yīng)用提供商替保存著用戶的私有數(shù)據(jù),APP的數(shù)據(jù)因?yàn)闆]有WEB化也是私有化的,當(dāng)然還有一部分?jǐn)?shù)據(jù)掌握在政府、組織、普通企業(yè)手里。

        數(shù)據(jù)一度主動(dòng)流向搜素引擎,而現(xiàn)在結(jié)構(gòu)化的數(shù)據(jù),尤其是有價(jià)值的結(jié)構(gòu)化數(shù)據(jù)正在慢慢遠(yuǎn)離搜索引擎,流向一個(gè)私有的領(lǐng)地。這將產(chǎn)生數(shù)據(jù)的滾雪球效應(yīng):有數(shù)據(jù)的地方,數(shù)據(jù)會(huì)越來越多;沒有數(shù)據(jù)的地方,必須為獲得數(shù)據(jù)付出比蜘蛛爬取更多的代價(jià)。

2、搜索引擎將退化,或者改變位置?

        傳統(tǒng)綜合搜索引擎接下來要解決的不是“加速信息流動(dòng)”,因?yàn)楹芏嘈畔⒍級(jí)虿恢_@也更加突出Google+以及gmail等可以收集數(shù)據(jù)的應(yīng)用對(duì)Google未來的意義?;蛟S未來的搜素引擎,百度這種傳統(tǒng)的網(wǎng)頁搜索引擎將退化為“垂直網(wǎng)頁搜索引擎”。因?yàn)榫W(wǎng)頁數(shù)據(jù)只是網(wǎng)絡(luò)數(shù)據(jù)的一部分,一小部分。這里再次借用王小川的話“WEB已死”。

        當(dāng)然,還有一種可能是搜索引擎仍然可以夠著這些數(shù)據(jù),有償獲取。其在生態(tài)圈中的位置的變化。搜索吃了免費(fèi)數(shù)據(jù)10多年,接下來,搜索引擎要更多地為數(shù)據(jù)買單。藥監(jiān)局只是一個(gè)開始。

搜索引擎的大數(shù)據(jù)時(shí)代

三、大數(shù)據(jù)對(duì)搜索的價(jià)值

        人類已經(jīng)到了離開信息不能活的地步。數(shù)據(jù)大爆炸,按照達(dá)爾文生物進(jìn)化論,人類的信息吸收、篩選和處理的能力應(yīng)該也會(huì)進(jìn)化。人們對(duì)信息的需求并不會(huì)退化,反而會(huì)更加饑渴。而搜索引擎需要解決的問題,不再是幫助人們從海量信息里面找到結(jié)果。而是,在海量結(jié)果里面找到唯一??焖僬业綔?zhǔn)確的答案比找到更多的答案更重要。

1、結(jié)構(gòu)化數(shù)據(jù)對(duì)搜索的價(jià)值

        結(jié)構(gòu)化數(shù)據(jù)和網(wǎng)頁數(shù)據(jù)相比,更能滿足第一點(diǎn):找準(zhǔn)唯一答案。網(wǎng)頁分析是靠文本匹配。結(jié)構(gòu)化數(shù)據(jù)的分析即支持內(nèi)容提供者的主動(dòng)接入,也支持搜索引擎的個(gè)性化精準(zhǔn)分析。這兩種方式都會(huì)增加內(nèi)容提供者或者搜索引擎的成本,但是付出帶來的回報(bào)是用戶快速得到準(zhǔn)確的唯一的答案。

2、大數(shù)據(jù)挖掘是搜索引擎的機(jī)會(huì)

        不再僅僅是加速信息流動(dòng),如果只做第一點(diǎn)提的結(jié)構(gòu)化數(shù)據(jù)接入和展示又太簡單。搜素引擎要做什么呢?幫助人類做人腦不能做的事情:數(shù)據(jù)挖掘。即從海量數(shù)據(jù)中挖掘價(jià)值。人們都說大數(shù)據(jù)是一座金礦。但是如何從這座金礦中淘金,人們即沒找到方法,也沒找到工具。

        搜索引擎經(jīng)過十多年的發(fā)展,在文本分析、關(guān)系發(fā)掘、圖譜構(gòu)造、用戶語義理解等方面已有豐富的積累。這些技術(shù)是大數(shù)據(jù)挖掘依賴的基本技術(shù)。咱們會(huì)叫它挖掘引擎。而將挖掘和傳統(tǒng)搜索結(jié)合起來,通過挖掘響應(yīng)用戶主動(dòng)的或者被動(dòng)的搜索需求,或許咱們可以叫其“推薦引擎”。

        豆瓣和一些電商網(wǎng)站早已進(jìn)行這方面的探索。豆瓣因?yàn)樽畛醣銓ⅰ巴扑]”作為其核心功能之一,已有一些成型的成果。或許,我們撇開豆瓣的UGC模式,其搜索+推薦的模式值得關(guān)注:豆瓣專注文化產(chǎn)品,其早已悄然上線“發(fā)現(xiàn)喜歡的東西”,可以點(diǎn)評(píng)、分享和推薦任何“東西”,任何“物”?,F(xiàn)在屬于低調(diào)的實(shí)驗(yàn)性產(chǎn)品,但我認(rèn)為這可能是豆瓣將來的爆發(fā)點(diǎn),這個(gè)將來很遠(yuǎn),因?yàn)槎拱旰堋奥薄?/p>

        總結(jié)一下:如果說大數(shù)據(jù)是金礦,擁有大數(shù)據(jù)的垂直網(wǎng)站、社交網(wǎng)站、APP、云應(yīng)用提供商、物聯(lián)網(wǎng)擁有者、政府組織和企業(yè)既是金礦礦山的老板。他們可以自己從金礦里面掘金。也可以將金礦賣給搜索引擎或者大數(shù)據(jù)挖掘公司來挖掘。搜索引擎為金礦買單的同時(shí),必須將自己從加速信息流動(dòng)的管道,轉(zhuǎn)變?yōu)闀?huì)淘金的人。

來源:http://supersofter.diandian.com/post/2013-02-27/40048040406

  • 廣告合作

  • QQ群號(hào):4114653

溫馨提示:
1、本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享網(wǎng)絡(luò)內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。郵箱:2942802716#qq.com(#改為@)。 2、本站原創(chuàng)內(nèi)容未經(jīng)允許不得轉(zhuǎn)裁,轉(zhuǎn)載請(qǐng)注明出處“站長百科”和原文地址。

相關(guān)文章