久久精品水蜜桃av综合天堂,久久精品丝袜高跟鞋,精品国产肉丝袜久久,国产一区二区三区色噜噜,黑人video粗暴亚裔

李進(jìn)斌

來(lái)自站長(zhǎng)百科
跳轉(zhuǎn)至: 導(dǎo)航、? 搜索
火車頭采集器作者:李進(jìn)斌

李進(jìn)斌,網(wǎng)名:火車頭,80后非程序員出身;合肥工業(yè)大學(xué)水利系畢業(yè);后對(duì)所學(xué)主專業(yè)工作感到枯燥轉(zhuǎn)投IT,開(kāi)發(fā)了火車頭采集器,并成立了合肥樂(lè)維信息技術(shù)有限公司,專門運(yùn)營(yíng)火車頭采集器的發(fā)展,另外也是火車頭采集官方網(wǎng)站(www.locoy.com)的站長(zhǎng);

成長(zhǎng)經(jīng)歷[ ]

被采訪人:李進(jìn)斌;

記者:你之前是程序員出身嗎?

李進(jìn)斌:不是。我是學(xué)水利的,大學(xué)畢業(yè)后還從事了一年的水利設(shè)計(jì)工作,辭職后才轉(zhuǎn)行IT發(fā)展的。

記者:原來(lái)是這樣的。那當(dāng)時(shí)是如何想到轉(zhuǎn)行做 IT的呢?

李進(jìn)斌:兩方面吧,對(duì)電腦網(wǎng)絡(luò)濃厚的興趣,以及對(duì)枯燥的工程設(shè)計(jì)的反感,最終還是放棄了原來(lái)的主專業(yè),不過(guò)還好。我在大學(xué)學(xué)了雙專業(yè),辭職前收到了phpcms老大加入團(tuán)隊(duì)的邀請(qǐng)。

記者:去phpcms那邊工作了嗎?

李進(jìn)斌:恩,我在phpcms做了大半年。 參與開(kāi)發(fā)了phpcms2007里面的很多功能。當(dāng)然。這期間對(duì)我的提高很大。

記者:那火車頭采集器是什么時(shí)候開(kāi)始開(kāi)發(fā)的,當(dāng)初開(kāi)發(fā)這樣的軟件的想法和初衷是什么,開(kāi)發(fā)過(guò)程中有沒(méi)有遇到什么困難?

李進(jìn)斌:火車采集器最早開(kāi)發(fā)是在2005年的11 月份。當(dāng)時(shí)工作之余,業(yè)余維護(hù)著自己的一個(gè)小網(wǎng)站,有了和多數(shù)站長(zhǎng)朋友一樣在在網(wǎng)站添加內(nèi)容及需要頻繁數(shù)據(jù)更新的苦惱,在借鑒了當(dāng)時(shí)dede的采集思想后開(kāi)始開(kāi)發(fā)的這一款采集器。

火車采集器的發(fā)展過(guò)程中,初期也遇到過(guò)一些小的技術(shù)困難,這都在短時(shí)間內(nèi)克服了,而最大的問(wèn)題是在我辭掉原本很穩(wěn)定的工作后, 采集器要繼續(xù)發(fā)展是否開(kāi)發(fā)收費(fèi)的版本的問(wèn)題上猶豫了很長(zhǎng)時(shí)間。在此要感謝我們的會(huì)員的支持,沒(méi)有他們我們不可能一直堅(jiān)持而取得今天的成就。

記者:剛才提到辭掉穩(wěn)定的工作指的就是phpcms那邊嗎?

李進(jìn)斌:不是,原來(lái)是在安徽水利廳的設(shè)計(jì)院工作。離開(kāi)phpcms主要還是我個(gè)人生活方面的一點(diǎn)原因,西安太遠(yuǎn),然后女朋友習(xí)慣在老家這邊。

其實(shí)在phpcms的時(shí)候就已經(jīng)發(fā)布了免費(fèi)的火車采集器,前期版本。2007年9月份才開(kāi)始全職做這個(gè)軟件。

記者:那phpcms的老大給你過(guò)建議嗎?

李進(jìn)斌:當(dāng)然是有的。我們現(xiàn)在一直都在聯(lián)系,經(jīng)常一聊就幾個(gè)鐘頭,他和我一樣都是技術(shù)出身,很有共同語(yǔ)言。

記者:呵呵,你們是老朋友了?,F(xiàn)在越來(lái)越多的站長(zhǎng)在使用火車頭做網(wǎng)站,我們知道采集很多時(shí)候就意味著內(nèi)容的重復(fù)導(dǎo)致信息泛濫,你怎么看待這個(gè)問(wèn)題,您對(duì)主要靠采集軟件來(lái)更新網(wǎng)站的站長(zhǎng)們有什么忠告或建議?

李進(jìn)斌:首先網(wǎng)站需要持續(xù)的更新大家都知道,軟件可以做為人手工的輔助工具,幫助我們做一些非常機(jī)械性的操作,采集器就是這樣的一個(gè)軟件,可以幫助你實(shí)現(xiàn)一個(gè)前期數(shù)據(jù)填充,但作為維護(hù)網(wǎng)站內(nèi)容工具,不應(yīng)該覺(jué)得越自動(dòng)化的越好。

靠采集軟件維護(hù)更新網(wǎng)站也沒(méi)有錯(cuò),我們現(xiàn)在還 有一批熟練“司機(jī)”也是靠軟件在搜集資料,關(guān)鍵你應(yīng)該清楚你的網(wǎng)站需要些什么樣的內(nèi)容,你又采集更新了些什么,應(yīng)該做到心里有數(shù)。

記者:火車頭現(xiàn)在的開(kāi)發(fā)和推廣團(tuán)隊(duì)有多少人? 跟大家介紹下你的團(tuán)隊(duì)。

李進(jìn)斌:前天新搬了一個(gè)辦公地點(diǎn),公司規(guī) 模又稍微擴(kuò)大了一點(diǎn)?,F(xiàn)在開(kāi)發(fā)主要是4個(gè)人,客服和推廣6個(gè)。還有幾個(gè)長(zhǎng)期活躍在論壇服務(wù)的版主。

記者:規(guī)模慢慢在發(fā)展壯大啊!呵呵!

記者:在這里也跟大家談?wù)勀銈儓F(tuán)隊(duì)的優(yōu)勢(shì)以及你們的服務(wù)好嗎?

李進(jìn)斌:恩,好的。這里面有我的同學(xué)也有從網(wǎng)絡(luò)認(rèn)識(shí)發(fā)展到現(xiàn)實(shí)的朋友,都很年輕,為了同樣的興趣在一起拼搏。我們雖然沒(méi)有 很深的工作背景,但學(xué)歷都還可以幾個(gè)是211出來(lái)的,干勁足,非常有激情。

除了運(yùn)營(yíng)采集器外,也兼在做幾款其他的自動(dòng)采集搜索軟件,可以為廣大站長(zhǎng)提供這些方面的技術(shù)服務(wù)。

李進(jìn)斌:自動(dòng)采集搜索軟件主要是指:數(shù)據(jù) 采集、轉(zhuǎn)移、處理及索引優(yōu)化??梢詾閺V大站長(zhǎng)提供這些方面的技術(shù)服務(wù)。

記者:你們的盈利模式是什么?

李進(jìn)斌:商業(yè)軟件的收入。部分技術(shù)服務(wù)支持,以及其他一些定制軟件的開(kāi)發(fā)。不是太高但足以支撐整個(gè)團(tuán)隊(duì),公司成立還不足一 年,公司的發(fā)展和新的盈利模式還在探索中。

記者:恩,希望你們探索出給有價(jià)值的東西,來(lái)更好的服務(wù)站長(zhǎng)朋友們。最后談一下你們未來(lái)的發(fā)展方向。

李進(jìn)斌:穩(wěn)住采集方面的地位,繼續(xù)提高競(jìng)爭(zhēng)力,努力轉(zhuǎn)型實(shí)現(xiàn)為更多的企業(yè)提供數(shù)據(jù)服務(wù)。

火車頭采集器

李進(jìn)斌談采集[ ]

我們現(xiàn)在在更新這個(gè)采集器,在數(shù)據(jù)采集方面也積累了一些經(jīng)驗(yàn),增加更多功能以適應(yīng)新形式下的采集

  1. 別人經(jīng)常采的網(wǎng)站不要去采
  1. 太容易采的網(wǎng)站不要去采
  1. 不要一次性采集太多,一定要注意后期處理(后面詳續(xù))
  1. 做好關(guān)鍵詞,tag的采集分析
  1. 自己網(wǎng)站要有自己的定位,不采與自己網(wǎng)站無(wú)關(guān)的內(nèi)容
  1. 采集也要有持續(xù)性,經(jīng)常更新,自動(dòng)采集功能我們也有,但還是建議大家人工也參與一些審核,或定時(shí),亂序發(fā)布

后期處理,要想法子做到讓搜索引擎那看不出來(lái)兩片文章的相同,這里面應(yīng)該有很多SEO高手,那我不獻(xiàn)丑了。我說(shuō)下我們現(xiàn)在實(shí)現(xiàn)的功能,大家可以把這些混用,達(dá)到改變內(nèi)容偽原創(chuàng)

  1. 給標(biāo)題。內(nèi)容分詞
  1. 使用同義詞近義詞替換,排除敏感詞,不同的標(biāo)簽之間數(shù)據(jù)融合,指如標(biāo)題內(nèi)容之間數(shù)據(jù)的相互替換
  1. 給文章加上摘要
  1. 為文章標(biāo)題等生成拼音地址
  1. 采集一些其他編碼的網(wǎng)站,我們可以做到簡(jiǎn)繁體轉(zhuǎn)化,可以采集中文網(wǎng)站翻譯成英文(雖然比較垃圾,但應(yīng)該可以算是原創(chuàng)

我們也發(fā)現(xiàn),高難度采集的網(wǎng)站一般內(nèi)容質(zhì)量都非常好,采集其實(shí)有時(shí)也是一件很有樂(lè)趣的事情,需要你學(xué)習(xí)一些采集相關(guān)的知識(shí)。

下面講一些主要的防采集方法??梢哉f(shuō)是攻防對(duì)戰(zhàn)吧。打開(kāi)一個(gè)網(wǎng)頁(yè)實(shí)際就是一個(gè)Http請(qǐng)求瀏覽器。百度蜘蛛,小到我們的采集器使用的都是一個(gè)原理,模擬http請(qǐng)求,所以我們同樣能模擬出瀏覽器。百度蜘蛛出來(lái)所以絕對(duì)的防采集根本不存在,只是難度的高低。或者你認(rèn)為搜索引擎的搜錄也無(wú)所謂了。你可以用一些非常強(qiáng)大的activex,flash,全圖片文字的形式,這個(gè)我們無(wú)能為力。

普通的防采集方法有

  1. 來(lái)源判斷
  1. 登錄信息判斷 Cookie
  1. 請(qǐng)求次數(shù)判斷。如一段時(shí)間內(nèi)請(qǐng)求多少,非常規(guī)操作則封IP
  1. 發(fā)送方式判斷 POST GET 使用JSAjax等請(qǐng)求內(nèi)容

舉例:

  1. 不用說(shuō)了,論壇,下載站等。。
  1. 一些大網(wǎng)站,需要配置服務(wù)器,單純靠腳本判斷資源消耗比較大
  1. 如一些招聘站,asp.net的分頁(yè),Web2.0站的ajax請(qǐng)求內(nèi)容

當(dāng)然我們后面還發(fā)現(xiàn)一些殺手锏,今天第一次在這里給大家公布出來(lái) 有優(yōu)質(zhì)內(nèi)容需要防采集的朋友可以考慮試下

  1. 網(wǎng)頁(yè)默認(rèn)deflate壓縮輸出(gzip容易一點(diǎn),容易解壓) 我們普通的瀏覽器和baidu支持識(shí)別gzip,deflate輸出內(nèi)容
  1. 網(wǎng)頁(yè)內(nèi)容不定時(shí) \0 內(nèi)容自動(dòng)截?cái)啵@兩點(diǎn)基本可以防主大部分主流軟件采集及web采集程序了~

今天主要想要表達(dá)的一點(diǎn),大家在做站時(shí)一定要注意技術(shù)的提高,比如我們里面有后期外部php.net接口處理采集數(shù)據(jù)。或者干脆你自己做一個(gè)發(fā)布時(shí)的接口程序自己入庫(kù)。我們偽原創(chuàng)做得再好,一樣有非常多的會(huì)員使用,那樣又不原創(chuàng)了,采集一樣需要技術(shù),只有你通過(guò)采集器獲得了沒(méi)有多少人有的數(shù)據(jù),你才是唯一了。


相關(guān)條目[ ]


參考來(lái)源[ ]