久久精品水蜜桃av综合天堂,久久精品丝袜高跟鞋,精品国产肉丝袜久久,国产一区二区三区色噜噜,黑人video粗暴亚裔

Sphinx/字符集、大小寫(xiě)轉(zhuǎn)換和轉(zhuǎn)換表

來(lái)自站長(zhǎng)百科
Qianlei討論 | 貢獻(xiàn)2011年11月23日 (三) 15:26的版本 (以?xún)?nèi)容“{{Sphinx導(dǎo)航}} 當(dāng)建立索引時(shí),Sphinx從指定的數(shù)據(jù)源獲得文本文檔,將文本分成詞的集合,再對(duì)每個(gè)詞做大小寫(xiě)轉(zhuǎn)換,于是“Ab...”創(chuàng)建新頁(yè)面)
(差異) ←上一版本 | 最后版本 (差異) | 下一版本→ (差異)
跳轉(zhuǎn)至: 導(dǎo)航、? 搜索

Sphinx | 安裝 | 建立索引|搜索|命令行工具參考|MySQL存儲(chǔ)引擎

當(dāng)建立索引時(shí),Sphinx從指定的數(shù)據(jù)源獲得文本文檔,將文本分成詞的集合,再對(duì)每個(gè)詞做大小寫(xiě)轉(zhuǎn)換,于是“Abc”,“ABC”和“abc”都被當(dāng)作同一個(gè)詞(word,或者更學(xué)究一點(diǎn),詞項(xiàng)term)

為了正確完成上述工作,Sphinx需要知道:

  1. 源文本是什么編碼的;
  2. 那些字符是字母,哪些不是;
  3. 哪些字符需要被轉(zhuǎn)換,以及被轉(zhuǎn)換成什么.

這些都可以用 charset_type 和 charset_table 選項(xiàng)為每個(gè)索引單獨(dú)配置. charset_type 指定文檔的編碼是單字節(jié)的(SBCS)還是UTF-8的。 charset_table 指定了字母類(lèi)字符到它們的大小寫(xiě)轉(zhuǎn)換版本的對(duì)應(yīng)表,沒(méi)有在這張表中出現(xiàn)的字符被認(rèn)為是非字母類(lèi)字符,并且在建立索引和檢索時(shí)被當(dāng)作詞的分割符來(lái)看待。

注意,盡管默認(rèn)的轉(zhuǎn)換表并不包含空格符 (ASCII code 0x20, Unicode U+0020) , 但是這么做是 完全合法的. 這在某些情況下可能有用,比如在對(duì)tag構(gòu)造索引的時(shí)候,這樣一個(gè)用空格分開(kāi)的詞集就可以被當(dāng)作一個(gè)單獨(dú)的查詢(xún)項(xiàng)了.

參考來(lái)源


Sphinx使用手冊(cè)導(dǎo)航

安裝

支持的操作系統(tǒng)|需要的工具|在Linux、BSD上安裝Sphinx|在Windows上安裝Sphinx|已知的安裝問(wèn)題和解決辦法|Sphinx快速入門(mén)教程

建立索引

數(shù)據(jù)源|屬性|MVA|索引|源數(shù)據(jù)的限制|字符集、大小寫(xiě)轉(zhuǎn)換和轉(zhuǎn)換表|SQL 數(shù)據(jù)源|xmlpipe 數(shù)據(jù)源|xmlpipe2 數(shù)據(jù)源|Python 數(shù)據(jù)源|實(shí)時(shí)索引更新|索引合并

搜索

匹配模式|布爾查詢(xún)語(yǔ)法|擴(kuò)展查詢(xún)語(yǔ)法|權(quán)值計(jì)算|排序模式|結(jié)果分組|分布式搜索|MySQL 協(xié)議支持與SphinxQL

命令行工具參考

indexer命令參考|searchd命令參考|search命令參考|spelldump命令參考|indextool命令參考

MySQL存儲(chǔ)引擎

SphinxSE 概覽|安裝 SphinxSE|使用 SphinxSE|通過(guò) MySQL 生成片段