WIKI使用導(dǎo)航
站長(zhǎng)百科導(dǎo)航
站長(zhǎng)專題
- 網(wǎng)站推廣
- 網(wǎng)站程序
- 網(wǎng)站賺錢
- 虛擬主機(jī)
- cPanel
- 網(wǎng)址導(dǎo)航專題
- 云計(jì)算
- 微博營(yíng)銷
- 虛擬主機(jī)管理系統(tǒng)
- 開放平臺(tái)
- WIKI程序與應(yīng)用
- 美國(guó)十大主機(jī)
Sphinx/字符集、大小寫轉(zhuǎn)換和轉(zhuǎn)換表:修訂間差異
來自站長(zhǎng)百科
(以內(nèi)容“{{Sphinx導(dǎo)航}} 當(dāng)建立索引時(shí),Sphinx從指定的數(shù)據(jù)源獲得文本文檔,將文本分成詞的集合,再對(duì)每個(gè)詞做大小寫轉(zhuǎn)換,于是“Ab...”創(chuàng)建新頁面) ? |
(→?參考來源) ? |
||
第18行: | 第18行: | ||
[[category:Sphinx|Z]] | |||
{{Sphinx使用手冊(cè)}} | {{Sphinx使用手冊(cè)}} |
2011年11月24日 (四) 13:34的最新版本
當(dāng)建立索引時(shí),Sphinx從指定的數(shù)據(jù)源獲得文本文檔,將文本分成詞的集合,再對(duì)每個(gè)詞做大小寫轉(zhuǎn)換,于是“Abc”,“ABC”和“abc”都被當(dāng)作同一個(gè)詞(word,或者更學(xué)究一點(diǎn),詞項(xiàng)term)
為了正確完成上述工作,Sphinx需要知道:
- 源文本是什么編碼的;
- 那些字符是字母,哪些不是;
- 哪些字符需要被轉(zhuǎn)換,以及被轉(zhuǎn)換成什么.
這些都可以用 charset_type 和 charset_table 選項(xiàng)為每個(gè)索引單獨(dú)配置. charset_type 指定文檔的編碼是單字節(jié)的(SBCS)還是UTF-8的。 charset_table 指定了字母類字符到它們的大小寫轉(zhuǎn)換版本的對(duì)應(yīng)表,沒有在這張表中出現(xiàn)的字符被認(rèn)為是非字母類字符,并且在建立索引和檢索時(shí)被當(dāng)作詞的分割符來看待。
注意,盡管默認(rèn)的轉(zhuǎn)換表并不包含空格符 (ASCII code 0x20, Unicode U+0020) , 但是這么做是 完全合法的. 這在某些情況下可能有用,比如在對(duì)tag云構(gòu)造索引的時(shí)候,這樣一個(gè)用空格分開的詞集就可以被當(dāng)作一個(gè)單獨(dú)的查詢項(xiàng)了.