WIKI使用導(dǎo)航
站長(zhǎng)百科導(dǎo)航
站長(zhǎng)專(zhuān)題
- 網(wǎng)站推廣
- 網(wǎng)站程序
- 網(wǎng)站賺錢(qián)
- 虛擬主機(jī)
- cPanel
- 網(wǎng)址導(dǎo)航專(zhuān)題
- 云計(jì)算
- 微博營(yíng)銷(xiāo)
- 虛擬主機(jī)管理系統(tǒng)
- 開(kāi)放平臺(tái)
- WIKI程序與應(yīng)用
- 美國(guó)十大主機(jī)
Sphinx/字符集、大小寫(xiě)轉(zhuǎn)換和轉(zhuǎn)換表
來(lái)自站長(zhǎng)百科
當(dāng)建立索引時(shí),Sphinx從指定的數(shù)據(jù)源獲得文本文檔,將文本分成詞的集合,再對(duì)每個(gè)詞做大小寫(xiě)轉(zhuǎn)換,于是“Abc”,“ABC”和“abc”都被當(dāng)作同一個(gè)詞(word,或者更學(xué)究一點(diǎn),詞項(xiàng)term)
為了正確完成上述工作,Sphinx需要知道:
- 源文本是什么編碼的;
- 那些字符是字母,哪些不是;
- 哪些字符需要被轉(zhuǎn)換,以及被轉(zhuǎn)換成什么.
這些都可以用 charset_type 和 charset_table 選項(xiàng)為每個(gè)索引單獨(dú)配置. charset_type 指定文檔的編碼是單字節(jié)的(SBCS)還是UTF-8的。 charset_table 指定了字母類(lèi)字符到它們的大小寫(xiě)轉(zhuǎn)換版本的對(duì)應(yīng)表,沒(méi)有在這張表中出現(xiàn)的字符被認(rèn)為是非字母類(lèi)字符,并且在建立索引和檢索時(shí)被當(dāng)作詞的分割符來(lái)看待。
注意,盡管默認(rèn)的轉(zhuǎn)換表并不包含空格符 (ASCII code 0x20, Unicode U+0020) , 但是這么做是 完全合法的. 這在某些情況下可能有用,比如在對(duì)tag云構(gòu)造索引的時(shí)候,這樣一個(gè)用空格分開(kāi)的詞集就可以被當(dāng)作一個(gè)單獨(dú)的查詢(xún)項(xiàng)了.
參考來(lái)源