|
|
在此分享出来给大家,是会员花钱分享的开源版,希望对大家有用,切记好好珍惜,不要随意转载。0 t9 m0 f% y) w* g" m
搜猫搜索引擎_V9.0 正式版修复介绍:
! T! C3 c6 ]' p. C5 d( j# k1、整合Sphinx、倒排索引、PHPCWS分词系统,后台轻松一键创建索引和分词2、程序实现10亿数据的承载量,搜索永久小于1秒3、新增:充值卡系统、可以生成各种面额的充值卡、轻松充值积分进行竞价排名4、整合支付宝API接口,可以用支付宝免费积分积分进行竞价排名5、推广平台、搜索结果页右侧推广和开放平台实现智能规则排名,竞价同一关键词时以积分多少显示前三名推广的链接
- c3 C$ X/ `+ r9 l( R/ E3 `4 Z# h8 K7 g5 m; W) Y
搜猫V8 Beta5.0修复介绍:
: K7 Y H- M) d$ o¤ 实现了PHP+mysql+Sphinx的整合工作# [' W; h) R2 a1 n7 v* d& D; s
¤ 优化蜘蛛程序,整合Crawler爬虫代码、自动下载采集数据到本地调用,实现本地索引功能。' D9 D# a8 a. ?) P; m9 F9 F
¤ 优化蜘蛛功能,实现蜘蛛智能去除死链接,实现多线程采集,默认蜘蛛开启数为20个,也就是说可以同时开启20个蜘蛛同时工作,这个根据你的服务器的配置来定,服务器越好开启的越多,采集的数据越多。理论值:日采集数据不低于1000000条信息。
4 f: S, Y! c6 F【PHP+Mysql+Sphinx 说明】' [, o: R' Y5 z
出自俄罗斯的开源全文搜索引擎软件 Sphinx ,单一索引最大可包含1亿条记录,在1千万条记录情况下的查询速度为0.x秒(毫秒级)。Sphinx创建索引的速度为:创建100万条记录的索引只需3~4分钟,创建1000万条记录的索引可以在50分钟内完成,而只包含最新10万条记录的增量索引,重建一次只需几十秒。9 T1 f/ ?: Q2 O5 l: y& {
基于以上几点,我设计出了这套搜索引擎架构。在生产环境运行了一周,效果非常不错。有时间我会专为配合Sphinx搜索引擎,开发一个逻辑简单、速度快、占用内存低、非表锁的MySQL存储引擎插件,用来代替MyISAM引擎,以解决MyISAM存储引擎在频繁更新操作时的锁表延迟问题。另外,分布式搜索技术上已无任何问题。
' w X4 ]7 I( `; O& j* q! u一、搜索引擎架构设计:' r! e& U: c& q% D1 H
1、搜索引擎架构图:4 `4 R, t; I, J
8 \5 z$ n# ^* y, N/ x- u- Q
+ u/ g6 |7 K# H! f! m/ R" l# F
2、搜索引擎架构设计思路:9 g+ t" s( |/ p! }% U8 s$ m/ N
(1)、调用方式最简化:
% z+ j8 o% D- D尽量方便前端Web工程师,只需要一条简单的SQL语句“SELECT ... FROM myisam_table JOIN sphinx_table ON (sphinx_table.sphinx_id=myisam_table.id) WHERE query='...';”即可实现高效搜索。- b7 f6 _. c, T, F/ M4 ]; S J4 d' Q- J
(2)、创建索引、查询速度快:4 C, M# q9 F6 G2 N7 q# @; ~' t
①、Sphinx Search 是由俄罗斯人Andrew Aksyonoff 开发的高性能全文搜索软件包,在GPL与商业协议双许可协议下发行。
) V+ i* n: ]) a' S6 p* KSphinx的特征:$ \% T( K! s" f$ l Z
Sphinx支持高速建立索引(可达10MB/秒,而Lucene建立索引的速度是1.8MB/秒)高性能搜索(在2-4 GB的文本上搜索,平均0.1秒内获得结果)高扩展性(实测最高可对100GB的文本建立索引,单一索引可包含1亿条记录)支持分布式检索支持基于短语和基于统计的复合结果排序机制支持任意数量的文件字段(数值属性或全文检索属性)支持不同的搜索模式(“完全匹配”,“短语匹配”和“任一匹配”)支持作为Mysql的存储引擎②、通过国外《High Performance MySQL》专家组的测试可以看出,根据主键进行查询的类似“SELECT ... FROM ... WHERE id = ...”的SQL语句(其中id为PRIMARY KEY),每秒钟能够处理10000次以上的查询,而普通的SELECT查询每秒只能处理几十次到几百次:
& F/ u3 F5 F# c8 N% R7 J" t
f) Z5 v1 {# v$ G1 p' r' b( b6 q& S( K: W6 S$ j/ y8 v
③、Sphinx不负责文本字段的存储。假设将数据库的id、date、title、body字段,用sphinx建立搜索索引。根据关键字、时间、类别、范围等信息查询一下sphinx,sphinx只会将查询结果的ID号等非文本信息告诉我们。要显示title、body等信息,还需要根据此ID号去查询MySQL数据库,或者从Memcachedb等其他的存储中取得。安装SphinxSE作为MySQL的存储引擎,将MySQL与Sphinx结合起来,是一种便捷的方法。
7 Y4 @8 ^) r0 J7 {- x, G2 v. X9 Y创建一张Sphinx类型表,将MyISAM表的主键ID和Sphinx表的ID作一个JOIN联合查询。这样,对于MyISAM表来所,只相当于一个WHERE id=...的主键查询,WHERE后的条件都交给Sphinx去处理,可以充分发挥两者的优势,实现高速搜索查询。6 L: v* \" Z' K1 q2 Q
(3)、按服务类型进行分离:
# W, o" J$ I, p. `3 T* a% e为了保证数据的一致性,我在配置Sphinx读取索引源的MySQL数据库时,进行了锁表。Sphinx读取索引源的过程会耗费一定时间,由于MyISAM存储引擎的读锁和写锁是互斥的,为了避免写操作被长时间阻塞,导致数据库同步落后跟不上,我将提供“搜索查询服务”的和提供“索引源服务”的MySQL数据库进行了分开。监听3306端口的MySQL提供“搜索查询服务”,监听3406端口的MySQL提供“索引源服务”。
1 A5 l$ N; g; }& a(4)、“主索引+增量索引”更新方式:0 ~* Y9 R1 l7 t8 r+ \
一般网站的特征:信息发布较为频繁;刚发布完的信息被编辑、修改的可能性大;两天以前的老帖变动性较小。
; V! x* I: D9 D* `7 z( V基于这个特征,我设计了Sphinx主索引和增量索引。对于前天17:00之前的记录建立主索引,每天凌晨自动重建一次主索引;对于前天17:00之后到当前最新的记录,间隔3分钟自动重建一次增量索引。
3 A/ w" J# H8 I1 G, J7 P(5)、“Ext3文件系统+tmpfs内存文件系统”相结合:
: d9 V% {" S. T: ^( N为了避免每3分钟重建增量索引导致磁盘IO较重,从而引起系统负载上升,我将主索引文件创建在磁盘,增量索引文件创建在tmpfs内存文件系统“/dev/shm/”内。“/dev/shm/”内的文件全部驻留在内存中,读写速度非常快。但是,重启服务器会导致“/dev/shm/”内的文件丢失,针对这个问题,我会在服务器开机时自动创建“/dev/shm/”内目录结构和Sphinx增量索引。. ^/ ^4 l7 T+ l
(6)、中文分词词库:. f! ~; K3 ]" _* ^( ^* a
我根据“百度早期中文分词库”+“搜狗拼音输入法细胞词库”+“LibMMSeg高频字库”+... 综合整理成一份中文分词词库,出于某些考虑暂不提供。你可以使用LibMMSeg自带的中文分词词库。
+ [- s4 H0 d" _' t
) t! U5 [- Y2 ~, Y1 F# G& [- M4 _9 o- H1 ]; f
$ J. i$ b0 ` i& T2 c
1. 实现MP3搜索功能。+ S) ~: W% n* C/ i8 v2 O4 p5 t2 x2 T
2. 实现了图片搜索功能
4 ?6 r! [; F8 r; V& L3. 实现网盘搜索引擎,
* _- O. ?. _ B6 q' N( w4. 增加搜猫蜘蛛客户端程序,可以自定义时间收录,自定义刷新收录,增加掉线自动连接蜘蛛功能,自定义截图功能,真正实现了无人坚守自动完成收录和每天实现收录过万的问题,使客户只要不关闭电脑,打开蜘蛛程序链接蜘蛛,设置自定义 之后 可以做其他,客户端程序可以智能做到一切。
9 u- q t6 T/ d: {* c% O5.增加仿百度贴吧和知道程序,真正实现了仿百度的特征。
0 z y& j1 K3 C, Q# i! ?& l( C6.完善开放平台,使开放平台基本和百度一模一样。- _' ?. s& H& v6 y: i' F; {
7.数据库和蜘蛛里增加索引功能,是搜索速度大大提高了10倍* j( D' T3 }1 e% X a
8.加上了自动链功能,完美结合到搜索结果上。自动链即别人做上你的网站链接,系统自动收录别人的网址,来的IP越多,排名越前,网站宣传的好功能。
$ C, q8 W1 P! [6 {1 u8 s' ?: L$ e! M- _, O# n/ ^, Y
安装说明:0 H: _: c/ ~3 R+ ?
6 T( ]0 N h% y, }本帖隐藏的内容
, z& s# V, ]9 W' W J. \5 D* U! N. f; T1.把压缩包解压到网站的根目录。
2 {' _% S, c" g0 i9 u1 {' O% j3 O 2.恢复备份 http://域名/dg 用户名 admin 密码 123456 步骤:参数设置(填上你的数据库帐号与密码)---恢复数据--选择目录--caogen81230530com-选中你的数据库--开始恢复。 o4 y5 f1 I$ E4 H
3.修改数据库链接文件$ {( E8 _9 R: f$ S
搜猫 :include/db_config.php
0 C4 Z5 K1 l" a+ C& M- ^$ V贴吧:ieba/database/config_mysql.php
7 P% Z( |9 a$ ^, ~! R5 V) a7 e * F7 Q7 e* m5 K4 q+ ~0 o) j& o
1 L) K" j+ E% d* k. R! bOK,进前台 http://域名/admin admin 123456789xxx2 t+ Q6 x( h0 X' C7 r
+ |6 b% t# G) E- F# c" |9 G' I9 J% {
# C. ]+ g; `4 p7 g& ~
8 @/ t- Y( u/ R
6 Z7 b4 e: t! ^
/ p) ^3 v3 Q+ j/ D; k( p- E$ o% Y8 d) [" j: J0 E% D! V! M
2 W* T' [/ }2 M# c7 E! h6 ?
% a0 O7 [- ~: f
' t9 T( S: n9 Z5 i
; t6 s K7 a) X7 e* h) I8 }% d
& t7 f+ r! T) @ i
9 L9 k% [6 T5 e5 n- o9 S3 j+ u2 ]# [7 |+ M
|
评分
-
查看全部评分
|