Searchtb - searchtb.com - 搜索技术博客-淘宝
General Information:
Latest News:
Unique索引优化实践 15 Aug 2013 | 03:01 pm
Unique索引,有时也称Primary Key索引,顾名思义就是对于这个索引字段每个doc的值都是唯一的,如各种id字段:product id,customer id, campaign id和bidword id等。这种类型的索引一般用来进行高效的查询,最典型的应用场景就是进行附表join查询,即对主表中查到的每一个doc,都在附表中查询其对应的附表doc信息。所以,对这种类型的索引进行优化会...
php扩展中如何定义线程安全的全局对象 16 Jul 2013 | 02:02 pm
传统的php裁剪类只能按位置裁剪。如按中间位置裁剪。这种裁剪方式可能会导致一个人被截成两段。为了解决这个问题,最近开发了一个php扩展(tclip),能自动识别人脸或者图像中其它重要区域,然后进行裁剪。裁剪效果如下: 原图: 如果按照从中间截取为 400 * 225 大小大图片。效果如下: 使用tclip扩展裁剪图片效果如下: 在人脸识别的过程中,需要使用opencv中的CascadeCl...
JVM的GC简介和实例 13 Jul 2013 | 01:32 pm
本文是一次内部分享中总结了jvm gc的分类和一些实例, 内容是introduction级别的,供初学人士参考. 成文仓促,难免有些错误,如果有大牛发现,请留言,我一定及时更正,谢谢! JVM内存布局主要包含下面几个部分: Java Virtual Machine Stack: 也就是我们常见的局部变量栈,线程私有,保存线程执行的局部变量表、操作栈、动态连接等。 Java Heap:我们最...
解决进程间共享内存,由于某个进程异常退出导致死锁问题 12 Jul 2013 | 03:09 pm
发现问题 继这篇Blog 解决Nginx和Fpm-Php等内部多进程之间共享数据问题 发完后,进程间共享内存又遇到了新的问题 昨天晚上QP同学上线后,早上看超时报表发现有一台前端机器访问QP超时,比其他前端机器高出了几个数量级,前端的机器都是同构的 难道是这台机器系统不正常?查看系统状态也没有任何异常,统计了一下超时日志,发现超时都发生在早上QP服务重启的过程中,正常情况下服务重启时,Clu...
linux下epoll模型accept并发问题 12 Jul 2013 | 02:50 pm
最近用c++实现了贝叶斯分类算法,做了个自动识别垃圾信息的小工具。工具中有个功能,通过绑定指定端口,和客户端通信。服务端使用的是epoll网络模型。在测试的时候发现,单用户的情况下客户端和服务器通信正常。但是在多用户并发的情况下,客户端和服务端通信不正常。此时,客户端能正常的链接,发送数据,但是一直卡在接收数据部分。如下图: 出现这种问题,是因为不正确的使用了epoll中的ET(edge-tri...
玩转robots协议 9 Jul 2013 | 01:32 pm
玩转robots协议 2013年2月8日北京市第一中级人民法院正式受理了百度诉奇虎360违反“Robots协议”抓取、复制其网站内容的不正当竞争行为一案,索赔金额高达一亿元,这可以看做2012年下半年“3B大战”的继续。在此次索赔案件中,百度称自己的Robots文本中已设定不允许360爬虫进入,而360的爬虫依然对“百度知道”、“百度百科”等百度网站内容进行抓取。 其实早在2012年11月初,...
不同SSD盘组合搜索引擎单机性能测试 9 Jun 2013 | 06:39 am
一、测试机器 Linux huawei_C5.co3 2.6.32-220.23.2.ali927.el5.x86_64 #1 SMP Mon Jan 28 14:57:06 CST 2013 x86_64 x86_64 x86_64 GNU/Linux MemTotal: 49520300kB Intel(R) Xeon(R) CPU E5-2630 0 @ 2.30GHz ...
玩转mmap 7 Jun 2013 | 12:26 pm
静态cache之log共现词分析 4 Jun 2013 | 08:33 pm
一、背景 搜索引擎的log数据可以用于query理解、user理解、doc理解和ranking。我们运行共现词分析,挖掘出引擎的query log里面共现的词,离线建静态cache,用于提升引擎的性能。 二、共现词分析 分析query log里query的平均的term数,值为5。我们对query log依次进行一至四元共现词分析,高于四元的我们推荐用fullcache解决,而且高元的离线计...