solr进阶: 如何定制搜索服务,扩展搜索逻辑

前两天发了篇"剖析solr实用性"，主要黑了solr建索引让我觉得不舒服，还黑了solr只是个通用的丢入了servlet容器里的简单服务，事实证明我错了。这篇博客我要纠正并回答那篇博客里自己总结的问题：如何定制solr实现自己的搜索服务。solr是一个可扩展的服务，我们可以添加自己的包和类，在solr已经实现的default处理逻辑之上，再添加我们自己的搜索逻辑。实现手段就是继承solr的基础

张包峰

7124人浏览 · 2013-01-14 21:49:18

张包峰 · 2013-01-14 21:49:18 发布

前两天发了篇"剖析solr实用性"，主要黑了solr建索引让我觉得不舒服，还黑了solr只是个通用的丢入了servlet容器里的简单服务，事实证明我错了。这篇博客我要纠正并回答那篇博客里自己总结的问题：如何定制solr实现自己的搜索服务。

solr是一个可扩展的服务，我们可以添加自己的包和类，在solr已经实现的default处理逻辑之上，再添加我们自己的搜索逻辑。实现手段就是继承solr的基础类，重写或者改写新的Filter，Search Component以及Request Handler类，来取代solr默认的处理类或者与之并存。我也是读了源码，参考了默认类的实现过程，才找到了定制的方法，下面一一说明。

Request Handler

solrconfig.xml里，对/select设置的默认处理类是solr.SearchHandler

  <requestHandler name="/select" class="solr.SearchHandler">
     <lst name="defaults">
       <str name="echoParams">explicit</str>
       <int name="rows">10</int>
       <str name="df">usergoods_mix</str>
     </lst>
  </requestHandler>

源码中，SearchHandler类在org.apache.solr.handler.component包下，继承了RequestHandlerBase类，他最主要的逻辑在handleRequestBody函数中，

  @Override
  public void handleRequestBody(SolrQueryRequest req, SolrQueryResponse rsp) throws Exception, ParseException, InstantiationException, IllegalAccessException
  {}

SearchHandler还有一个主要的成员变量

protected List<SearchComponent> components = null;

SearchHandler主要职责是借助solrconfig.xml配置文件里设置的默认或者新增的requestHandler参数以及search component类，构建一个ResponseBuilder

ResponseBuilder rb = new ResponseBuilder(req, rsp, components);

根据配置把各个search component该做的事都分配好，search component是真正读取处理SolrQueryRequest内的查询参数，往SolrQueryResponse里填写数据的地方。下面会再介绍search component的两个prepare()和process()函数。

定制Request Handler

默认的request handler直接得到你http里url带来的传参，然后就开始根据配置分发任务，让各自的component去处理查询请求了。定制request handler的好处是，在这个步骤之中，你可以再额外进行一些别的逻辑处理，比如你可以写写log，在得到SolrQueryRequest后，传入前查看处理一下里面的query，对SolrQueryResponse里得到的数据集再做些处理等等。定制方式是自己继承StandardRequestHandler类(该类继承了SearchHandler)，

package myplugin.handler;

import org.apache.solr.handler.StandardRequestHandler;
import org.apache.solr.request.SolrQueryRequest;
import org.apache.solr.response.SolrQueryResponse;

public class MySearchHandler extends StandardRequestHandler {
	public void handleRequestBody(SolrQueryRequest request,
			SolrQueryResponse response) throws Exception {
		super.handleRequestBody(request, response);
		//TODO: whatever you want
	}
}

并在solrconfig.xml里配置即可起效。

  <requestHandler name="/test" class="myplugin.handler.MySearchHandler">
    <lst name="defaults">
      <str name="echoParams">explicit</str>
      <int name="rows">10</int>
      <str name="df">usergoods_mix</str>
    </lst>
  </requestHandler>

别忘了把自己的jar包放到webapp/的WEB-INF的lib目录下。solr也为我们定制了别的handler，比如 DisMaxRequestHandler，LukeRequestHandler，MoreLikeThisHandler

和SpellCheckerRequestHandler等等。大家可以自己看看源码，知道他们分别做什么。都在org.apache.solr.handler内。

Search Component

search component的意义远比handler重要的多。solr已经在solrconfig.xml给我们定制了几个默认的component

       <searchComponent name="query"     class="solr.QueryComponent" />
       <searchComponent name="facet"     class="solr.FacetComponent" />
       <searchComponent name="mlt"       class="solr.MoreLikeThisComponent" />
       <searchComponent name="highlight" class="solr.HighlightComponent" />
       <searchComponent name="stats"     class="solr.StatsComponent" />
       <searchComponent name="debug"     class="solr.DebugComponent" />

一般处理我们查询请求的一定避免不了第一个query component。阅读源码发现，所有这些类都继承SearchComponent。所以我们定制的时候也要继承SearchComponent。

拿QueryComponent举例子说明search component的重要性，最重要的两个函数是

public class QueryComponent extends SearchComponent
{
  public static final String COMPONENT_NAME = "query";
  public void prepare(ResponseBuilder rb) throws IOException{}
  public void process(ResponseBuilder rb) throws IOException {}
  // ...
}

下面截取一段prepare里的代码说明QueryComponent是怎么读取SolrQueryRequest(res)里的内容，并最后把结果写进SolrQueryResponse(rsp)的。

public void process(ResponseBuilder rb) throws IOException
  {
    SolrQueryRequest req = rb.req;
    SolrQueryResponse rsp = rb.rsp;
    SolrParams params = req.getParams();
    if (!params.getBool(COMPONENT_NAME, true)) {
      return;
    }
    SolrIndexSearcher searcher = req.getSearcher();
    // ...

      DocListAndSet res = new DocListAndSet();
      res.docList = new DocSlice(0, docs, luceneIds, null, docs, 0);
      if (rb.isNeedDocSet()) {
        // TODO: create a cache for this!
        List<Query> queries = new ArrayList<Query>();
        queries.add(rb.getQuery());
        List<Query> filters = rb.getFilters();
        if (filters != null) queries.addAll(filters);
        res.docSet = searcher.getDocSet(queries);
      }
      rb.setResults(res);
      rsp.add("response",rb.getResults().docList);

对同一个request handler，可以按顺序配置多个search component，这些component会在handler类里各自得到自己的任务，把SolrQueryRequest和SolrQueryResponse传承下去，在这个过程中，我们可以加入自己的component，定制我们想要的搜索结果和搜索逻辑

定制search component

我简单把实现代码帖一下，主要还是通过继承基础类，最后配置到solrconfig.xml内。

package myplugin.component;

import java.io.IOException;

import org.apache.solr.handler.component.ResponseBuilder;
import org.apache.solr.handler.component.SearchComponent;


public class MySearchComponent extends SearchComponent {
	String query = null;
	@Override
	public void prepare(ResponseBuilder rb) throws IOException {
		query = rb.req.getParams().get("q", ""); 
		System.out.println("prepare: " + query);
	}

	@Override
	public void process(ResponseBuilder rb) throws IOException {
		if (query != null) {		
			rb.rsp.add("mytest", "zbf"); // <str name="mytest">zbf</str>
			//SimpleOrderedMap map = (SimpleOrderedMap) builder.rsp.getValues();
			//DocList doclist = (DocList) map.get("response");			
//			System.out.println("process: " + map.get("response").toString());
//			System.out.println("process: " + map.get("mytest").toString());
		}
	}

	@Override
	public String getDescription() {
		return "MySearchComponent";
	}

	@Override
	public String getSource() {
		return "";
	}

	@Override
	public String getSourceId() {
		return "";
	}

	@Override
	public String getVersion() {
		return "0.1";
	}
}

主要就是在prepare()里获取到SolrQueryRequest里的查询query，在process()里自己处理，并且获取到前一次component处理得到的SolrQueryResponse，里面可能会有已经排好序的查询数据集，你也可以做一些二次处理，简单过滤，重新排序等事情

  <requestHandler name="/test" class="myplugin.handler.MySearchHandler">
    <lst name="defaults">
      <str name="echoParams">explicit</str>
      <int name="rows">10</int>
      <str name="df">usergoods_mix</str>
    </lst>
    <arr name="components">
      <str>query</str>
      <str>myComponent</str>
    </arr>
  </requestHandler>
  <searchComponent name="myComponent" class="myplugin.component.MySearchComponent">
  </searchComponent>

先声明自己的searchComponent，然后放入handler里使用起来，注意配置顺序，因为component是按顺序串接起来的。

定制Filter

最后简单说下Filter，他的作用就是如果你自己定制了Filter，你就可以按自己的方式处理字符串。比如你的查询query里传来的是“field:如何定制搜索服务”，如果你直接交给solr的api去做那么"如何"使用的是field字段，但是空格之后的word都会归结到default field里，这是solr包装了lucene的接口之后的结果，可能刚开始在组装自己的查询url的时候会不太适应，所以如果你定制一个自己的filter，就可以解决这样的问题。

定制Filter要继承两个类。其实在配置IKAnalyzer的时候大家可以看到

    <fieldType name="text_ik" class="solr.TextField">
        <analyzer type="index">
          <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"  isMaxWordLength="true"/>
          <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
          <filter class="solr.LowerCaseFilterFactory"/>
        </analyzer>
        <analyzer type="query">
           <!-- 同上 -->
        </analyzer>  
    </fieldType>

在tokenizer处使用一个类，在filter处使用一个Factory类。下面我举solr 3.1 cookbook上的例子说明一下。先是自己的filter类，

package pl.solr;
import java.io.IOException;
import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.TermAttribute;
public class ExampleFilter extends TokenFilter {
    private final TermAttribute termAttr = (TermAttribute) 
addAttribute(TermAttribute.class);     
    public ExampleFilter(TokenStream stream) {
        super(stream);
    }     
    @Override
    public boolean incrementToken() throws IOException {
        if (input.incrementToken()) {
            String term = termAttr.term();
            if (term.length() <= 1) {
                return true;
            }
            StringBuffer buffer = new StringBuffer();
             buffer.append(term.charAt(1)).append(term.charAt(0)).
append(term.substring(2));             
            termAttr.setTermBuffer(buffer.toString());
            termAttr.setTermLength(buffer.length());
            return true;
        }
        return false;
    }
}

然后是工厂类，

package pl.solr;
import org.apache.lucene.analysis.TokenStream;
import org.apache.solr.analysis.BaseTokenFilterFactory;
public class ExampleFilterFactory extends BaseTokenFilterFactory {
    @Override
    public TokenStream create(TokenStream stream) {
        return new ExampleFilter(stream);
    }
}

最后是配置文件：

<fieldtype name="exampleType" stored="true" indexed="true" 
class="solr.TextField" >
 <analyzer>
  <tokenizer class="solr.WhitespaceTokenizerFactory" />
  <filter class="pl.solr.ExampleFilterFactory" />
 </analyzer>
</fieldtype>

总结

前几天我也不知道solr的这几个玩法，把solr给小看了。其实solr是一个高可扩展的东西，你要实现自己的搜索服务，就继承solr的基本类，增加自己的扩展类到solr的配置文件里，可以取代solr的默认处理类，也可以和solr的类共同处理。所以以上说的request handler，search component以及filter给我们实现了很好的扩展方式，用起来比较像SOA的架构，像OSGi里的各部分组件。

之后如果对solr有更深的理解或者解读，会再做分享。

(全文完)

向您推荐>>Eolink开发者社区

权威｜前沿｜技术｜干货｜国内首个API全生命周期开发者社区

更多推荐

ELK实现containerd的容器日志采集展示【基于logging的全栈监测】

企业级ELK Stack构建介绍

云原生

深入理解 Mocha 测试框架：从零实现一个 Mocha

前言什么是自动化测试自动化测试在很多团队中都是Devops环节中很难执行起来的一个环节，主要原因在于测试代码的编写工作很难抽象，99%的场景都需要和业务强绑定，而且写测试代码的编写工作量往往比编写实际业务代码的工作量更多。在一些很多业务场景中投入产出比很低，适合写自动化测试的应该是那些中长期业务以及一些诸如组件一样的基础库。自动化测试是个比较大的概念，其中分类也比较多，比如单元测试，端对端测试，集

云原生

(20200916 Solved)docker-compose up创建容器自动退出

问题描述如题，创建容器后自动退出了。并且docker start container无效解决方案原因是缺失了控制终端的配置，需要在docker-compose.yml中增加tty:true ，有时候这样也不行，需要再增加一个command:/bin/bash，命令不一定是这个，需要是一个不会退出的命令，然后用-d后台启动容器。Referencesdocker-compose启动容器后自动退出...

云原生

所有评论(0)

查看更多评论

张包峰

@zbf8441372

已为社区贡献7条内容