一. 简介

本次我们基于浙江大学在openKG上提供的基于elasticsearch的KBQA实现及示例，我们将其精简并将应用到自己的知识图谱上。

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。我们将通过提供的接口进行查询，例如查询朱一龙的相关信息，可以通过下列命令进行查询：

1	curl -XGET 'localhost:9200/demo/baidu_baike/_search?&pretty' -H 'Content-Type:application/json' -d' { "query":{ "bool":{ "filter":{ "term":{"subj":"朱一龙"} } } } } '

我们的目的就是在数据导入elasticsearch后，通过将输入的自然语言分解来构建这样的查询模板，从而实现搜索功能。

本教程的项目代码放在github上，下载地址为《从零开始学习知识图谱》项目源代码。

二. 环境准备

1. 操作系统

支持操作系统：windows、macOS、Linux。为了方便大家搭建开发环境，笔者尽可能在windows下构建，系列篇未特意说明时操作系统都是windows。Linux安装可以参考VirtualBox虚拟机安装Ubuntu或VirtualBox虚拟机安装CentOS8进行安装。

2. jdk

安装参见windows系统安装JDK

3. Python3

安装参见从零开始学习知识图谱之一

4. ElasticSearch

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。ElasticSearch用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。根据DB-Engines的排名显示，Elasticsearch是最受欢迎的企业搜索引擎，其次是Apache Solr，也是基于Lucene。

安装

elasticsearch 官网下载安装包，软件不需要安装，需要配置相应的Java环境。详细使用可阅读官方教程。

运行 ./bin/elasticsearch.bat即可开启服务。

在开启服务后，您可以通过 curl 'http://localhost:9200'来访问 elasticsearch。

{
  "name" : "DESKTOP-3AFDEBF",
  "cluster_name" : "elasticsearch",
  "cluster_uuid" : "0HpHJxLAREq6SntFdfVSPQ",
  "version" : {
    "number" : "7.4.0",
    "build_flavor" : "default",
    "build_type" : "zip",
    "build_hash" : "22e1767283e61a198cb4db791ea66e3f11ab9910",
    "build_date" : "2019-09-27T08:36:48.569419Z",
    "build_snapshot" : false,
    "lucene_version" : "8.2.0",
    "minimum_wire_compatibility_version" : "6.8.0",
    "minimum_index_compatibility_version" : "6.0.0-beta1"
  },
  "tagline" : "You Know, for Search"
}

三. 数据准备

1. 数据库到JSON

elasticsearch 要求文档的输入格式为 JSON，因此我们需要把数据库中的数据转化为JSON形式。比如：

{
    "subj": "周星驰", 
    "po": [ {"pred": "actor_foreName", "obj": "Stephen Chow"},
           {"pred": "actor_nationality", "obj": "中国"}, 
           {"pred": "actor_constellation", "obj": "巨蟹座"}, 
           {"pred": "actor_birthPlace", "obj": "香港"}, 
           {"pred": "actor_birthDay", "obj": "1962年6月22日"} ]
           ...
}

对应代码为./utils/get_json.py，该程序的工作流程为对数据库进行查表，而后将对应信息保存到字典里。通过 json.dumps()将Python对象转化为JSON格式并写成文件。

运行get_json.py，生成actor.json和movie.json

C:\my\Python\python.exe C:/d/mmm/pycharm/elasticsearch/utils/get_json.py
max_id:  13967
max_id:  22219
tuple index out of range

Process finished with exit code 0

可能出现的问题：
python pyahocorasick包安装失败解决方法

2. 属性同义词扩展

为了支持对同一类问题的不同询问方式，我们采用同意属性映射来扩展属性，当遇到同义属性时，我们将其映射到数据集中的属性上，对应于./data/attr_mapping.txt 文件：

actor_chName 中文名 名字 姓名
actor_foreName 英文名 外文名
actor_bio 简介 简历 介绍
actor_nationality 国籍
actor_constellation 星座
actor_birthPlace 出生地 老家
actor_birthPlace 出生日期 生日
actor_repWorks 代表作 作品
actor_achiem 成就 获奖 奖项
actor_birthPlace 经纪公司
movie_chName 片名
movie_foreName 英文片名 外文片名
movie_prodTime 出品时间
movie_foreName 出品公司 制作方
movie_director 导演
movie_screenwriter 编剧
movie_genre 类型
movie_star 主演 演员 参演人员
movie_length 片长 时长
movie_rekeaseTime 上映时间
movie_language 对白语言 语言 语种
movie_achiem 奖项 获奖 成就

3. 建立属性间映射 get_ac_attr.py

我们通过cpikle 对属性间映射进行打包，其中属性间的映射通过ahocorasic.Automaton()进行处理。对应的输出为./data/attr_ac.pkl.

运行get_ac_attr.py，生成./data/attr_ac.pkl

1
2
3

C:\my\Python\python.exe C:/d/mmm/pycharm/elasticsearch/utils/get_ac_attr.py

Process finished with exit code 0

4. 获取属性值和属性间的映射 get_total_val.py

通过对数据库进行查表得到各个实体的属性和属性值，而后将其存储为./data/total_val.txt 文件在搜索时使用。

运行get_total_val.py，生成actor.txt和movie.txt

C:\my\Python\python.exe C:/d/mmm/pycharm/elasticsearch/utils/get_total_val.py
max_id:  13967
max_id:  22219
tuple index out of range

Process finished with exit code 0

5. 获取所有实体

我们直接通过MySQL Workbench操作得到所有实体的倒出并存储为一个文件，名为./data/all_entity.txt。

文件格式如下：

周星驰
戚美珍
车保罗
黎小田
高雄
石天 (原名：刘伟城)
张学友
章子怡
......

四. 将数据导入到 elasticsearch

1. 在 elasticsearch 中新建 index 和 type

这里我们遵循教程中的要求，采用下列命令建立 index 和 type：

可以用elasticsearch-head或CURL。

ealsticsearch只是后端提供各种api，那么怎么直观的使用它呢？elasticsearch-head将是一款专门针对于elasticsearch的客户端工具。elasticsearch-head配置包，下载地址：https://github.com/mobz/elasticsearch-head 。安装可以参考文章windows下安装ElasticSearch的Head插件。

我们这里选择用CURL，去curl官网下载对应版本的包，解压后打开CMD切换到对应目录下运行CURL.exe文件，

如果把该CURL.exe文件复制到C:\Windows\System32目录下，则不需要切换目录，可以直接运行curl命令。

a. 用下列命令建立 index 和 type：

curl -XPUT "localhost:9200/demo?pretty" -H "Content-Type: application/json" -d" { \"mappings\": { \"properties\": { \"subj\": {\"type\": \"keyword\"}, \"po\":{ \"type\": \"nested\", \"properties\":{ \"pred\":{\"type\":\"keyword\"}, \"obj\":{\"type\":\"keyword\"} } } } } } "

运行结果

C:\Users\mmm>curl -XPUT "localhost:9200/demo?pretty" -H "Content-Type: application/json" -d" { \"mappings\": { \"properties\": { \"subj\": {\"type\": \"keyword\"}, \"po\":{ \"type\": \"nested\", \"properties\":{ \"pred\":{\"type\":\"keyword\"}, \"obj\":{\"type\":\"keyword\"} } } } } } "
{
  "acknowledged" : true,
  "shards_acknowledged" : true,
  "index" : "demo"
}

注意：笔者使用的Elasticsearch>7.0，Elasticsearch 7.0及以后版本移除映射类型

b. 可用下列命令查询是否添加成功

1	curl -XGET localhost:9200/_search?pretty

运行结果

C:\Users\mmm>curl -XGET localhost:9200/_search?pretty
{
  "took" : 3,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 0,
      "relation" : "eq"
    },
    "max_score" : null,
    "hits" : [ ]
  }
}

c. 如果创建错了，可用下列命令删除索引

1	curl -XDELETE localhost:9200/demo

2. 数据导入 insert.py

为了测试简单，把actor.json文件改名为../data/baidu_baike.json。

运行 insert.py

C:\my\Python\python.exe C:/d/mmm/pycharm/elasticsearch/utils/insert.py
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
11000
12000
13000

Process finished with exit code 0

此时已经可以通过curl方式检索知识库了。

五. 检索知识库

DOS默认的是（GB2312)，让cmd dos 支持utf-8方法CHCP 65001，关闭cmd，CHCP又还原成936。

1 2	C:\Users\mmm>CHCP 65001 Active code page: 65001

curl方式检索知识库，可用下列命令，如检索：周星驰

1	curl -XGET "localhost:9200/demo/_doc/_search?&pretty" -H "Content-Type:application/json" -d" { \"query\":{ \"bool\":{ \"filter\":{ \"term\":{\"subj\":\"\u5468\u661f\u9a70\"} } } } }

运行结果

curl -XGET "localhost:9200/demo/_doc/_search?&pretty" -H "Content-Type:application/json" -d" { \"query\":{ \"bool\":{ \"filter\":{ \"term\":{\"subj\":\"\u5468\u661f\u9a70\"} } } } }"
{
  "took" : 2,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 0.0,
    "hits" : [
      {
        "_index" : "demo",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 0.0,
        "_source" : {
          "subj" : "周星驰",
          "po" : [
            {
              "pred" : "actor_bio",
              "obj" : " 周星驰，1962年6月22日生于香港，祖籍浙江宁波，中国香港演员、导演、编剧、制作人、商人，毕业于无线电视艺员训练班。1980年成为丽的电视台的特约演员，从而进入演艺圈。1981年出演个人首部电视剧《IQ成熟时》。1988年将演艺事业的重心转向大银幕，并于同年出演电 影处女作《捕风汉子》。1990年凭借喜剧片《一本漫画闯天涯》确立其无厘头的表演风格 [1]  ；同年，因其主演的喜剧动作片《赌圣》打破香港地区票 房纪录而获得关注 [2]  。1991年主演喜剧片《逃学威龙》，并再次打破香港地区票房纪录 [3]  。1995年凭借喜剧爱情片《大话西游》奠定其在华语影 坛的地位。1999年自导自演的喜剧片《喜剧之王》获得香港电影年度票房冠军 [4]  。2002年凭借喜剧片《少林足球》获得第21届香港电影金像奖最佳男 主角奖以及最佳导演奖 [5]  。2003年成为美国《时代周刊》封面人物 [6]  。2005年凭借喜剧动作片《功夫》获得第42届台湾电影金马奖最佳导演奖 [7]  。2008年自导自演的科幻喜剧片《长江7号》获得香港电影年度票房冠军 [8]  。2013年执导古装喜剧片《西游·降魔篇》，该片以2.18亿美元的票房 成绩打破华语电影在全球的票房纪录 [9-10]  。2016年担任科幻喜剧片《美人鱼》的导演、编剧、制作人，该片以超过33亿元的票房创下中国内地电影票房纪录 [11-14]  。2017年1月28日，担任监制、编剧的古装喜剧片《西游伏妖篇》上映 [15]  。2018年执导《美人鱼2》 [16]  。演艺事业外，周星驰 还涉足商界。1989年成立星炜有限公司 [17]  。1996年成立星辉公司 [18]  。2010年出任比高集团有限公司执行董事 [19]  。 "
            },
            {
              "pred" : "actor_foreName",
              "obj" : "Stephen Chow"
            },
            {
              "pred" : "actor_nationality",
              "obj" : "中国"
            },
            {
              "pred" : "actor_constellation",
              "obj" : "巨蟹座"
            },
            {
              "pred" : "actor_birthPlace",
              "obj" : "香港"
            },
            {
              "pred" : "actor_birthDay",
              "obj" : "1962年6月22日"
            },
            {
              "pred" : "actor_repWorks",
              "obj" : "赌圣、逃学威龙系列、唐伯虎点秋香、大话西游系列、喜剧之王、少林足球、功夫、长江七号"
            },
            {
              "pred" : "actor_achiem",
              "obj" : "获得两届香港电影金像奖最佳影片\n第21届香港电影金像奖最佳导演\n第21届香港电影金像奖最佳男主角\n第42届台湾电影金马奖最佳导演\n第42届台湾电影金马奖最佳剧情片\n\n第25届台湾电影金马奖最佳男配角\n第28届大众电影百花奖优秀故事片\n第23届香港电影评论学会大 奖最佳导演\n第8届香港电影评论学会大奖最佳电影\n第2届香港电影评论学会大奖最佳男主角\n第37届亚太电影节最佳男主角\n第13届亚洲电影博览会最 佳导演\n获得两届香港电影金紫荆奖最佳影片\n第01届香港电影金紫荆奖最佳男主角\n国际杰人会港澳杰人之星等\n收起"
            },
            {
              "pred" : "actor_brokerage",
              "obj" : "星辉公司、比高集团"
            }
          ]
        }
      }
    ]
  }
}

六. 程序核心 ./utils/views.py

改程序对输入的自然语言问题进行解析，识别出出现在其中的实体名、属性及属性值，并将其转换为对应的logical form。总体流程和浙大的类似，我只是将其从Django 中提取出来方便对于框架不懂的人直接使用。关于views.py的详细解释请看浙大的教程

多读书多实践，勤思考善领悟

从零开始学习知识图谱之四.电影知识图谱构建 4.基于ElasticSearch的简单语义搜索

一. 简介

二. 环境准备

1. 操作系统

2. jdk

3. Python3

4. ElasticSearch

安装

三. 数据准备

1. 数据库到JSON

2. 属性同义词扩展

3. 建立属性间映射 get_ac_attr.py

4. 获取属性值和属性间的映射 get_total_val.py

5. 获取所有实体

四. 将数据导入到 elasticsearch

1. 在 elasticsearch 中新建 index 和 type

a. 用下列命令建立 index 和 type：

b. 可用下列命令查询是否添加成功

c. 如果创建错了，可用下列命令删除索引

2. 数据导入 insert.py

五. 检索知识库

六. 程序核心 ./utils/views.py

从零开始学习知识图谱 之 四.电影知识图谱构建 4.基于ElasticSearch的简单语义搜索

一. 简介

二. 环境准备

1. 操作系统

2. jdk

3. Python3

4. ElasticSearch

安装

三. 数据准备

1. 数据库到JSON

2. 属性同义词扩展

3. 建立属性间映射 get_ac_attr.py

4. 获取属性值和属性间的映射 get_total_val.py

5. 获取所有实体

四. 将数据导入到 elasticsearch

1. 在 elasticsearch 中新建 index 和 type

a. 用下列命令建立 index 和 type：

b. 可用下列命令查询是否添加成功

c. 如果创建错了，可用下列命令删除索引

2. 数据导入 insert.py

五. 检索知识库

六. 程序核心 ./utils/views.py

从零开始学习知识图谱之四.电影知识图谱构建 4.基于ElasticSearch的简单语义搜索