如何把数据快速批量添加到Elasticsearch中

如何把数据快速批量添加到Elasticsearch中

news/2024/7/8 10:57:32 标签: Elasticsearch, 批量写入

问题来源

最近新做一个项目，有部分搜索比较频繁的数据，而且量级比较大，预计一两年时间很可能达到100G，项目要求不要存在数据库中，最终出来有两个方案，一个是使用Protocol Buffers存储在文件上，另外就是存在Elasticsearch中，也方便搜索，但这两个方案需要验证，到底哪个方案好，从存储速度，搜索响应，占用空间方面做对比，而我负责给出Elasticsearch的部分技术建议！

验证需求

1、数据量：初步只算52亿条

2、写数据速度：需要超过1W条每秒

遇到问题以及解决办法

而在验证过程中遇到了无论是使用Elasticsearch.Net或者PlainElastic.Net来写数据，并且是使用了Bulk的api，加上多线程，都是太慢了，粗略算了一下，大概一秒插入3千条左右，这样的话，52亿条数据，得插到何年何月啊，太慢了，根据查阅资料，网上也有人说插入数据还是挺快的，一秒可以插入18w条，但具体也没说是用什么办法插入的，所以只能到官方看看了，发现用REST API的_bulk来批量插入，这样速度明显快了，可以达到5到10w条每秒，速度还可以，但问题是这方法是先定义一定格式的json文件，然后再用curl命令去执行Elasticsearch的_bulk来批量插入，所以得把数据写进json文件，然后再通过批处理，执行文件插入数据，另外在生成json文件，文件不能过大，过大会报错，所以建议生成10M一个文件，然后分别去执行这些小文件就可以了，说了这么多都是文字，真的有点晕乎乎的，看图吧！

json数据文件内容的定义

1

2

3

4

5

6

7

8

9

10

{"index":{"_index":"meterdata","_type":"autoData"}}

{"Mfid ":1,"TData":172170,"TMoney":209,"HTime":"2016-05-17T08:03:00"}

{"index":{"_index":"meterdata","_type":"autoData"}}

{"Mfid ":1,"TData":172170,"TMoney":209,"HTime":"2016-05-17T08:04:00"}

{"index":{"_index":"meterdata","_type":"autoData"}}

{"Mfid ":1,"TData":172170,"TMoney":209,"HTime":"2016-05-17T08:05:00"}

{"index":{"_index":"meterdata","_type":"autoData"}}

{"Mfid ":1,"TData":172170,"TMoney":209,"HTime":"2016-05-17T08:06:00"}

{"index":{"_index":"meterdata","_type":"autoData"}}

{"Mfid ":1,"TData":172170,"TMoney":209,"HTime":"2016-05-17T08:07:00"}

　

批处理内容的定义

1

2

3

4

5

6

7

cd E:\curl-7.50.3-win64-mingw\bin

curl 172.17.1.15:9200/_bulk?pretty --data-binary @E:\Bin\Debug\testdata\437714060.json

curl 172.17.1.15:9200/_bulk?pretty --data-binary @E:\Bin\Debug\testdata\743719428.json

curl 172.17.1.15:9200/_bulk?pretty --data-binary @E:\Bin\Debug\testdata\281679894.json

curl 172.17.1.15:9200/_bulk?pretty --data-binary @E:\Bin\Debug\testdata\146257480.json

curl 172.17.1.15:9200/_bulk?pretty --data-binary @E:\Bin\Debug\testdata\892018760.json

pause

　

工具代码

复制代码

 1      private void button1_Click(object sender, EventArgs e)
 2         {
 3             //Application.StartupPath + "\\" + NextFile.Name
 4             Task.Run(() => { CreateDataToFile(); });
 5         }
 6         public void CreateDataToFile()
 7         {
 8             StringBuilder sb = new StringBuilder();
 9             StringBuilder sborder = new StringBuilder();
10             int flag = 1;
11             sborder.Append(@"cd E:\curl-7.50.3-win64-mingw\bin" + Environment.NewLine);
12             DateTime endDate = DateTime.Parse("2016-10-22");
13             for (int i = 1; i <= 10000; i++)//1w个点
14             {
15                 DateTime startDate = DateTime.Parse("2016-10-22").AddYears(-1);
16                 this.Invoke(new Action(() => { label1.Text = "生成第" + i + "个"; }));
17 
18                 while (startDate <= endDate)//每个点生成一年数据,每分钟一条
19                 {
20                     if (flag > 100000)//大于10w分割一个文件
21                     {
22                         string filename = new Random(GetRandomSeed()).Next(900000000) + ".json";
23 
24                         FileStream fs3 = new FileStream(Application.StartupPath + "\\testdata\\" + filename, FileMode.OpenOrCreate);
25                         StreamWriter sw = new StreamWriter(fs3, Encoding.GetEncoding("GBK"));
26                         sw.WriteLine(sb.ToString());
27                         sw.Close();
28                         fs3.Close();
29                         sb.Clear();
30                         flag = 1;
31                         sborder.Append(@"curl 172.17.1.15:9200/_bulk?pretty --data-binary @E:\Bin\Debug\testdata\" + filename + Environment.NewLine);
32 
33                     }
34                     else
35                     {
36                         sb.Append("{\"index\":{\"_index\":\"meterdata\",\"_type\":\"autoData\"}}" + Environment.NewLine);
37                         sb.Append("{\"Mfid \":" + i + ",\"TData\":" + new Random().Next(1067500) + ",\"TMoney\":" + new Random().Next(1300) + ",\"HTime\":\"" + startDate.ToString("yyyy-MM-ddTHH:mm:ss") + "\"}" + Environment.NewLine);
38                         flag++;
39                     }
40                     startDate = startDate.AddMinutes(1);//
41                 }
42 
43             }
44             sborder.Append("pause");
45             FileStream fs1 = new FileStream(Application.StartupPath + "\\testdata\\order.bat", FileMode.OpenOrCreate);
46             StreamWriter sw1 = new StreamWriter(fs1, Encoding.GetEncoding("GBK"));
47             sw1.WriteLine(sborder.ToString());
48             sw1.Close();
49             fs1.Close();
50             MessageBox.Show("生成完毕");
51 
52         }
53         static int GetRandomSeed()
54         {//随机生成不重复的编号
55             byte[] bytes = new byte[4];
56             System.Security.Cryptography.RNGCryptoServiceProvider rng = new System.Security.Cryptography.RNGCryptoServiceProvider();
57             rng.GetBytes(bytes);
58             return BitConverter.ToInt32(bytes, 0);
59         }

复制代码

总结

本次测试结果，发现Elasticsearch的搜索速度是挺快的，生成过程中，在17亿数据时查了一下，根据Mid和时间在几个月范围的数据，查十条数据两秒多完成查询，而且同一查询条件查询越多，查询就越快，应该是Elasticsearch缓存了，52亿条数据，大概占用500G空间左右，还是挺大的，相比Protocol Buffers存储的数据，要大三倍左右，但搜索速度还是比较满意的。

http://www.niftyadmin.cn/n/1639140.html

相关文章

[框架那点事儿-快速开发季]编写自己的数据持久层（6）思考

[框架那点事儿-快速开发季]编写自己的数据持久层（6）思考

这一章题目是思考，是因为工作进行到现在，我开始反思着一些API，到底能覆盖多少的日常工作，带来多少的便捷。从最开始的插入开始，到现在已经完成了根据sql来实现分页查询，我发现用这种纯面向对象的API封装思想…

阅读更多...

[框架那点事儿-快速开发季]编写自己的数据持久层（7）总结篇

[框架那点事儿-快速开发季]编写自己的数据持久层（7）总结篇

// 备注：本章节的代码较多，在IE下显示有点问题，请用firefox浏览，或者请留下邮箱，我会将整个工程打包发送在前面的六篇文章中，针对日常开发常用到的DB的操作对spring框架的jdbcTemplate进行了一定的封装&am…

阅读更多...

Java生成并导出Json文件

Java生成并导出Json文件

将一个list集合转换成json文件并导出： 数据集合：List<Object> agencyList new ArrayList<Object>();Map<String, Object> agencyMap new HashMap<>();agencyMap.put("agencyName",agencyName);agencyMap.put("…

阅读更多...

使用JST模板引擎加快页面交互内容开发

使用JST模板引擎加快页面交互内容开发

首先看一个需求： 页面上存在一个select box，当选择了下拉框中的一个选项的时候，异步请求获取数据并在页面某个区域显示出来。而且这个显示区域是具有样式和自己固有的js等内容的，并非简单的静态文字。如果用传统的js方式&#x…

阅读更多...

[前端控件开发]freemarker框架下编写自己的分页器

[前端控件开发]freemarker框架下编写自己的分页器

对于web系统来说，分页器就好像是一个器官，是无论如何都必须要具备的一项功能，而分页器呢，是既通用又无怪乎那么几种样子，所以我们这里就利用添加了freemarker框架的一个系统来做自己的分页器。先看下结果样子&#xff…

阅读更多...

优化Elasticsearch查询性能

优化Elasticsearch查询性能

给文件系统缓存提供内存 Elasticsearch严重依赖于文件系统缓存，以便快速进行搜索。通常应该确保至少有一半的可用内存进入文件系统缓存，以便Elasticsearch可以将索引的热区域保留在物理内存中。使用更快的硬件如果搜索受I / O限制，应该调…

阅读更多...

[小插曲]spring+freemarker中文乱码了，囧

[小插曲]spring+freemarker中文乱码了，囧

spring freemarker 中文乱码了，其实是配置的时候粗心忘了配置viewResolver的编码，只配置了freeMarkerConfigurer的default-coding。配置一下即可： <bean id"freeMarkerConfigurer"class"org.springframework.web.servlet…

阅读更多...

Elasticsearch的Bulk API使用

Elasticsearch的Bulk API使用

1、Elasticsearch的Bulk API允许批量提交index和delete请求。如： （1）用法1 BulkRequestBuilder bulkRequest client.prepareBulk(); bulkRequest.add(client.prepareIndex("index1", "type1", "id1").setSou…

阅读更多...

最新文章