使用 AWS Lambda 进行搜索

在本教程中，我们将使用 Quickwit Lambda 对位于 AWS S3 上的大约 2000 万条日志条目（解压缩后 7 GB）进行索引和搜索。

具体来说，我们将部署一个包含 Quickwit Lambda 的 AWS CloudFormation 栈，以及两个存储桶：一个暂存存储桶用于存放待索引的 gzip 压缩的新行分隔 JSON 文件，另一个存储桶用于存放索引数据。暂存存储桶是可选的，因为 Quickwit 索引器可以从它有访问权限的任何 S3 文件读取数据。

教程栈概览

安装

安装 AWS CDK

我们将使用 AWS CDK 来编写基础设施自动化脚本。使用 npm 安装它：

npm install -g aws-cdk

您还需要在 shell 中正确配置 AWS 凭证。一种方法是使用凭证文件。

最后，克隆 Quickwit 仓库：

git clone https://github.com/quickwit-oss/tutorials.git
cd tutorials/simple-lambda-stack

设置 Python 环境

我们使用 Python 3.10 来定义需要部署的 AWS CloudFormation 栈，并使用 Python CLI 调用 Lambda 函数。让我们安装这些必要的包（boto3, aws-cdk-lib, click, pyyaml）。

# Install pipenv if needed.
pip install --user pipenv
pipenv shell
pipenv install

下载 Quickwit Lambda 函数

mkdir -p cdk.out
wget -P cdk.out https://github.com/quickwit-oss/quickwit/releases/download/aws-lambda-beta-01/quickwit-lambda-indexer-beta-01-x86_64.zip
wget -P cdk.out https://github.com/quickwit-oss/quickwit/releases/download/aws-lambda-beta-01/quickwit-lambda-searcher-beta-01-x86_64.zip

初始化并部署

配置您想要部署栈的 AWS 区域和账户 ID：

export CDK_ACCOUNT=123456789
# us-east-1 is where the Quickwit public dataset bucket is located
export CDK_REGION=us-east-1

如果此区域/账户对尚未通过 CDK 初始化，则运行：

cdk bootstrap aws://$CDK_ACCOUNT/$CDK_REGION

这将初始化一些基本资源以托管 Lambda 包等工件。现在我们可以部署栈：

cdk deploy -a cdk/app.py

索引 HDFS 日志数据集

这里是一个数据集中日志条目的示例：

{
  "timestamp": 1460530013,
  "severity_text": "INFO",
  "body": "PacketResponder: BP-108841162-10.10.34.11-1440074360971:blk_1074072698_331874, type=HAS_DOWNSTREAM_IN_PIPELINE terminating",
  "resource": {
    "service": "datanode/01"
  },
  "attributes": {
    "class": "org.apache.hadoop.hdfs.server.datanode.DataNode"
  },
  "tenant_id": 58
}

如果您有 5 分钟的时间，您可以索引整个数据集，该数据集可在我们的公共 S3 存储桶上获取。

python cli.py index s3://quickwit-datasets-public/hdfs-logs-multitenants.json.gz

note

一旦启动索引 Lambda 函数，您就不能手动停止它。键盘中断只会停止客户端而不会停止函数。如果您尝试再次运行它，可能会遇到 TooManyRequestsException 错误。这是因为索引器的并发数被设置为 1，以避免在元存储上出现竞态条件。

如果您不想等待，只需索引包含 10,000 个文档的数据集：

python cli.py index s3://quickwit-datasets-public/hdfs-logs-multitenants-10000.json

执行搜索查询

让我们从对字段 severity_text 的查询开始，查找错误：severity_text:ERROR：

python cli.py search '{"query":"severity_text:ERROR"}'

如果索引了整个数据集，它应在不到 1 秒内响应并返回 345 条中的 10 条结果。如果您索引了前 10,000 个文档，则不会有结果，尝试查询 INFO 级别的日志。

现在我们执行一个更高级的查询：一个日期直方图，同时对 severity_text 字段进行术语聚合：

python cli.py search '{ "query": "*", "max_hits": 0, "aggs": { "events": { "date_histogram": { "field": "timestamp", "fixed_interval": "30d" }, "aggs": { "log_level": { "terms": { "size": 10, "field": "severity_text", "order": { "_count": "desc" } } } } } } }'

它应在不到 2 秒内响应并返回每 30 天的日志级别排名。

清理

首先，您需要删除在 S3 存储桶上创建的文件。完成后，您可以删除栈。

cdk destroy -a cdk/app.py
rm -rf cdk.out

恭喜！您完成了这个教程！您可以继续深入学习以下教程，了解 Quickwit 的所有功能。

下一步

在 AWS 上搜索日志服务，该文章覆盖了一个端到端的应用案例。
搜索 REST API
查询语言

安装​

安装 AWS CDK​

设置 Python 环境​

下载 Quickwit Lambda 函数​

初始化并部署​

索引 HDFS 日志数据集​

执行搜索查询​

清理​

下一步​

安装