数据
爬虫
从 StackOverflow 的问答中爬取数据,用于构造后端知识库
1 | import requests |
标注
由于该项目为课程作业,本着能跑就行的原则,数据标注环节全面简化,直接取用爬取的数据的原文
图数据库 schema 设计如下:
Vertex: Question{ title, tags, embedding }
Vertex: Answer{ content }
Edge: SolvedBy { }
导入
由于数据量较小,选择直接使用 Cypher 语句进行数据导入
以一个 Question 和其对应的三个 Answer 为例:
1 | CREATE (q:Question{title:"java error installing running elastic stack in Windows 10",tags:"java;elastic-stack"}); |
1 | from openai.embeddings_utils import get_embedding |
后端
Web 框架
FastAPI 是一个用于构建 API 的现代、快速(高性能)的 Web 框架,使用 Python 3.8+ 并基于标准的 Python 类型提示
关键特性:
- 快速:可与 Node.js 和 Go 并肩的极高性能(归功于 Starlette 和 Pydantic),最快的 Python web 框架之一
- 高效编码:提高功能开发速度约 200% 至 300%
- 更少 bug:减少约 40% 的人为(开发者)导致错误
- 智能:极佳的编辑器支持;处处皆可自动补全,减少调试时间
- 简单:设计的易于使用和学习,阅读文档的时间更短
- 简短:使代码重复最小化;通过不同的参数声明实现丰富功能,bug 更少
- 健壮:生产可用级别的代码;还有自动生成的交互式文档
- 标准化:基于(并完全兼容)API 的相关开放标准:OpenAPI
业务逻辑
Query 接口:
输入:用户提问(自然语言)
处理流程:
- 调用 OpenAI Embedding API 生成 ”用户提问(自然语言)“ 的嵌入向量
- 查询所有 Question 节点的嵌入向量,分别计算与用户提问嵌入向量的余弦相似度
- 取相似度最高的 K 个 Question 节点,保留其中相似度超过相似度阈值的节点,作为 “相关 Question 节点”
- 查询 “相关 Question 节点” 的所有对应 Answer 节点
- 将查询结果序列化为字符串,作为上下文信息,结合自然语言的用户提问,生成提示词
- 调用 OpenAI Chat Completion API 生成最终回答
输出:LLM 基于知识图谱查询结果给出的回答
CI/CD
- 制作 Docker 镜像
1 | FROM python:3.8 |
- 使用 Github Action 自动化测试和部署
1 | mkdir .github/workflows |
1 | name: Docker Deploy to Cloud Server |