【全球播资讯】图书搜索领域重大突破!用Apache SeaTunnel、Milvus和OpenAI提高书名相似度搜索精准度和效率 - 房产 -

当前位置:首页  >  房产  > 正文

【全球播资讯】图书搜索领域重大突破!用Apache SeaTunnel、Milvus和OpenAI提高书名相似度搜索精准度和效率

【全球播资讯】图书搜索领域重大突破!用Apache SeaTunnel、Milvus和OpenAI提高书名相似度搜索精准度和效率
2023-06-27 03:57:47 来源:博客园

作者 | 刘广东,Apache SeaTunnel Committer

背景

目前,现有的图书搜索解决方案(例如公共图书馆使用的解决方案)十分依赖于关键词匹配,而不是对书名实际内容的语义理解。因此会导致搜索结果并不能很好地满足我们的需求,甚至与我们期待的结果大相径庭。这是因为仅仅依靠关键词匹配是不够的,因为它无法实现语义理解,也就无法理解搜索者真正的意图。


(资料图)

那么,有更好的方法可以让我们更加准确、高效地进行图书搜索吗?答案是有!本文中,我将介绍如何结合使用Apache SeaTunnel、Milvus和OpenAI进行相似度搜索,实现对整个书名的语义理解,从而让搜索结果更加精准。

使用训练有素的模型来表示输入数据被称为语义搜索,这种方法可以扩展到各种不同的基于文本的用例,包括异常检测和文档搜索。因此,本文所介绍的技术可以为图书搜索领域带来重大的突破和影响。

接下来我来简单介绍几个与本文相关的概念和用到的工具/平台,便于大家更好地理解本文。

什么是Apache SeaTunnel

Apache SeaTunnel是一个开源的、高性能的、分布式的数据管理和计算平台。它是由Apache基金会支持的一个顶级项目,能够处理海量数据、提供实时的数据查询和计算,并支持多种数据源和格式。SeaTunnel的目标是提供一个可扩展的、面向企业的数据管理和集成平台,以满足各种大规模数据处理需求。

什么是Milvus

Milvus是一个开源的类似向量搜索引擎,它支持海量向量的存储、检索和相似度搜索,是一个针对大规模向量数据的高性能、低成本的解决方案。Milvus可以在多种场景下使用,如推荐系统、图像搜索、音乐推荐和自然语言处理等。

什么是OpenAI

ChatGPT是一种基于GPT(Generative Pre-trained Transformer)模型的对话生成系统,是由OpenAI开发的。该系统主要使用了自然语言处理、深度学习等技术,可以生成与人类对话相似的自然语言文本。ChatGPT的应用范围很广,可以用于开发智能客服、聊天机器人、智能助手等应用程序,也可以用于语言模型的研究和开发。近年来,ChatGPT已经成为了自然语言处理领域的研究热点之一。

什么是LLM(Large Language Model)

大语言模型(Large Language Model)是一种基于深度学习技术的自然语言处理模型,它可以对一段给定的文本进行分析和理解,并生成与之相关的文本内容。大语言模型通常使用深度神经网络来学习自然语言的语法和语义规则,并将文本数据转换为连续向量空间中的向量表示。在训练过程中,大语言模型利用大量的文本数据来学习语言模式和统计规律,从而可以生成高质量的文本内容,如文章、新闻、对话等。大语言模型的应用领域非常广泛,包括机器翻译、文本生成、问答系统、语音识别等。目前,许多开放源代码深度学习框架都提供了大语言模型的实现,如TensorFlow、PyTorch等。

教程

重点来了!我将展示如何将Apache SeaTunnel、OpenAI的Embedding API与我们的矢量数据库结合使用,来通过语义搜索整个书名。

准备步骤

在实验之前,我们需要去官网获取一个OpenAI的token,然后在去部署一个Milvus的实验环境。我们还需要准备好将用于这个例子的数据。你可以从这里下载数据。

通过SeaTunnel将数据导入Milvus首先,将book.csv放到/tmp/milvus_test/book下,然后配置任务配置为milvus.conf并放到config下。请参考快速使用指南。

env {  # You can set engine configuration here  execution.parallelism = 1  job.mode = "BATCH"  checkpoint.interval = 5000  #execution.checkpoint.data-uri = "hdfs://localhost:9000/checkpoint"}source {  # This is a example source plugin **only for test and demonstrate the feature source plugin**  LocalFile {    schema {      fields {        bookID = string        title_1 = string        title_2 = string      }    }    path = "/tmp/milvus_test/book"    file_format_type = "csv"  }}transform {}sink {  Milvus {    milvus_host = localhost    milvus_port = 19530    username = root    password = Milvus    collection_name = title_db    openai_engine = text-embedding-ada-002    openai_api_key = sk-xxxx    embeddings_fields = title_2  }}

执行如下命令:

./bin/SeaTunnel.sh --config ./config/milvus.conf -e local

查看数据库中数据,可以看到已经有数据写入进去。

然后使用如下代码通过语义搜索书名:

import jsonimport randomimport openaiimport timefrom pymilvus import connections, FieldSchema, CollectionSchema, DataType, Collection, utilityCOLLECTION_NAME = "title_db"  # Collection nameDIMENSION = 1536  # Embeddings sizeCOUNT = 100  # How many titles to embed and insert.MILVUS_HOST = "localhost"  # Milvus server URIMILVUS_PORT = "19530"OPENAI_ENGINE = "text-embedding-ada-002"  # Which engine to useopenai.api_key = "sk-******"  # Use your own Open AI API Key hereconnections.connect(host=MILVUS_HOST, port=MILVUS_PORT)collection = Collection(name=COLLECTION_NAME)collection.load()def embed(text):    return openai.Embedding.create(        input=text,         engine=OPENAI_ENGINE)["data"][0]["embedding"]def search(text):    # Search parameters for the index    search_params={        "metric_type": "L2"    }    results=collection.search(        data=[embed(text)],  # Embeded search value        anns_field="title_2",  # Search across embeddings        param=search_params,        limit=5,  # Limit to five results per search        output_fields=["title_1"]  # Include title field in result    )    ret=[]    for hit in results[0]:        row=[]        row.extend([hit.id, hit.score, hit.entity.get("title_1")])  # Get the id, distance, and title for the results        ret.append(row)    return retsearch_terms=["self-improvement", "landscape"]for x in search_terms:    print("Search term:", x)    for result in search(x):        print(result)    print()

​搜索结果如下:

Search term: self-improvement[96, 0.4079835116863251, "The Dance of Intimacy: A Woman"s Guide to Courageous Acts of Change in Key Relationships"][56, 0.41880303621292114, "Nicomachean Ethics"][76, 0.4309804439544678, "Possession"][19, 0.43588975071907043, "Vanity Fair"][7, 0.4423919916152954, "Knowledge Is Power (The Amazing Days of Abby Hayes: #15)"]Search term: landscape[9, 0.3023473024368286, "The Lay of the Land"][1, 0.3906732499599457, "The Angry Hills"][78, 0.392495334148407, "Cloud Atlas"][95, 0.39346450567245483, "Alien"][94, 0.399422287940979, "The Known World"]

如果我们按照之前的老方法——关键词搜索,书名中必须包含自我提升、提升等关键词;但是提供大模型进行语义级别的理解,则可以检索到更加符合我们需求的书名。比如在上面的例子中,我们搜索的关键词为self-improvement(自我提升),展示的书名《关系之舞:既亲密又独立的相处艺术》、《尼各马可伦理学》等虽然不包含相关关键词,却很明显更加符合我们的要求。可见,我们利用Apache SeaTunnel、Milvus和OpenAI,通过大语言模型的方法,可以实现更加精准的书名相似度搜素,为图书搜索领域带来重大的技术突破,同时对于语义理解也提供了有价值的参考,希望可以给大家带来一些启发。

相关链接https://seatunnel.apache.org/https://openai.com/https://milvus.io/

本文由 白鲸开源 提供发布支持!

标签:

(责任编辑:news01)
天天快消息!黔源电力(002039)6月27日主力资金净卖出368.18万元

天天快消息!黔源电力(002039)6月27日主力资金净卖出368.18万元

截至2023年6月27日收盘,黔源电力(002039)报收于元,下跌%,换手率%,
06-28 11:25:01
热推荐:新希望:西部纵队今年出栏500多万,1-6月完成50%

热推荐:新希望:西部纵队今年出栏500多万,1-6月完成50%

2023年6月28日,新希望(000876 SZ)近日在投资者关系活动上表示,西部纵
06-28 10:42:24
2023成都西博会免费门票注册领取入口+流程

2023成都西博会免费门票注册领取入口+流程

2023成都西博会免费门票注册免费领取方式:搜索“天府会展云线上平台”
06-28 10:40:42
白宫:美国认为俄罗斯动荡中未出现核威胁,不清楚瓦格纳集团的走向-环球讯息

白宫:美国认为俄罗斯动荡中未出现核威胁,不清楚瓦格纳集团的走向-环球讯息

”柯比补充说,拜登政府认真对待俄罗斯的不稳定风险,“我们能够通过外
06-28 10:39:10
华鑫证券:给予锡业股份买入评级

华鑫证券:给予锡业股份买入评级

华鑫证券有限责任公司傅鸿浩,杜飞近期对锡业股份进行研究并发布了研究
06-28 10:16:24
学历认证报告怎么打印出来 学历认证报告怎么打印

学历认证报告怎么打印出来 学历认证报告怎么打印

1、一、首先使用百度搜索找到学信网官网并点击进入。2、二、进入以后选
06-28 10:16:20
运达股份(300772):6月27日北向资金增持10.03万股

运达股份(300772):6月27日北向资金增持10.03万股

6月27日北向资金增持10 03万股运达股份。近5个交易日中,获北向资金减
06-28 09:52:34
天天速读:释放“西引力” 西安聚力打造智慧产业新高地

天天速读:释放“西引力” 西安聚力打造智慧产业新高地

图为丝路软件城。 西安高新区供图(李一璠)记者27日从西安高新区获悉,
06-28 09:42:38
男童被打跳下5楼,当地警方通报——

男童被打跳下5楼,当地警方通报——

6月25日,安徽合肥长丰县一小区,男童遭家人棍打后从五楼跳下引发关注
06-28 09:39:16
世界快资讯:扬帆看半岛|半岛城市帆船赛赛程过半,船队休整一天港城互动

世界快资讯:扬帆看半岛|半岛城市帆船赛赛程过半,船队休整一天港城互动

半岛全媒体记者潘立超刘文6月27日,“山东港口杯”仙境海岸半岛城市帆
06-28 09:36:00
传OpenAI计划推出ChatGPT个人助手 与微软竞争

传OpenAI计划推出ChatGPT个人助手 与微软竞争

在短短半年内,ChatGPT已成为全球最知名的互联网品牌之一。现在,它的
06-28 09:25:56
劳务费开票的税务规定是多少 劳务费开票的税务规定_视焦点讯

劳务费开票的税务规定是多少 劳务费开票的税务规定_视焦点讯

1、应该是税率20%。2、但不足4000元的,扣减800的免征额,超过4000的,
06-28 09:23:54
电信网卡怎么办没有限速_电信网卡怎么办|视焦点讯

电信网卡怎么办没有限速_电信网卡怎么办|视焦点讯

你们好,最近小未来发现有诸多的小伙伴们对于电信网卡怎么办没有限速,
06-28 09:17:21
头条焦点:北方强对流南方强降水 华北黄淮等地高温再起

头条焦点:北方强对流南方强降水 华北黄淮等地高温再起

中新网6月28日电据中央气象台网站28日消息,6月28日至30日,西北地区东
06-28 08:58:58
湖北考生 这个省委直属事业单位2023年拟聘用人员名单已出

湖北考生 这个省委直属事业单位2023年拟聘用人员名单已出

根据《湖北省省直事业单位2023年统一公开招聘工作人员公告》,经过笔试
06-28 08:36:46
近三年来首次线下举办!广东2023年普通高校招生现场咨询会活动在穗举行

近三年来首次线下举办!广东2023年普通高校招生现场咨询会活动在穗举行

6月27日上午,2023年广东省普通高校招生志愿填报现场咨询会在广州大学
06-28 08:35:50
【全球速看料】6月26日汇丰石化硫磺报价平稳

【全球速看料】6月26日汇丰石化硫磺报价平稳

6月26日,山东汇丰石化集团有限公司硫磺价格报750元 吨,6月20日企业调
06-28 08:13:20
天天亮点!5G异网漫游普及仍需时间

天天亮点!5G异网漫游普及仍需时间

5月17日,在“2023世界电信和信息社会日大会”开幕式上,中国电信、中
06-28 08:03:56
世界快讯:胶州丰田叉车制造基地项目一期正式投产 一期二期全部建成后 年产值60亿元

世界快讯:胶州丰田叉车制造基地项目一期正式投产 一期二期全部建成后 年产值60亿元

■俯瞰丰田叉车制造基地。□青岛日报/观海新闻记者锡复春本报6月27日
06-28 07:57:57
天天新资讯:沈阳全切双眼皮多少钱 性价比高的医院推荐

天天新资讯:沈阳全切双眼皮多少钱 性价比高的医院推荐

每个女生都渴望美丽的颜值,这也是人心所向,整形能够实现求美者的改变
06-28 07:54:37
全球速讯:沈阳一洗浴中心可“租赁爸爸”,网友:不愧是浴都,建议全国推广

全球速讯:沈阳一洗浴中心可“租赁爸爸”,网友:不愧是浴都,建议全国推广

沈阳一洗浴中心提供免费“租赁爸爸”服务,引发关注。“租赁爸爸,为不
06-28 07:50:46
青藏铁路西格段复兴号动车组开始试运行

青藏铁路西格段复兴号动车组开始试运行

6月23日7时,青藏铁路西格段复兴号动车组开始试运行。复兴号动车组预计
06-28 07:41:58
农业银行大额存单利率上调了?存入25万元,年利息能拿多少?

农业银行大额存单利率上调了?存入25万元,年利息能拿多少?

银行是我国金融体系中非常重要的构成部分,虽然现在随着经济的快速发展
06-28 07:26:45
天天即时看!重磅公布!武汉[专业男科医院]排名前十:武汉华夏医院排行榜[详细名单]

天天即时看!重磅公布!武汉[专业男科医院]排名前十:武汉华夏医院排行榜[详细名单]

  1、武汉华夏医院,2、武汉华夏医院男科,3、武汉华夏男科专科医院
06-28 07:20:18
创元科技:参股公司创元期货撤回上市申请文件

创元科技:参股公司创元期货撤回上市申请文件

创元科技公告称,公司参股公司创元期货基于资本市场外部环境和政策、未
06-28 07:09:19
百度萝卜快跑获深圳许可 实现L4级无人驾驶商业化

百度萝卜快跑获深圳许可 实现L4级无人驾驶商业化

百度旗下的自动驾驶出行服务平台“萝卜快跑”近日获得深圳市坪山区颁发
06-28 06:46:16
无棣县棣丰街道召开燃气安全隐患排查整治工作会议_全球速看

无棣县棣丰街道召开燃气安全隐患排查整治工作会议_全球速看

记者王芳通讯员曹卿平为切实做好燃气安全隐患排查整治工作,全面排查辖
06-28 06:46:15
金价难破重要阻力!黄金日内交易分析:警惕金价大幅回调风险

金价难破重要阻力!黄金日内交易分析:警惕金价大幅回调风险

指股网讯周二(6月27日)欧市早盘,现货黄金短线小幅回落,金价交投在192
06-28 06:39:35
空心树桩成“景点” 各种野生动物纷纷来“打卡” 全球热讯

空心树桩成“景点” 各种野生动物纷纷来“打卡” 全球热讯

大兴安岭松岭砍都河国家湿地公园内出现了一处“动物界的网红景点”,很
06-28 06:21:44
B站成立14周年传递社区快乐,COO李旎:哔哩哔哩公益平台累计上线62个项目_快讯

B站成立14周年传递社区快乐,COO李旎:哔哩哔哩公益平台累计上线62个项目_快讯

6月26日,哔哩哔哩(以下简称“B站”)迎来14周年庆。B站副董事长兼COO
06-28 06:19:21

为您推荐

精彩推送