服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

美团是怎么实现搜索关键词自动匹配功能的?

2020-12-30 11:44:59 阅读(522 评论(0)

问题背景搜索关键字智能提示是搜索应用程序的标准配置。其主要功能是避免用户输入错误的搜索词,并将用户引导到相应的关键词,以改善用户的搜索体验。美团CRM系统有数百万企业。为了让用户快速找到目标业务,我们在solrcloud的基础上实现了业务搜索模块。用户主要输入商户名和商户地址进行搜索。为了提高用户的搜索体验和输入效率,本文实现了基于solr前缀匹配查询关键字的智能提示(Suggestion)实现。1.支持前缀匹配原则在搜索框中输入“海底”,以海底为前缀,在搜索框下显示“海底捞”、“海底捞火锅”、“海底世界”等搜索词;输入“万达”会提示“万达影城”、“万达广场”、“万达百货公司”和其他搜索词。2.由于汉字和拼音输入的特点,如果搜索自动提示可以支持拼音,它将给用户带来更大的方便,以避免切换输入方法。例如,输入“haidi与输入“海底”提示相同,输入“提示”关键词wanda与输入“万达”提示的关键字相同。3.支持多音字输入提示,如输入“chongqing”或者“zhongqing“重庆火锅”都能提示“重庆火锅”、“重庆烤鱼”、“重庆小天鹅”。4.支持拼音缩写输入。为了提高输入效率,有必要提供拼音缩写输入。例如,输入“hd应该能够提示“”haidi输入“类似关键词”wd“也可以提示“万达”关键词。根据用户的历史搜索行为,根据关键词的热度进行排序。为了提供sugest关键词的准确性,根据用户查询关键词的频率对最终查询结果进行排序,如输入[重庆,chongqing,cq,zhongqing,zq]—>[“重庆火锅”(f1)、“重庆烤鱼”(f2)、“重庆小天鹅”(f3)、>f2>F3。解决方案1。当用户输入前缀时,遇到许多提示候选人时,如何选择,哪些显示在前面,哪些显示在后面?这是一个搜索热的问题。用户使用搜索引擎搜索业务,会输入大量的关键字,每个输入是关键字投票,所以关键字输入越多,相应的查询更受欢迎,所以需要记录查询关键字,统计每个关键字的频率,方便提示结果按频率排序。搜索引擎将通过日志文件记录用户每次搜索使用的所有搜索串,每个查询串的长度为1-255字节。2.汉字拼音用户输入的关键字可能是汉字、数字、英语、拼音、特殊字符等。由于需要实现拼音提示,我们需要将汉字转换为拼音,并考虑在java中使用piny4j组件进行转换。3.考虑到支持拼音缩写的过程。chongqing”,"zhongqing"--->"cq",”zq4.多音字的全排列应支持多音字提示。查询串转换为拼音后,需要实现全排列组合。字符串多音字的全排列算法如下:Javacode将内容复制到剪贴板public static List getPermutationSentence(List> termArrays,int start) {    if (CollectionUtils.isEmpty(termArrays))        return Collections.emptyList();    int size = termArrays.size();    if (start < 0  || start >= size) {        return Collections.emptyList();    }    if (start == size-1) {        return termArrays.get(start);    }    List  List1);    if (CollectionUtils.isEmpty(strings)) {        return permutationSentences;    }    if (CollectionUtils.isEmpty(permutationSentences)) {        return strings;    }    Listnew ArrayList  for (String pre : strings) {        for (String suffix : permutationSentences) {            result.add(pre suffix);        }    }    return result;  }  索引和前缀查询方案 Trie树,TopK算法,即字典树,又称单词搜索树或键树,是一种树形结构,是哈希树的变种。典型的应用程序是用来统计和排序大量的字符串(但不限于字符串),因此搜索引擎系统经常用于文本字频统计。典型的应用程序用于统计和排序大量的字符串(但不限于字符串),因此搜索引擎系统经常用于文本字频统计。其优点是最大限度地减少不必要的字符串比较,查询效率高于哈希表。Trie是一棵存储多个字符串的树。相邻节点之间的边缘代表一个字符,使树的每个分支代表一个子串,而树的叶节点代表一个完整的字符串。与普通树不同的是,相同的字符串前缀共享相同的分支。例如,给出一组单词inn,int,at,age,adv,ant,我们可以得到以下Triee:从上图可以看出,当用户输入前缀i时,搜索框可能会显示以i为前缀的“in”,“inn”,”int"等待关键词,当用户输入前缀a时,搜索框中可能会提示以a为前缀的“ate等待关键词。这样,实现搜索引擎智能提示sugestion的第一步就清楚了,就是用trie树存储大量的字符串,当前缀固定时,存储相对较热的后缀。Topk算法用于解决统计热词的问题。解决TopK问题主要有两种策略:hashMap统计 hashmap统计:先预处理这批海量数据。具体方法是:将Key维护为Query字符串,Value维护为Query出现次数的HashTable,即hash_map(Query,Value),每次读一个Query,如果字串不在Table中,则添加字串,并将Value值设置为1;如果字串在Table中,则可以添加字串的计数,最终在O(N)Hash表完成了时间复杂性的统计。堆排序:借助堆的数据结构,找出TopK,时间复杂度为N‘logK。堆排序:借助堆的数据结构,找出TopK,时间复杂度为N‘logK。也就是说,借助堆结构,我们可以在log量级的时间内找到和调整/移动。因此,维护一个K(题目为10)大小的小根堆,然后通过300万的Query,分别与根元素进行比较。因此,我们最终的时间复杂度是:O(N) N'*O(logK),(N为1000万,N’为300万)。该方案的问题是:在构建索引和查询时,汉字应转换为拼音。查询完成后,拼音应转换为汉字显示,并考虑数字和特殊字符。两棵Trie树需要保持拼音和缩写。作为一个应用广泛的搜索引擎系统,Sugest智能提示Solr内置了智能提示功能,称为Sugest模块。该模块可以根据提示词文本选择智能提示,并支持通过建立索引词库来提示索引的某个字段。(详见solrwiki页面htp://wiki.apache.org/solr/Suggester)该方案的问题是,返回的结果是根据索引中字段的词频进行排序,而不是用户搜索关键字的频率,因此一些流行关键字不能排在前面。拼音提示,多音字,缩写或添加索引字段。方案3Solrcloud建立单独的collection,使用solr前缀查询实现上述问题。上述两个方案在实施过程中都存在一些问题 在处理汉字suggest时,Topk算法并不十分优雅,需要维护两棵Trie树,实施起来很复杂;Solr自带的sugest智能提示组件的问题是使用freq排序算法。返回结果完全基于索引中字符的出现次数,不考虑用户搜索单词的频率。因此,一些流行词不能排在更高的位置。因此,我们继续寻找更优雅的解决方案。因此,我们继续寻找一个更优雅的解决方案来解决这个问题。到目前为止,我们考虑为关键字建立索引collection,并使用solr前缀查询。copyField在solr中可以很好地解决我们同时索引多个字段(汉字,pinyin,abbre)当field的multivalued属性设置为true时,可以解决同一关键字的多音字组合问题。配置如下:schema.xml:XML/HTMLCode复制内容到剪贴板<field name="kw" type="string" indexed="true" stored="true" /><field name="pinyin" type="string" indexed="true" stored="false" multiValued="true"/><field name="abbre" type="string" indexed="true" stored="false" multiValued="true"/><field name="kwfreq" type="int" indexed="true" stored="true" /><field 

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

你还在忽略平台运营的重要性吗?

我们为什么要做平台运营呢?因为我们的平台「没有效果」。一个什么都不做的平台是没有办法引来流量的,更没有办法形成转化带来业绩。很多中小企业在搭建平台后,都会忽视平台运营的重要性,事实上,平台运营对平台价值的发挥十分关键。图片来源于网络 要做好…查看详情

行业不同商标注册类别不同,布料行业通常选择第24类商标注册

各行各业申请注册商标时,都会根据自己的产品或服务进行不同类别的注册。如布料行业通常会在第24类商标注册,服装行业通常会在第25类商标注册,计算机行业可能会在第42类商标注册。 图片来源于网络 第24类商标注册主要包括:织物和家用织物覆盖物。…查看详情

网络营销的特点有哪些?

  在这个迅猛发展的新时代,万事万物都在迅速变化。之前的营销方式,落伍了;之前的营销渠道,萎缩了;之前的营销观念,老土了。在这个不断变化的世界里,唯有紧跟时代的步伐,才不容易被淘汰。  在这个迅猛发展的新时代下,万事万物迅速变化。几乎所有行…查看详情

冰箱什么牌子的好,还是要看以下的推荐

家家户户基本上都会用到一些冰箱,但是因为家庭人口不一样以及家庭需求不一样,所以选择的冰箱类型也基本上都不一样,在我们日常生活当中,冰箱什么牌子的好,还是要看以下的推荐。 1、海尔冰箱 海尔这个品牌也算是知名的大品牌了,在消…查看详情

香港公司不年审不注销有什么后果

  香港公司账户开设后,一直没有使用、没有申报,会有什么问题?  香港公司银行账号一直不使用,会被冻结或进入久悬状态,就不能再使用。如果要重新使用,需要激活或者重新开户。公司不经营以及没有其他方面的用途,建议尽快注销,不然长时间没有年审会产…查看详情

下载一个windows10镜像多久

  下载Windows10镜像需要的时间取决于许多因素,包括您的网络连接,下载源的速度和质量以及您的计算机硬件和软件性能。此外,Windows10官方镜像在一定程度上下载速度缓慢的原因是由于许多用户正在下载相同的文件。  Windows10…查看详情

中小企业分销管理系统怎么选

分销管理系统哪个好?应该怎么选?因为每个中小企业的实际情况不同,所以具体的答案也会不同。但是无论怎么样,分销管理系统的作用是不容置疑的。下面小万就从三个方面来介绍一下电商分销管理系统该如何选择。图片来源网络1、安全性分销管理系统对分销商的管…查看详情

盘点6款免费crm软件排名

随着经济的发展和管理系统的升级,越来越多的企业开始使用CRM来帮助企业进行管理,对于一些小的企业来说,他们往往都会考虑的是免费CRM软件。所以小的企业介绍5款免费CRM软件如下。 1ZohoCRM免费crm软件 ZohoCRM是当今市场上最…查看详情

微信如何群发,10大群发微信工具推荐

群发工具可实现快速操作,达到事半功倍的神器效果,互联网时代工具的运用是运营的核心关键,那么在不限制数量和快捷的情况下,微信如何群发?下面就教大家10大群发微信工具,帮你提升工作效率。 1、微信电话本 一款由腾讯制作的手机短消息群发软件.高清…查看详情

盘点工作中高效又专业的在线办公软件

日常的工作中我们都离不开办公软件,一款好的在线办公软件能高效的提高工作,避免我们重复的做无用功,今天就来为大家介绍几款超级强大实用的在线办公软件,一起看看吧。1、石墨文档这款软件能够轻松的满足对于基本数据以及文档的处理,十分优秀的远程办公系…查看详情

你的生意不好,有可能是这个原因造成的!

时代抛弃你时,连一声再见都不会说!——前央视主持人张泉灵这句话这几年很流行,虽然很残酷,但是话糙理不糙,真实的生存法则就是如此。跟不上时代的步伐,注定要被时代淘汰,这个是亘古不变的真理。干掉诺基亚的不是同时代的摩托罗拉,而是代表未来的智能手…查看详情

datetimepicker默认值是什么

c#DatePicker如何显示时分秒?C#的datepicker是指日期选择器,自然不带时分秒的,只能对年月日进行格式的变化。  DatePicker日期选取器提供了一种标准化途径,用户可以通过触控、鼠标或键盘输入选择本地化格式的日期。 …查看详情

“域名可以免费申请吗”,这不该是中小企业提出的问题!

域名是有数字、文字、符号构成的特定识别码,它作为网站的入口和标识,也是企业无形资产之一。优质的域名是一种全球性稀缺资源,伴随企业发展壮大,在互联网营销中,域名与商标具有同样的品牌价值和商业价值,它同样代表了一家企业的品牌形象。所以,“域名可…查看详情

好用的音乐制作软件有哪些 音乐制作软件排行榜

  现在大家身边都有很多从事自媒体的朋友,而且现在制作短视频的话对音乐剪辑也是有一定的要求的,下面小编就给大家来详细介绍一下好用的音乐制作软件有哪些 音乐制作软件排行榜这一块的内容,希望能帮助到大家!  好用的音乐制作软件有哪些  1、…查看详情

css的优先级怎么判断?

css的优先级怎么判断?css选择器优先级怎么比较 CSS选择器中比较常见的有标签选择器、ID选择器、类选择器以及子选择器。而事实上,CSS选择器如果细分下来,竟然多达40多种。那他们的优先级该怎么比较呢,下面就来看看吧。 ●不同级别 …查看详情

最新文章