数据储存与加工 搜索

精准意图识别一般根据用户的qery,检索其用户意图精准对应的item。模糊意图识别一般可以采用基于模板规则、行为统计反馈、深度学习等方法。由于方法较为繁杂,此处不做详细介绍,若感兴趣的读者可自行检索相关文章 通过意图识别:我们可以得到qery相关词汇“朝阳”、“两居”、“二手房”,代表的实体含义为 {Region:’朝阳’;Hose Tye:’两居’; Hose Stts:’二手房’}。 . 权赋 权赋是指在文本处理中对词项term进行权重计算和权重赋予的过程。权重计算通常使用TF-IDF、TF-DF、M、概率模型、隐语义分析、基于知识图谱的算法等。

房产信息具备高度结构

话特征,因此在项目初期,使用权重计算的 房主数据库 场景较为稀少。而在处理房产资讯的检索时,可以使用该方法,进行数据处理。 7. 敏感信息 敏感信息:qery分析中,对敏感信息如违法、隐私等信息进行识别和过滤的过程。可通过基于规则的方法、基于机器学习、基于深度学习的方法等实现 . 召回 召回是根据处理过的用户qery,在数据库查询符合条件数据的过程。召回是搜索引擎中的重要环节,垂直搜索引擎亦不例外。召回策略决定着搜索结果的质量。例如,用户想要寻找北京的房源,若召回的是上海的房源,那么排序再好,也对用户的需求解决没有任何帮助。

除了召回策略外数据质量也

特殊数据库

至关重要。在互联网房产行业,房源数据主要来自用 康以社区打造超体年泰更是首度迈 户发布和商家发布,资讯的数据来源是多方的,包括企业发布、用户发布、第三方公开资讯等。 除了内 容信息外,用户行为和用户日志数据也需进行储存,它们是召回策略的重要参考依据。  引擎的质量取决于搜索策略和数据质量。低质数据泛滥,对用户的浏览体验造成了严重的负面影响。这是当前中文搜索为人所诟病的原因之一。在htgt、文心一言等IG工具迅速发展的情形下,这种影响将会愈发严重。因此,数据在存储时,除了本身实体属性外,还需要引入一些额外的标签对数据质量进行多方面评价。

对于房源信息数据库通常

会录入房源的标题、名称、类型、位置、价 BZB 目录 格、户型、面积、楼层、朝向、发布时间等字段,同时这些将这些数据做结构化处理,方便搜索引擎和其他业务查询。除此之外,也可以引入房源质量评分、评分、户型评分、评级等多维评价标签或指数,作为召回策略的条件。 . 召回方式 与大多搜索引擎系统一样,房产搜索引擎通常采取多路召回策略,下面介绍几种常用的召回策略: 文本索引召回:文本索引通常使用倒排索引方式。预先构建关键词-包含关键词文档的索引,根据用户输入的关键词,对房产数据库中的已有的索引进行检索,查找包含关键词的房源文档信息。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注