一、摘要
随着ChatGPT的问世,基于对话的搜索引擎技术迅速获得了广泛关注。市场上已经出现了多个通用型问答搜索引擎,如Perplexity、iASK,以及专注于特定垂直领域的搜索解决方案。
我们认为这类基于对话的搜索产品在提供直接答案方面,相较于传统的基于关键词搜索和用户自行浏览信息的搜索引擎,具有显著优势,并可能成为搜索技术发展的颠覆式范式。然而,在实际使用过程中,我们也注意到了一些问题,尤其是在答案的准确性和可靠性方面。不准确的答案和所谓的“幻觉答案”(即与用户查询不相关或毫无意义的答案)频繁出现,这严重影响了用户体验。
鉴于全球用户群体的语言多样性,我们的评估报告选择了包括英语、日语、简体中文、俄语和繁体中文等在内的多种语言,对这些问答搜索引擎产品的准确性进行了初步的测试和评估。
在本报告中,我们将详细介绍我们的评估方法、测试过程以及所得出的结论。我们的目标是为开发者、研究人员以及最终用户提供一个全面的性能评价,以便更好地理解这些问答搜索引擎在不同语言环境下的表现,并指出它们在当前阶段的局限性和改进方向。
在本次对问答式搜索引擎的综合性能评估中,我们得出了以下主要发现:
- 总体而言,各参评产品的表现均未达到我们的预期水平。然而,值得注意的是,一家主要服务中国市场的公司——秘塔(Metaso)在评估中整体表现最为出色,以微弱的优势超越了Perplexity。
图1 评测产品的准确率
- 综合所有产品的数据分析结果显示,对于英文问题的回答准确率最高。相比之下,俄文问题的准确率最低,日文问题的准确率也相对较低。
图2 所有语言的准确率
- 在语种细分的表现上,Perplexity在英文问题的回答上遥遥领先,而其简体中文的表现也相当不俗。Metaso在简体中文和繁体中文的表现上同样令人瞩目。然而,这两家公司在其他语种的表现均未达到及格水平。iASK的能力在各语种中表现为相对均衡,但整体上属于中等水平;You.com 则仅在英文问题回答上有较好的表现。
图3 评测产品在不同语言下的准确率
注1:本次评估的各产品,均选择的是免费版本(metaso选择的是深入模式)。针对Pro版本的评估,会在之后进行。
注2:本次评估仅关注答案的准确性,忽略返回语言和格式等其它方面。
二、产品选择
为了进行本次问答式搜索引擎的性能评测,我们参照了 aicpb.com 网站提供的AI搜索引擎领域的领先产品清单。在排除了传统关键词搜索引擎之后,我们精心挑选了市场上表现最为突出的四款AI问答式搜索引擎产品作为评测对象。
这些产品被认为是行业内的佼佼者,它们的技术和市场表现代表了当前AI搜索引擎的最高水平。我们的评测旨在深入分析这些头部产品的性能,特别是在理解和回答用户查询方面的能力,以及它们在处理不同语言的查询时的准确性和可靠性。
上述4款产品的具体信息如下:(参考自 aicpb.com 的统计)
排名 | 产品名 | 分类 | 3月访问量 | 环比 |
2 | Perplexity | AI Search Engine | 64.14M | 25.17% |
3 | You.com | AI Search Engine | 10.44M | 14.61% |
5 | Metaso | AI Search Engine | 7.21M | 551.36% |
7 | iAsk | AI Search Engine | 3.43M | 15.43% |
三、评测数据
为了全面评估上述AI问答式搜索引擎产品在多语言环境下的性能,我们选取了英语、日语、简体中文等六种主要语言进行测试。多语言的测试用例分布情况如下:
评测语种 | 语种占比 |
英语 | 20% |
日语 | 20% |
简体中文 | 20% |
繁体中文 | 20% |
俄罗斯语 | 10% |
韩语 | 10% |
合计 | 100% |
在本次评估报告中,我们特别设计了五种不同的使用场景,包括实时新闻获取、本地信息查询、技术问题解答、产品特性询问以及商业咨询,以模拟用户在日常生活中可能遇到的查询需求。
内容场景 | 评测点 | 用例数量 | 数量占比 |
技术咨询 | 评估在理解和回答专业技术问题方面的能力 | 20 | 20% |
时事新闻 | 评估在跟踪、处理实时信息和提供最新新闻事件 | 20 | 20% |
本地信息 | 评估对本地(如餐馆、商家、景点、交通等)的信息检索 | 20 | 20% |
产品查询 | 评估提供准确和有用的产品信息 | 20 | 20% |
商业咨询 | 评估在商业领域内,对业务进行专业的信息分析和检索的能力 | 20 | 20% |
合计 | 100 | 100% |
我们认识到,尽管这五种场景涵盖了一系列常见的查询类型,但它们可能无法完全覆盖用户的所有潜在需求。因此,我们计划在未来的评估中不断扩展我们的测试集合,引入更多的类别和场景,以确保我们的评估能够更加全面地反映产品的实际性能和用户体验。
我们的完整的测试用例,开源如下:
数据集:https://github.com/sparticleinc/ASEED
四、评测方法及结果
- 测试方法
- 准确率:人工评测人工将真实答案与Ground truth和Key words进行比较。工审核通过为True,否则为False。
- Answer Correctness: GPT4评分选择Ragas平台的Answer correctness指标,评测模型采用GPT-4-Turbo,Answer correctness 计算公式如下:
指标说明:https://docs.ragas.io/en/latest/concepts/metrics/answer_correctness.html
- 评估指标
评估内容 | 评估定义 | 优点 | 缺点 |
Accuracy | 人工基于Ground truth和key words对真实答案进行审核 | 评估精准 | 评估工作量大 |
Answer Correctness | GTP4基于Ground truth与真实答案进行对比 | 评估工作量小 | 评估质量一般 |
摘要中已经提供了Accuracy评测结果,Answer correctness评测结果如下所示。
准确率 | AC | |
Perplexity | 65% | 65.22% |
Metaso | 66% | 62.7% |
iAsk | 60% | 62.27% |
You.com | 34% | 58.27% |
五、案例分析
实时新闻
Question:最近の埼玉県行田市事故の死傷者数は何人ですか?
Ground truth:最近の埼玉県行田市の事故での死傷者数は以下の通りです:\n死亡者数: 1人\n負傷者数: 3人
Comment:Perplexity, You.com 没有搜索到相关结果。Metaso回答的结果跟Ground truth基本一致。iAsk回答为英文,但描述和回答来源正确。
Search AI Engine | Answer | Accuracy |
Perplexity | 申し訳ありませんが、与えられた検索結果には埼玉県行田市での事故の死傷者数に関する情報がありません。3の埼玉県警察のウェブサイトには県内の交通事故発生状況が掲載されていますが、行田市に限定した情報はありません。したがって、この質問に対する正確な答えを出すことはできません。 | False |
Metaso | しかし、この質問に対する直接的な回答として、最新の事故で1人死亡、3人けがをしたことが正确です。 | True |
iAsk | The recent accident in Saitama Prefecture, specifically in the city of Gyoda, resulted in 4 people being killed or injured. The accident involved a 76-year-old female driver whose car veered out of its lane and collided with a total of 4 vehicles, including cars and trucks. The incident occurred on a single-lane city road in Gyoda. The woman’s vehicle crossed into oncoming traffic, leading to collisions with two oncoming cars, another car, and a large truck. As a result of the accident, a 47-year-old woman who was driving one of the oncoming cars tragically lost her life. Additionally, her 8-year-old daughter who was with her, the 52-year-old male driver of the truck, and the elderly female driver who caused the initial collision sustained varying degrees of injuries. The Gyoda Police Station is currently investigating the exact cause of the accident while monitoring the recovery of the injured parties. These sources were utilized to gather information regarding the recent accident in Gyoda City, Saitama Prefecture, providing details about the number of casualties and the circumstances surrounding the tragic incident. | True |
You.com | 最近の埼玉県行田市の事故の死傷者数に関する情報は、提供された検索結果からは見つかりませんでした。申し訳ありませんが、詳細な情報を提供することができません。お手数ですが、別の情報 | False |
本地信息
Question:進撃の巨人はいつ発行されましたか?
Ground truth:「進撃の巨人」は、諫山創による日本の漫画作品で、2009年9月9日に発行が開始されました。そして、2021年4月9日に連載が完結しました。最新刊(34巻)は2021年6月9日に発売されました⁵。この作品は世界中で非常に人気があり、多くの派生作品が生まれています。
Comment:在回答”進撃の巨人”发行日期的问题中,Perplexity和iAsk的回答时间都是正确的,其中Perplexity还提供了更详细的信息。而Metaso和You.com的回答则不准确。Perplexity的回答更能显示出其在信息搜集和处理方面的优势。
Search AI Engine | Answer | Accuracy |
Perplexity | 進撃の巨人の原作漫画は、2009年9月から2021年4月まで講談社の「別冊少年マガジン」にて連載されていました。13 コミックスは全34巻で、最終巻である34巻が2021年6月9日に発売されました。2 つまり、進撃の巨人の漫画連載期間は2009年9月から2021年4月の約12年間で、コミックス化は2021年6月に完結しています。 | True |
Metaso | 「進撃の巨人」の漫画版は2010年3月17日に発行されました。 | False |
iAsk | 進撃の巨人は2009年9月に発行されました。 | True |
You.com | 進撃の巨人は2013年に発行されました。 | False |
技术咨询
Question:Anthoropic Claude のデータポリシーは?
Ground Truths:ユーザーの個人データは、モデルのトレーニングに使用されないため、ユーザーデータを利用してモデルを構築することはありません。
Comment:Perplexity的回答与题目无关,没有正确回答问题。Metaso的回答最为准确,详细地解释了Anthoropic Claude的数据政策。iAsk的回答虽然不在 Ground Truths,经核实它引用的来源,确认它的回答仍然正确。You.com则没有找到相关信息。
Search AI Engine | Answer | Accuracy |
Perplexity | Anthropic のAIアシスタントClaudeのトレーニングデータは2023年8月までのものであり、それ以降のイベントについては認識していないことが分かります。4 具体的には、Anthropic のサポート記事によると、「Claudeのデータは常に更新していますが、Claudeは2023年8月までのデータで訓練されました。この日付より後のイベントについて尋ねた場合、Claudeはそれらを認識していません。」と説明されています。4 つまり、Anthropic Claude のトレーニングデータは2023年8月までのものであり、それ以降の最新の情報については認識していないということが分かります。 | False |
Metaso | Anthoropic Claudeのデータポリシーは、業界標準のベストプラクティスを使用しており、ユーザーが入力したプロンプトや会話はモデルのトレーニングに使用されません。これは、用户的な情報の漏洩を防ぐための措置であり、用户的なデータの処理や保持に関する透明性と安全性を保証しています。これは、用户的な情報の漏洩を最小限に抑えるための措置であり、用户的なデータの処理や保持に関する透明性と安全性を保証しています。 | True |
iAsk | Anthropic Claude のデータポリシーは以下の通りです: Anthropicは、個人データを保持する期間や使用方法について明確なポリシーを設けています。消費者向け製品やベータ/評価製品の場合、個人データは、目的や基準に合理的に必要な限り保持されます。一方、ビジネスやエンタープライズのお客様向けには、サービス契約でデータ保持期間が説明されています。 主なポイント: データ保持期間: 消費者向け製品やベータ/評価製品の場合、受信または生成後90日以内にバックエンドでプロンプトと出力が自動的に削除されます。 特別なケース: 例外として、信頼と安全の分類器にフラグが立てられたプロンプトは最大2年間保持されます。 その他の規定: オプトインや明示的同意がある場合、データは10年間保持されることもあります。 Anthropicは個人データの性質や関連活動、対話時期と期間、正当な利益と法的義務を考慮してデータ保持期間を決定します。法律上必要な場合や使用ポリシー違反を防ぐために必要な場合を除き、個人データは適切な措置の下で管理されます。 | True |
You.com | Anthropic Claude のデータポリシーについては、具体的な情報が見つかりませんでした。データポリシーに関する詳細な情報を提供することができず、申し訳ありません。Anthropic の公式ウェブサイトや公式文書を参照することで、より詳細な情報を入手することができるかもしれません | False |
产品咨询
Question:갤럭시 S24의 화면 해상도는 어떻게 되나요?
Ground Truths:갤럭시 S24 기본 모델의 화면 해상도는 2340 x 1080 픽셀입니다
Comment:Perplexity给出的是一个不存在的分辨率,而iAsk则提供了一个更高的分辨率,但实际上是错误的。You.com 的回答也不正确。Metaso表现最好,它提供了准确的分辨率和有关不同型号的额外信息。
Search AI Engine | Answer | Accuracy |
Perplexity | 갤럭시 S24의 화면 해상도는 1440 x 3088 픽셀입니다.5 화면 해상도 갤럭시 S24는 6.1인치 OLED 디스플레이를 탑재하며, 1440 x 3088 픽셀의 높은 해상도를 지원합니다.5 이는 매우 선명하고 생생한 화질을 제공할 것으로 예상됩니다. 디스플레이 주요 사양 디스플레이 종류: 6.1인치 OLED5 해상도: 1440 x 3088 픽셀5 재생률: 120Hz5 따라서 갤럭시 S24는 QHD+ 해상도의 고화질 디스플레이를 탑재하여 영화, 게임, 웹서핑 등 다양한 멀티미디어 활용에 최적화된 시청 경험을 제공할 것으로 보입니다.5 | False |
Metaso | 三星Galaxy S24系列的屏幕分辨率根据不同的型号有所不同。Galaxy S24采用了6.2英寸的Dynamic AMOLED屏幕,分辨率为2340×1080,支持120Hz自适应刷新率。而Galaxy S24+和Galaxy S24 Ultra则提供了更高的分辨率。S24+的屏幕分辨率为3120×1440,这是一个QHD+级别的分辨率。同样,Galaxy S24 Ultra也配备了分辨率为3120×1440的第二代动态AMOLED显示屏。因此,可以总结说,三星Galaxy S24系列中,标准版S24的屏幕分辨率为2340×1080,而S24+和S24 Ultra的屏幕分辨率为3120×1440。 | True |
iAsk | 갤럭시 S24의 화면 해상도는 QHD+ (3120×1440)입니다. Top 3 Authoritative Sources Used in Answering this Question: BetaNews.net Samsung Newsroom Official Samsung Galaxy Unpacked Event 2024 Coverage The information regarding the Galaxy S24’s display resolution of QHD+ (3120×1440) was sourced from multiple reliable outlets, including BetaNews.net, Samsung Newsroom, and the official coverage of the Samsung Galaxy Unpacked Event 2024. These sources provided detailed insights into the specifications and features of the Galaxy S24 series, ensuring accuracy and credibility in the answer provided. | False |
You.com | Galaxy S24 Display Resolution The rumored display resolution for the Samsung Galaxy S24 is 2,316 x 1,080 pixels (FHD+). This would be the same resolution as the Galaxy S23 and S23+, which have displays that are 6.1 inches and 6.6 inches respectively. The Galaxy S24 is expected to have a 6.1 inch AMOLED display like the S23. Leaks and rumors so far suggest the S24 will have a similar screen size and resolution as the S23 for the base model. If true, this would be lower than the Quad HD | False |
商业咨询
Question:Monica.im в 2023 году имеет сколько пользователей?
Ground Truths:В 2023 году у Monica.im уже более 1,5 миллионов пользователей.
Comment:Metaso直接给出了正确答案,而Perplexity和iAsk则更像是在说明自己的查找过程,没有真正解决问题。You.com 的回答没有任何有用的信息。
Search AI Engine | Answer | Accuracy |
Perplexity | К сожалению, в предоставленных поисковых результатах нет информации о количестве пользователей Monica.im в 2023 году. Результаты содержат различную информацию, не связанную с этим вопросом, такую как описание сайта для знакомств, рекламу юридических услуг, инструкции по использованию инструментов и другие случайные темы. Поскольку запрошенные данные отсутствуют, я не могу дать точного ответа на этот вопрос. Monica.im – это сайт знакомств и социальная сеть, но без дополнительной информации из надежных источников невозможно определить количество ее пользователей в 2023 году. | False |
Metaso | Monica.im 在 2023 年已有超过 150 万用户。 | True |
iAsk | Monica.im User Count in 2023: To determine the number of users Monica.im had in 2023, we need to gather information from reliable sources that provide data on the user base of Monica.im during that specific year. Researching Monica.im User Count in 2023: Official Reports: Checking any official reports or announcements made by Monica.im or its parent company regarding user statistics for the year 2023. Industry Analysis: Reviewing industry reports or analyses that may have covered the growth and user numbers of AI assistants like Monica.im in 2023. Tech News Outlets: Exploring tech news websites or publications that might have reported on the user metrics or milestones achieved by Monica.im in 2023. Financial Statements: Examining any financial statements or disclosures from the company behind Monica.im that could potentially include user count information. User Reviews and Feedback: Considering user reviews, feedback, or testimonials that might indirectly hint at the popularity and scale of Monica.im’s user base in 2023. Answer: After conducting a thorough search across various sources, unfortunately, I couldn’t find specific data on the exact number of users Monica.im had in 2023. The information may not be readily available or publicly disclosed through official channels or reports accessible at this time. Top 3 Authoritative Sources Used: Official Reports Industry Analysis Tech News Outlets | False |
You.com | В 2023 году количество пользователей Monica.im не указано в предоставленных источниках. Нет информации о точном числе пользователей на указанный год. | False |
六、结论(Conclusion)
本次评测对市场上领先的四款AI问答式搜索引擎产品进行了深入的多语言性能分析。通过在英语、日语、简体中文等六种语言环境下,针对实时新闻、本地信息查询、技术问题、产品特性和商业咨询等五类场景的测试,我们得出了以下结论:
- 整体性能:所有参评的AI问答式搜索引擎产品在某些方面均显示出潜力,但总体表现未能达到预期水平。秘塔和Perplexity在测试中领先优势明显,但仍有相当大的改进空间。
- 语言准确性:英文问题的回答准确率普遍高于其他语言,而俄文和日文的准确率较低,表明跨语言的处理能力仍是一个挑战。
- 产品特定表现:Perplexity在英文问题回答中表现突出,而Meta在简体中文和繁体中文的处理上表现亮眼。iASK在各语种中表现相对均衡,you.com 则几乎无法用于非英语的查询。
未来,我们计划扩充评测测试集合,增加更多的语言和查询场景,以提供更为全面和细致的性能评估。我们相信,随着技术的进步和数据集的丰富,AI问答式搜索引擎将能够更好地满足全球用户的多样化需求,并在未来的搜索技术中扮演更加重要的角色。