一、要旨
ChatGPTの登場に伴い、対話型検索エンジン技術は急速に注目を集めるようになりました。Perplexity、iAskのような汎用的な質問応答型検索エンジンや、特定の垂直分野に特化した検索ソリューションが市場に登場しています。
私たちは、このような対話型検索製品が直接的な回答を提供する点で、従来のキーワードベースの検索やユーザー自身が情報を閲覧する検索エンジンと比べて著しい優位性を持ち、検索技術の発展における破壊的なパラダイムになる可能性があると考えています。しかし、実際の使用過程では、いくつかの問題点にも気付きました。特に、回答の正確性と信頼性の面で課題があります。不正確な回答や、ユーザーのクエリと無関係または無意味な「幻覚的な回答」が頻繁に現れ、ユーザーエクスペリエンスに深刻な影響を及ぼしています。
世界中のユーザー層の言語の多様性を考慮し、私たちの評価レポートでは、英語、日本語、簡体字中国語、ロシア語、繁体字中国語など、複数の言語を選択し、これらの質問応答型検索エンジン製品の正確性に関する予備的なテストと評価を行いました。
本レポートでは、評価方法、テストプロセス、および得られた結論について詳しく説明します。私たちの目的は、開発者、研究者、およびエンドユーザーに対して、これらの質問応答型検索エンジンが異なる言語環境でどのようなパフォーマンスを示すのかを理解し、現段階での限界と改善の方向性を示すための包括的なパフォーマンス評価を提供することです。
今回の質問応答型検索エンジンの総合的なパフォーマンス評価により、以下の主要な発見が得られました。
- 全体的に、評価対象の各製品のパフォーマンスは、私たちの期待するレベルに達していませんでした。しかし、主に中国市場にサービスを提供している企業であるMetaso(秘塔)が、わずかな優位性でPerplexityを上回り、評価全体で最も優れたパフォーマンスを示したことは注目に値します
- すべての製品のデータ分析結果を総合すると、英語の質問に対する回答の正確率が最も高いことが示されました。対照的に、ロシア語の質問に対する正確率が最も低く、日本語の質問に対する正確率も比較的低いことが分かりました。
- 言語別の詳細なパフォーマンスでは、Perplexityが英語の質問への回答で大きくリードしており、簡体字中国語のパフォーマンスも非常に優れていました。Metasoも簡体字中国語と繁体字中国語のパフォーマンスが目覚ましいものでした。しかし、この2社は他の言語ではいずれも合格レベルに達していませんでした。iAskの能力は各言語で比較的バランスが取れていましたが、全体的には中程度のレベルでした。You.comは英語の質問への回答のみ良好なパフォーマンスを示しました。
注1:今回の評価では、各製品とも無料版(Metasoは研究モードを選択)を選択しました。Pro版の評価は後日実施する予定です。
注2:今回の評価では、回答の正確性にのみ焦点を当て、返答言語やフォーマットなどの他の側面は無視しています。
二、製品の選択
今回の質問応答型検索エンジンのパフォーマンス評価を行うにあたり、私たちは aicpb.com のウェブサイトが提供するAI検索エンジン分野のリーディング製品リストを参考にしました。従来のキーワード検索エンジンを除外した後、市場で最も優れたパフォーマンスを示す4つのAI質問応答型検索エンジン製品を評価対象として慎重に選択しました。
これらの製品は業界のリーダーと見なされており、その技術と市場でのパフォーマンスは現在のAI検索エンジンの最高レベルを代表しています。私たちの評価は、これらのトップ製品のパフォーマンスを詳細に分析することを目的としており、特にユーザーのクエリを理解し回答する能力、および異なる言語のクエリを処理する際の正確性と信頼性に焦点を当てています。
上記の4つの製品の具体的な情報は以下の通りです(aicpb.com の統計を参照)。
ランキング | 製品名 | 分類 | 3月でアクセス | 前期比 |
2 | Perplexity | AI Search Engine | 64.14M | 25.17% |
3 | You.com | AI Search Engine | 10.44M | 14.61% |
5 | Metaso | AI Search Engine | 7.21M | 551.36% |
7 | iAsk | AI Search Engine | 3.43M | 15.43% |
三、評価データ
上記のAI質問応答型検索エンジン製品の多言語環境でのパフォーマンスを包括的に評価するため、私たちは英語、日本語、簡体字中国語など6つの主要言語を選択してテストを行いました。多言語のテストケースの分布は以下の通りです。
評価言語 | 割合 |
英語 | 20% |
日本語 | 20% |
簡体字中国語 | 20% |
繁体字中国語 | 20% |
ロシア語 | 10% |
韓国語 | 10% |
合計 | 100% |
本次評価では、ユーザーが日常生活で遭遇する可能性のあるクエリニーズをシミュレートするため、リアルタイムニュースの取得、ローカル情報の検索、技術的問題への回答、製品の特徴に関する問い合わせ、およびビジネスコンサルティングの5つの異なる使用シナリオを特別に設計しました。
シナリオ | 評価のポイント | ケース数 | 割合 |
技術コンサルティング | 専門的な技術的問題を理解し回答する能力を評価 | 20 | 20% |
最新ニュース | リアルタイム情報を追跡・処理し、最新のニュースイベントを提供する能力を評価 | 20 | 20% |
ローカル情報 | ローカル(レストラン、店舗、観光地、交通機関など)の情報検索を評価 | 20 | 20% |
製品問い合わせ | 正確で有用な製品情報を提供する能力を評価 | 20 | 20% |
ビジネスコンサルティング | ビジネス分野における専門的な情報分析と検索の能力を評価 | 20 | 20% |
合計 | 100 | 100% |
これら5つのシナリオはよくあるクエリタイプの範囲をカバーしていますが、ユーザーのすべての潜在的なニーズを完全にカバーできない可能性があることを認識しています。そのため、今後の評価では、テストセットを継続的に拡張し、より多くのカテゴリとシナリオを導入することで、評価が製品の実際のパフォーマンスとユーザーエクスペリエンスをより包括的に反映できるようにする予定です。
テストケースは、以下のようにオープンソース化されています。コーパス:https://github.com/sparticleinc/ASEED
四、評価方法と結果
- テスト方法
- 正確率:手動で評価
- Answer Correctness: GPT-4による採点
指標説明:https://docs.ragas.io/en/latest/concepts/metrics/answer_correctness.html
- 評価指標
評価指標 | 評価の定義 | 長所 | 短所 |
Accuracy | 人手でGround truthとkey wordsに基づいて実際の回答を評価 | 評価の精度が高い | 評価の作業量が大きい |
Answer correctness | GPT-4がGround truthと実際の回答を比較 | 評価の作業量が少ない | 評価の質が一般的 |
要約では既に正確率の評価結果が提供されているため、回答の正確性の評価結果は以下の通りです。
正確率 | AC | |
Perplexity | 65% | 65.22% |
Metaso | 66% | 62.7% |
iAsk | 60% | 62.27% |
You.com | 34% | 58.27% |
五、事例分析
最新ニュース
Question:最近の埼玉県行田市事故の死傷者数は何人ですか?
Ground truth:最近の埼玉県行田市の事故での死傷者数は以下の通りです:\n死亡者数: 1人\n負傷者数: 3人
Comment: Perplexity, You.comは関連する結果を検索できませんでした。Metasoが答えた結果は、基本的にGround truthと一致しています。iAskの回答は英語ですが、説明と回答の出典は正しいです。
Search AI Engine | Answer | Accuracy |
Perplexity | 申し訳ありませんが、与えられた検索結果には埼玉県行田市での事故の死傷者数に関する情報がありません。3の埼玉県警察のウェブサイトには県内の交通事故発生状況が掲載されていますが、行田市に限定した情報はありません。したがって、この質問に対する正確な答えを出すことはできません。 | False |
Metaso | しかし、この質問に対する直接的な回答として、最新の事故で1人死亡、3人けがをしたことが正确です。 | True |
iAsk | The recent accident in Saitama Prefecture, specifically in the city of Gyoda, resulted in 4 people being killed or injured. The accident involved a 76-year-old female driver whose car veered out of its lane and collided with a total of 4 vehicles, including cars and trucks. The incident occurred on a single-lane city road in Gyoda. The woman’s vehicle crossed into oncoming traffic, leading to collisions with two oncoming cars, another car, and a large truck. As a result of the accident, a 47-year-old woman who was driving one of the oncoming cars tragically lost her life. Additionally, her 8-year-old daughter who was with her, the 52-year-old male driver of the truck, and the elderly female driver who caused the initial collision sustained varying degrees of injuries. The Gyoda Police Station is currently investigating the exact cause of the accident while monitoring the recovery of the injured parties. These sources were utilized to gather information regarding the recent accident in Gyoda City, Saitama Prefecture, providing details about the number of casualties and the circumstances surrounding the tragic incident. | True |
You.com | 最近の埼玉県行田市の事故の死傷者数に関する情報は、提供された検索結果からは見つかりませんでした。申し訳ありませんが、詳細な情報を提供することができません。お手数ですが、別の情報 | False |
ローカル情報
Question:進撃の巨人はいつ発行されましたか?
Ground truth:「進撃の巨人」は、諫山創による日本の漫画作品で、2009年9月9日に発行が開始されました。そして、2021年4月9日に連載が完結しました。最新刊(34巻)は2021年6月9日に発売されました⁵。この作品は世界中で非常に人気があり、多くの派生作品が生まれています。
Comment: 「進撃の巨人」の発売日に関する質問に答える中で、PerplexityとiAskの回答時間はどちらも正確でしたが、Perplexityはさらに詳細な情報を提供しました。一方、MetasoとYou.comの回答は正確ではありませんでした。Perplexityの回答は、情報収集と処理の面での優位性をより明確に示しています。
Search AI Engine | Answer | Accuracy |
Perplexity | 進撃の巨人の原作漫画は、2009年9月から2021年4月まで講談社の「別冊少年マガジン」にて連載されていました。13 コミックスは全34巻で、最終巻である34巻が2021年6月9日に発売されました。2 つまり、進撃の巨人の漫画連載期間は2009年9月から2021年4月の約12年間で、コミックス化は2021年6月に完結しています。 | True |
Metaso | 「進撃の巨人」の漫画版は2010年3月17日に発行されました。 | False |
iAsk | 進撃の巨人は2009年9月に発行されました。 | True |
You.com | 進撃の巨人は2013年に発行されました。 | False |
技術コンサルティング
Question:Anthoropic Claude のデータポリシーは?
Ground Truths:ユーザーの個人データは、モデルのトレーニングに使用されないため、ユーザーデータを利用してモデルを構築することはありません。
Comment: Perplexityの回答は問題と関係がなく、正しく答えていません。Metasoの回答が最も正確で、Anthoropic Claudeのデータポリシーについて詳しく説明しています。iAskの回答はGround Truthsには含まれていませんが、参照した情報源を確認したところ、その回答が正しいことが確認されました。You.comは関連情報を見つけられませんでした。
Search AI Engine | Answer | Accuracy |
Perplexity | Anthropic のAIアシスタントClaudeのトレーニングデータは2023年8月までのものであり、それ以降のイベントについては認識していないことが分かります。4 具体的には、Anthropic のサポート記事によると、「Claudeのデータは常に更新していますが、Claudeは2023年8月までのデータで訓練されました。この日付より後のイベントについて尋ねた場合、Claudeはそれらを認識していません。」と説明されています。4 つまり、Anthropic Claude のトレーニングデータは2023年8月までのものであり、それ以降の最新の情報については認識していないということが分かります。 | False |
Metaso | Anthoropic Claudeのデータポリシーは、業界標準のベストプラクティスを使用しており、ユーザーが入力したプロンプトや会話はモデルのトレーニングに使用されません。これは、用户的な情報の漏洩を防ぐための措置であり、用户的なデータの処理や保持に関する透明性と安全性を保証しています。これは、用户的な情報の漏洩を最小限に抑えるための措置であり、用户的なデータの処理や保持に関する透明性と安全性を保証しています。 | True |
iAsk | Anthropic Claude のデータポリシーは以下の通りです: Anthropicは、個人データを保持する期間や使用方法について明確なポリシーを設けています。消費者向け製品やベータ/評価製品の場合、個人データは、目的や基準に合理的に必要な限り保持されます。一方、ビジネスやエンタープライズのお客様向けには、サービス契約でデータ保持期間が説明されています。 主なポイント: データ保持期間: 消費者向け製品やベータ/評価製品の場合、受信または生成後90日以内にバックエンドでプロンプトと出力が自動的に削除されます。 特別なケース: 例外として、信頼と安全の分類器にフラグが立てられたプロンプトは最大2年間保持されます。 その他の規定: オプトインや明示的同意がある場合、データは10年間保持されることもあります。 Anthropicは個人データの性質や関連活動、対話時期と期間、正当な利益と法的義務を考慮してデータ保持期間を決定します。法律上必要な場合や使用ポリシー違反を防ぐために必要な場合を除き、個人データは適切な措置の下で管理されます。 | True |
You.com | Anthropic Claude のデータポリシーについては、具体的な情報が見つかりませんでした。データポリシーに関する詳細な情報を提供することができず、申し訳ありません。Anthropic の公式ウェブサイトや公式文書を参照することで、より詳細な情報を入手することができるかもしれません | False |
製品問い合わせ
Question:갤럭시 S24의 화면 해상도는 어떻게 되나요?
Ground Truths:갤럭시 S24 기본 모델의 화면 해상도는 2340 x 1080 픽셀입니다
Comment: Perplexityは存在しない解像度を示しており、iAskはより高い解像度を提供していますが、実際には間違っています。You.comの回答も正しくありません。Metasoが最も良いパフォーマンスを示し、正確な解像度と異なるモデルに関する追加情報を提供しています。
Search AI Engine | Answer | Accuracy |
Perplexity | 갤럭시 S24의 화면 해상도는 1440 x 3088 픽셀입니다.5 화면 해상도 갤럭시 S24는 6.1인치 OLED 디스플레이를 탑재하며, 1440 x 3088 픽셀의 높은 해상도를 지원합니다.5 이는 매우 선명하고 생생한 화질을 제공할 것으로 예상됩니다. 디스플레이 주요 사양 디스플레이 종류: 6.1인치 OLED5 해상도: 1440 x 3088 픽셀5 재생률: 120Hz5 따라서 갤럭시 S24는 QHD+ 해상도의 고화질 디스플레이를 탑재하여 영화, 게임, 웹서핑 등 다양한 멀티미디어 활용에 최적화된 시청 경험을 제공할 것으로 보입니다.5 | False |
Metaso | 三星Galaxy S24系列的屏幕分辨率根据不同的型号有所不同。Galaxy S24采用了6.2英寸的Dynamic AMOLED屏幕,分辨率为2340×1080,支持120Hz自适应刷新率。而Galaxy S24+和Galaxy S24 Ultra则提供了更高的分辨率。S24+的屏幕分辨率为3120×1440,这是一个QHD+级别的分辨率。同样,Galaxy S24 Ultra也配备了分辨率为3120×1440的第二代动态AMOLED显示屏。因此,可以总结说,三星Galaxy S24系列中,标准版S24的屏幕分辨率为2340×1080,而S24+和S24 Ultra的屏幕分辨率为3120×1440。 | True |
iAsk | 갤럭시 S24의 화면 해상도는 QHD+ (3120×1440)입니다. Top 3 Authoritative Sources Used in Answering this Question: BetaNews.net Samsung Newsroom Official Samsung Galaxy Unpacked Event 2024 Coverage The information regarding the Galaxy S24’s display resolution of QHD+ (3120×1440) was sourced from multiple reliable outlets, including BetaNews.net, Samsung Newsroom, and the official coverage of the Samsung Galaxy Unpacked Event 2024. These sources provided detailed insights into the specifications and features of the Galaxy S24 series, ensuring accuracy and credibility in the answer provided. | False |
You.com | Galaxy S24 Display Resolution The rumored display resolution for the Samsung Galaxy S24 is 2,316 x 1,080 pixels (FHD+). This would be the same resolution as the Galaxy S23 and S23+, which have displays that are 6.1 inches and 6.6 inches respectively. The Galaxy S24 is expected to have a 6.1 inch AMOLED display like the S23. Leaks and rumors so far suggest the S24 will have a similar screen size and resolution as the S23 for the base model. If true, this would be lower than the Quad HD | False |
ビジネスコンサルティング
Question:Monica.im в 2023 году имеет сколько пользователей?
Ground Truths:В 2023 году у Monica.im уже более 1,5 миллионов пользователей.
Comment:Metasoは直接に正しい答えを出しましたが、PerplexityとiAskは自分の検索プロセスを説明しているようで、実際の問題を解決していません。You.comの回答には何の役にも立つ情報が含まれていません。
Search AI Engine | Answer | Accuracy |
Perplexity | К сожалению, в предоставленных поисковых результатах нет информации о количестве пользователей Monica.im в 2023 году. Результаты содержат различную информацию, не связанную с этим вопросом, такую как описание сайта для знакомств, рекламу юридических услуг, инструкции по использованию инструментов и другие случайные темы. Поскольку запрошенные данные отсутствуют, я не могу дать точного ответа на этот вопрос. Monica.im – это сайт знакомств и социальная сеть, но без дополнительной информации из надежных источников невозможно определить количество ее пользователей в 2023 году. | False |
Metaso | Monica.im 在 2023 年已有超过 150 万用户。 | True |
iAsk | Monica.im User Count in 2023: To determine the number of users Monica.im had in 2023, we need to gather information from reliable sources that provide data on the user base of Monica.im during that specific year. Researching Monica.im User Count in 2023: Official Reports: Checking any official reports or announcements made by Monica.im or its parent company regarding user statistics for the year 2023. Industry Analysis: Reviewing industry reports or analyses that may have covered the growth and user numbers of AI assistants like Monica.im in 2023. Tech News Outlets: Exploring tech news websites or publications that might have reported on the user metrics or milestones achieved by Monica.im in 2023. Financial Statements: Examining any financial statements or disclosures from the company behind Monica.im that could potentially include user count information. User Reviews and Feedback: Considering user reviews, feedback, or testimonials that might indirectly hint at the popularity and scale of Monica.im’s user base in 2023. Answer: After conducting a thorough search across various sources, unfortunately, I couldn’t find specific data on the exact number of users Monica.im had in 2023. The information may not be readily available or publicly disclosed through official channels or reports accessible at this time. Top 3 Authoritative Sources Used: Official Reports Industry Analysis Tech News Outlets | False |
You.com | В 2023 году количество пользователей Monica.im не указано в предоставленных источниках. Нет информации о точном числе пользователей на указанный год. | False |
六、結論(Conclusion)
今回の評価では、市場をリードする4つのAI質問応答型検索エンジン製品について、英語、日本語、簡体字中国語など6つの言語環境で、リアルタイムニュース、ローカル情報の検索、技術的問題、製品の特徴、ビジネスコンサルティングの5つのシナリオを対象に深層的な多言語パフォーマンス分析を行いました。その結果、以下の結論が得られました。
- 全体的なパフォーマンス:評価対象のすべてのAI質問応答型検索エンジン製品は、ある側面では潜在的な能力を示しましたが、全体的なパフォーマンスは期待されるレベルに達しませんでした。MetasoとPerplexityはテストで明らかにリードしていましたが、まだかなりの改善の余地があります。
- 言語の正確性:英語の質問に対する回答の正確率は、他の言語よりも全般的に高く、ロシア語と日本語の正確率は低くなっており、言語間の処理能力はまだ課題であることが示されました。
- 製品固有のパフォーマンス:Perplexityは英語の質問への回答で優れたパフォーマンスを示し、Metasoは簡体字中国語と繁体字中国語の処理で際立っていました。iAskは各言語で比較的バランスの取れたパフォーマンスを示しましたが、You.comは英語以外のクエリにはほとんど使用できませんでした。
将来的には、評価テストセットを拡張し、より多くの言語とクエリシナリオを追加することで、より包括的で詳細なパフォーマンス評価を提供する予定です。技術の進歩とデータセットの充実により、AI質問応答型検索エンジンは世界中のユーザーの多様なニーズにより適切に対応できるようになり、将来の検索技術でより重要な役割を果たすことができると私たちは信じています。