# メトリクスの精度をテストする

ビルトインメトリクスおよびカスタムメトリクスは、メトリクスの詳細画面から評価精度をテストできます。

メトリクスプレイグラウンドは、メトリクスの詳細画面から開くことができます。サイドバーの `評価ライブラリ`から `評価カテゴリ` を選択し、テストしたいメトリクスの詳細画面を開いてください。

自由入力または AI 生成データセットを使って、メトリクスが入力ログや出力ログを意図したとおりに判定できるかを確認できます。

### テスト方法を選択する

メトリクスの評価精度は、以下の 2 つの方法でテストできます。

<table><thead><tr><th width="181.5703125">テスト方法</th><th>概要</th><th>利用するケース</th></tr></thead><tbody><tr><td>自由入力</td><td>任意の入力文や出力文を入力し、1 件ずつ判定内容を確認します</td><td>特定のケースに対して、メトリクスが意図どおりに判定できるかをすぐに確認したい場合</td></tr><tr><td>AI 生成データセット</td><td>AI が生成した複数のテストデータを使って、まとめて評価精度を確認します</td><td>さまざまなパターンに対して、メトリクスの判定傾向や精度を確認したい場合</td></tr></tbody></table>

### 自由入力で評価精度を確認する

自由入力では、任意のテストデータを入力し、メトリクスが意図したとおりに判定できるかを 1 件ずつ確認できます。

#### 入力内容を設定する

入力を対象とするメトリクスの場合は、ユーザープロンプトを入力してください。

出力を対象とするメトリクスの場合は、ユーザープロンプトとアシスタント応答の両方を入力してください。

入力内容を設定したら、`評価を実行` を選択してください。

#### 判定結果を確認する

評価を実行すると、モデルごとの判定結果とレイテンシが表示されます。

判定結果では、入力したテストデータに対して、対象のメトリクスが Pass または Fail のどちらとして判定したかを確認できます。Remote タイプのメトリクスでは、高精度モデルと高速モデルなど、利用可能なモデルごとの判定結果を比較できます。

レイテンシには、各モデルで評価に要した時間が表示されます。判定結果とあわせて確認することで、評価精度とレスポンスタイムのバランスを確認できます。

<figure><img src="/files/NfNDF4dgZYzLSFmRNyKa" alt=""><figcaption></figcaption></figure>

### AI 生成データセットで評価精度を確認する

AI 生成データセットでは、指定したユースケースに基づいて Citadel Radar が評価用データセットを自動生成し、メトリクスの評価精度をまとめて確認できます。

自由入力が特定の 1 件に対する判定確認に向いているのに対し、AI 生成データセットは、複数のテストケースに対する判定傾向や精度を確認したい場合に適しています。

#### 評価データセットを作成する

`AI 生成データセット` タブを選択し、評価データセットを作成してください。

評価データセットを作成する際は、対象となるユースケースを入力します。たとえば、金融機関が提供するカスタマーチャットボットなど、評価したい AI アプリケーションの利用シーンを入力してください。

ユースケースを入力したら、`生成を開始` を選択してください。

<figure><img src="/files/NMyx7IXP6DFF7jZlowUb" alt="" width="375"><figcaption></figcaption></figure>

#### 評価精度を確認する

評価データセットの生成が完了すると、正答率と評価結果一覧が表示されます。

正答率では、生成された評価データセットに対して、メトリクスがどの程度正しく判定できているかを確認できます。

<figure><img src="/files/zlhnybrJQHa3NVZpNUeG" alt="" width="563"><figcaption></figcaption></figure>

#### モデルとボーダーの扱いを変更する

評価精度を確認する際は、使用するモデルとボーダーの扱いを変更できます。

モデルを変更すると、高精度モデルと高速モデルなど、モデルごとの判定傾向を比較できます。

ボーダーの扱いでは、判定が境界付近にあるテストデータを Pass として扱うか、Fail として扱うかを選択できます。設定を変更すると、正答率や評価結果一覧に反映されます。

#### 具体的なケースを確認する

評価結果一覧では、各テストデータについて、ユーザープロンプト、アシスタント応答、正解ラベル、メトリクスによる判定、ボーダー判定を確認できます。

正解ラベルとメトリクスによる判定を比較することで、どのようなケースで正しく判定できているか、または誤判定が発生しているかを確認できます。

誤判定のみを確認したい場合は、`誤判定のみ表示` を有効にしてください。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.radar.citadel-ai.com/operations-guide/evaluation-library/playground.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
テスト方法	概要	利用するケース
自由入力	任意の入力文や出力文を入力し、1 件ずつ判定内容を確認します	特定のケースに対して、メトリクスが意図どおりに判定できるかをすぐに確認したい場合
AI 生成データセット	AI が生成した複数のテストデータを使って、まとめて評価精度を確認します	さまざまなパターンに対して、メトリクスの判定傾向や精度を確認したい場合