# 評価ライブラリを管理する

評価ライブラリでは、LLM アプリケーションを評価するためのメトリクス関連のリソースを管理できます。

評価ライブラリで確認・作成した評価メトリクスや評価パッケージをアプリケーションに紐づけることで、入力ログや出力ログを評価し、AI システムにおけるリスクを検知できます。

このページでは、評価ライブラリを理解するための基本概念として、評価カテゴリと評価メトリクスの関係について説明します。

### 評価カテゴリとは

評価カテゴリは、関連する評価メトリクスをまとめるための分類です。

たとえば、`組織機密の開示` のような評価カテゴリには、入力を対象とする評価メトリクスや出力を対象とする評価メトリクスが含まれます。各評価メトリクスはバージョン管理されており、複数のバージョンを管理できます。

評価カテゴリを確認することで、どのようなリスク観点に対して評価メトリクスが用意されているかを把握できます。

#### 補足：評価カテゴリと評価メトリクスの関係

{% hint style="success" %}
評価カテゴリは、リスクや脅威の観点を定義する単位です。評価カテゴリによって、登録される評価メトリクスの対象は異なります。

**入力にリスクや脅威が含まれるケース**\
ユーザー入力そのものに、リスクのある情報や指示が含まれるケースです。\
たとえば、`個人情報の入力` カテゴリでは、ユーザー入力に機微な個人情報が含まれていないかを評価するため、入力を対象とするメトリクスのみが登録されています。

**出力にリスクや脅威が含まれるケース**\
LLM の出力に、検知すべき内容が含まれるケースです。\
問題のある出力が生成されていないかに加えて、その出力を引き出そうとする入力も評価します。\
たとえば、`個人情報の開示` カテゴリでは、個人情報の取得や推測を目的とした質問・指示を評価する入力メトリクスと、実際に個人情報を含む出力が生成されていないかを評価する出力メトリクスが登録されています。
{% endhint %}

### 評価メトリクスとは

評価メトリクスは、Citadel Radar がリスクを検知するために使用する評価基準です。

評価メトリクスには、主に以下の 2 種類があります。

<table><thead><tr><th width="197.90625">メトリクスの種類</th><th>概要</th></tr></thead><tbody><tr><td>ビルトインメトリクス</td><td>Radar にあらかじめ用意されている評価メトリクスです。一般的なリスク観点に対して、そのまま利用できます。</td></tr><tr><td>カスタムメトリクス</td><td>自社固有の評価基準、ガイドライン、規定などに合わせて作成できる評価メトリクスです。</td></tr></tbody></table>

ビルトインメトリクスの詳細は、 [ビルトインメトリクスを確認する](/operations-guide/evaluation-library/built-in-metrics.md) を参照してください。

カスタムメトリクスの作成方法は、 [カスタムメトリクスを作成する](/operations-guide/evaluation-library/custom-metrics.md) を参照してください。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.radar.citadel-ai.com/operations-guide/evaluation-library.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
メトリクスの種類	概要
ビルトインメトリクス	Radar にあらかじめ用意されている評価メトリクスです。一般的なリスク観点に対して、そのまま利用できます。
カスタムメトリクス	自社固有の評価基準、ガイドライン、規定などに合わせて作成できる評価メトリクスです。