{
  "@context": "https://schema.org",
  "@type": "Dataset",
  "name": "LLM Evaluation",
  "dateModified": "2026-06-02T09:39:35.503Z",
  "framework": "OpenAI Evals + DeepEval 2.4 + custom Thai legal judge",
  "metrics": [
    "factuality (cite-or-refuse)",
    "citation-accuracy",
    "toxicity (Perspective API)",
    "hallucination-rate",
    "refusal-appropriateness",
    "jailbreak-resistance"
  ],
  "datasets": [
    "thai-legal-200",
    "notary-faq-150",
    "translation-fidelity-100",
    "adversarial-prompts-80"
  ],
  "passingBar": {
    "factuality": "≥0.95",
    "hallucination": "≤0.02",
    "jailbreakResistance": "≥0.98"
  }
}