Paper-Conference

KnowMT-Bench: Benchmarking Knowledge-Intensive Long-Form Question Answering in Multi-Turn Dialogues

KnowMT-Bench: Benchmarking Knowledge-Intensive Long-Form Question Answering in Multi-Turn Dialogues

First-ever benchmark for evaluating multi-turn long-form question answering in knowledge-intensive domains.

Sep 26, 2025

Interpreting Fedspeak with Confidence: A LLM-Based Uncertainty-Aware Framework

Interpreting Fedspeak with Confidence: A LLM-Based Uncertainty-Aware Framework

An LLM-based uncertainty-aware framework for interpreting Federal Reserve communications with enhanced reliability.

Aug 12, 2025

Compliance-to-Code: Enhancing Financial Compliance Checking via Code Generation

Compliance-to-Code: Enhancing Financial Compliance Checking via Code Generation

The first large-scale Chinese dataset for financial regulatory compliance with automated checking pipeline.

May 19, 2025