COL - Empowered by high-quality data with training of large Al models

Publications Dataset

Officially published, legitimate, and copyrighted ebooks across major disciplines.

View Dataset

Web Novels Dataset

Hand-picked high-quality Chinese web novels; fully customizable for specific needs.

View Dataset

Parallel Corpus Dataset

Large-scale multilingual parallel sentence pairs and document-level parallel pairs.

View Dataset

Scripts Dataset

Chinese and English scripts across film/TV/stage/anime/comedy and more.

View Dataset

Art Auction Image–Text Dataset

Fine art & auction image-text pairs with rich metadata; 1080P images.

View Dataset

Educational Video–Text Dataset

Lecture videos with timestamped subtitles (MD LaTeX / SRT phonetic formulas).

View Dataset

Video Q&A Dataset

Each video includes 2 questions (MCQ + short answer) for reasoning and comprehension.

View Dataset

Text–Image Paired Dataset

Process-aligned image-text groups for instruction following and consistency tasks.

View Dataset

Front-End Coding Dataset

Runnable front-end projects: websites, dashboards, admin panels, games, and 3D scenes.

View Dataset

Professional Certification Exam Dataset

Exam questions across public security, civil service, medical, law, engineering, finance, and more.

View Dataset

K12 Exam Questions Dataset (With Images)

Multi-subject questions with structured fields for difficulty, analysis, subject, and more.

View Dataset

Programming Competition Problems Dataset

Algorithmic problems with multi-language solutions and optional images per item.

View Dataset

Multilingual Competition Questions Dataset

Real competition questions with structured fields for question, answer, and explanation.

View Dataset

Multilingual Handwritten OCR Dataset

OCR dataset covering 12 languages for text spotting and document/layout understanding.

View Dataset

English & LCTLs Academic Papers Dataset

Academic papers across disciplines and degrees with strong long-context coverage.

View Dataset

Technical Documentation Dataset

Latest technical documentation from installation to operation and maintenance workflows.

View Dataset

3-Model High-Difficulty Test Questions Dataset

Undergrad+ science questions validated via three models with rich annotation fields.

View Dataset

High-Difficulty Physics Test Questions Dataset (ChatGPT o3)

Undergrad+ physics; o3 attempts reasoning 10 times; average pass rate < 30%.

View Dataset

Original Informatics Competition Questions Dataset

NOI-benchmark difficulty with complete per-question package: code, tests, and solutions.

View Dataset

Structured High-Emotional-Intelligence Dataset

High-EQ framework with evaluation criteria and multi-turn dialogues across 500+ categories.

View Dataset

Publications Dataset

Officially published, legitimate, and copyrighted ebooks across major disciplines.

View Dataset

Web Novels Dataset

Hand-picked high-quality Chinese web novels; fully customizable for specific needs.

View Dataset

Parallel Corpus Dataset

Large-scale multilingual parallel sentence pairs and document-level parallel pairs.

View Dataset

Scripts Dataset

Chinese and English scripts across film/TV/stage/anime/comedy and more.

View Dataset

Art Auction Image–Text Dataset

Fine art & auction image-text pairs with rich metadata; 1080P images.

View Dataset

Educational Video–Text Dataset

Lecture videos with timestamped subtitles (MD LaTeX / SRT phonetic formulas).

View Dataset

Video Q&A Dataset

Each video includes 2 questions (MCQ + short answer) for reasoning and comprehension.

View Dataset

Text–Image Paired Dataset

Process-aligned image-text groups for instruction following and consistency tasks.

View Dataset

Front-End Coding Dataset

Runnable front-end projects: websites, dashboards, admin panels, games, and 3D scenes.

View Dataset

Professional Certification Exam Dataset

Exam questions across public security, civil service, medical, law, engineering, finance, and more.

View Dataset

K12 Exam Questions Dataset (With Images)

Multi-subject questions with structured fields for difficulty, analysis, subject, and more.

View Dataset

Programming Competition Problems Dataset

Algorithmic problems with multi-language solutions and optional images per item.

View Dataset

Multilingual Competition Questions Dataset

Real competition questions with structured fields for question, answer, and explanation.

View Dataset

Multilingual Handwritten OCR Dataset

OCR dataset covering 12 languages for text spotting and document/layout understanding.

View Dataset

English & LCTLs Academic Papers Dataset

Academic papers across disciplines and degrees with strong long-context coverage.

View Dataset

Technical Documentation Dataset

Latest technical documentation from installation to operation and maintenance workflows.

View Dataset

3-Model High-Difficulty Test Questions Dataset

Undergrad+ science questions validated via three models with rich annotation fields.

View Dataset

High-Difficulty Physics Test Questions Dataset (ChatGPT o3)

Undergrad+ physics; o3 attempts reasoning 10 times; average pass rate < 30%.

View Dataset

Original Informatics Competition Questions Dataset

NOI-benchmark difficulty with complete per-question package: code, tests, and solutions.

View Dataset

Structured High-Emotional-Intelligence Dataset

High-EQ framework with evaluation criteria and multi-turn dialogues across 500+ categories.

View Dataset

Datasets