CodeR-RAG

Retrieval-Augmented Generation for Code Intelligence

CodeR-RAG is an end-to-end retrieval-augmented system built on top of CodeR, a state-of-the-art code embedding model trained using a massive synthetic dataset (CodeR-Pile). This framework brings high-accuracy code retrieval, multi-language code understanding, and task-aware augmentation directly to LLM-based developer tools.

Features

State-of-the-Art Code Retrieval

Powered by CodeR embeddings, optimized for:

Text2Code (e.g., natural language → code examples)
Code2Text (summaries, explanations, API usage)
Code2Code (similar code, translation, refinement)
Hybrid retrieval (bug fixing, optimization, style, security)

Full RAG Pipeline

The system includes:

Document ingestion + code parsing
Embedding generation (instruction-aware InfoNCE)
Vector storage (FAISS / LanceDB / Milvus)
Query routing + retrieval
Augmentation formatting
LLM generation modules

Multi-language Support

CodeR-RAG supports retrieval across 20 programming languages, including: Python, Java, Go, C++, TypeScript, Rust, C#, PHP…

Synthetic Data Extensions

Includes tools and prompts to extend CodeR-Pile using the DRU principle:

Diversity (multiple task types)
Reliability (LLM and GPT-filtered)
Usability (instruction-aware queries)

Modular and Production-Ready

Easily swap:

Embedding models (CodeR or custom)
LLMs for generation
Vector DB backends
Chunking & parsing strategies

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
CodeRAG_encoder		CodeRAG_encoder
README.md		README.md
code_optimization_retrieval.json		code_optimization_retrieval.json
code_optimization_retrieval_initial.json		code_optimization_retrieval_initial.json
code_translation_retrieval.json		code_translation_retrieval.json
code_translation_retrieval_initial.json		code_translation_retrieval_initial.json
config.json		config.json
config_sentence_transformers.json		config_sentence_transformers.json
data_generation (1).py		data_generation (1).py
en-sql-to-sql-triplets.jsonl		en-sql-to-sql-triplets.jsonl
modules.json		modules.json
rag_evaluation_metrics (1) (1).py		rag_evaluation_metrics (1) (1).py
rag_query (1).py		rag_query (1).py
text2sql_initial_samples.json		text2sql_initial_samples.json
train_full_encoder (1).py		train_full_encoder (1).py
vectorbase (1).py		vectorbase (1).py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CodeR-RAG

Retrieval-Augmented Generation for Code Intelligence

Features

State-of-the-Art Code Retrieval

Full RAG Pipeline

Multi-language Support

Synthetic Data Extensions

Modular and Production-Ready

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

CodeR-RAG

Retrieval-Augmented Generation for Code Intelligence

Features

State-of-the-Art Code Retrieval

Full RAG Pipeline

Multi-language Support

Synthetic Data Extensions

Modular and Production-Ready

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages