FlashMatch Neural Network Project

This project implements deep learning models to match optical flashes with charged particle tracks in liquid argon time projection chambers (LArTPC) for neutrino physics experiments. The core challenge is predicting the expected light pattern (photoelectron counts on photomultiplier tubes) from 3D particle trajectories.

Project Overview

The Physics Problem

In liquid argon detectors, charged particles create two types of signals:

Ionization tracks: 3D trajectories reconstructed from wire chamber data
Scintillation light: Optical flashes detected by photomultiplier tubes (PMTs)

The goal is to train neural networks that can predict the expected PMT light pattern given a 3D particle track, enabling better event reconstruction and particle identification.

Technical Approach

Input: 3D voxelized particle tracks with charge information
Output: Predicted photoelectron (PE) counts for 32 PMTs
Models: MLP, SIREN, and sparse convolutional architectures
Loss Functions: Poisson negative log-likelihood with Earth Mover's Distance (EMD)

Code Organization

flashmatchdata_petastorm/
├── flashmatchnet/              # Main Python package
│   ├── data/                   # Data loading and preprocessing
|   |   ├── read_flashmatch_hdf5.py # Read the current training data
|   |   ├── flashmatch_mixup.py # Load the training data. Mix two examples together when loading.
│   │   ├── petastormschema.py  # (deprecated) Legacy Petastorm data schema
│   │   ├── reader.py           # (deprecated) Legacy Petastorm data reader
│   │   ├── flashmatchdata.py   # (deprecated) Legacy data utilities
|   |   └── flashmatch_hdf5_reader.py # (deprecated) Legacy PyTorch DataLoader for HDF5
│   ├── model/                  # Neural network architectures
│   │   ├── flashmatchMLP.py    # Multi-layer perceptron model
│   │   └── ...                 # Other model architectures
│   ├── losses/                 # Loss function implementations
│   │   └── loss_poisson_emd.py # Main loss function
│   └── utils/                  # Utility functions
│       ├── pmtutils.py         # PMT geometry utilities
│       └── coord_and_embed_functions.py # Coordinate embeddings
├── dependencies/               # Git submodules
│   ├── geomloss/              # Optimal transport losses
│   └── siren-pytorch/         # SIREN neural networks
├── data_prep/                 # Code and scripts to prepare training data [see data_prep/README.md](./data_prep/README.md)
├── mcstudy_prep/              # (deprecated) Corsika-simulation MC Data preparation scripts 
├── analysis/                  # Analysis and visualization tools (TODO)
│
# New HDF5 Data System (Recommended)
├── arxiv/flashmatch_hdf5_writer.py  # Convert ROOT → HDF5
├── arxiv/train_mlp_hdf5.py          # Training script using HDF5
├── arxiv/example_hdf5_usage.py      # Example usage and testing
│
# Legacy Petastorm System (deprecated)
├── arvix/make_flashmatch_training_data.py  # Convert ROOT → Petastorm
├── arvix/train_mlp.py               # MLP training (Petastorm)
├── arxiv/train_siren.py             # SIREN training (Petastorm). Used on "v3" data. Trained relatively well.
├── arxiv/train_lightmodel.py        # Light model training
│
# Analysis and Inference (deprecated)
├── arxiv/model_inference_analysis.py # Run inference on trained models
├── arxiv/data_studies.py            # Data exploration scripts
├── arxiv/view_flashmatch_data.ipynb # Jupyter notebook for visualization
│
# Job Submission (HPC)
├── submit_train_mlp_p1cmp075.sh # SLURM job submission script
└── setenv.sh                  # Environment setup

Training Data

What is the Training Data?

The training data consists of matched pairs of:

3D Voxelized Tracks: Particle trajectories discretized into 5cm³ voxels
- Coordinates: (x,y,z) indices in the voxel grid
- Features: Charge deposition per wire plane (3 values per voxel)
- Truth Labels: Particle ancestor ID for physics interpretation
PMT Flash Data: Measured light signals
- Flash PE: Photoelectron counts for each of 32 PMTs
- Timing: Flash time matched to particle crossing time
- Quality: Filtered for reasonable PE thresholds

Data Schema

Each training example contains:

{
    'sourcefile': str,     # Source ROOT filename
    'run': int32,          # Run number
    'subrun': int32,       # Subrun number  
    'event': int32,        # Event number
    'matchindex': int32,   # Flash index within event
    'ancestorid': int32,   # Particle ancestor ID
    'coord': int64[N,3],   # Voxel coordinates (N voxels)
    'feat': float32[N,3],  # Charge features per plane
    'flashpe': float32[1,32] # PE counts for 32 PMTs
}

How Training Data is Created

Option 1: HDF5 Pipeline (Recommended)

Script: flashmatch_hdf5_writer.py

python flashmatch_hdf5_writer.py \
  -o output_data.h5 \
  -lcv /path/to/larcv_truth.root \
  -mc /path/to/mcinfo.root \
  -op /path/to/opreco.root \
  -n 1000  # number of events to process

Process:

Input Files:
- larcv_truth.root: Wire plane images and truth particle information
- mcinfo.root: Monte Carlo truth information
- opreco.root: Reconstructed optical flashes
Voxelization: Uses VoxelizeTriplets class to:
- Convert 2D wire images to 3D spacepoints
- Apply truth labels from simulation
- Group spacepoints into 5cm voxels
- Correct for drift time using truth information
Flash Matching: Uses OpModelMCDataPrep utility to:
- Match reconstructed flashes to true particle information
- Filter good quality matches
- Extract PMT PE values
Output: Single HDF5 file with variable-length arrays

Data Preprocessing

Key preprocessing steps in both pipelines:

TPC Boundary Filtering: Remove voxels outside detector volume
Coordinate Normalization: Subtract TPC origin for relative coordinates
Charge Normalization: Scale charge values to reasonable ranges
PE Normalization: Scale photoelectron counts for neural network training

Model Training

Available Models

FlashMatchMLP (flashmatchnet/model/flashmatchMLP.py)
- Multi-layer perceptron with coordinate embeddings
- Input: 112 features (coordinates + embeddings + charge)
- Output: 32 PMT predictions
SIREN Models (train_siren_hdf_data_v2.py)
- Sinusoidal representation networks
- Good for continuous coordinate spaces
Sparse Convolutional Models
- Use MinkowskiEngine for efficient 3D convolutions
- Handle variable-size voxel inputs
- Still a TODO

Training Scripts

SIREN Model (Recommended)

# TODO: show more accurate example of running training script
python3 train_siren_hdf_data_v2.py

Key Training Components

Loss Function (flashmatchnet/losses/loss_poisson_emd.py):

PoissonNLLwithEMDLoss(magloss_weight=1.0,
                      mag_loss_on_sum=False, 
                      full_poisson_calc=False)

Poisson negative log-likelihood for total PE predictions
Earth Mover's Distance for spatial pattern matching

Data Loading:
- Batch size: typically 32
- Workers: 4 parallel data loading processes
- Shuffle: enabled for training
Optimization:
- AdamW optimizer
- Learning rates: 1e-5 (general), 1e-7 (light yield parameter)
- Checkpointing every 1000 iterations

HPC Job Submission

For long training runs on compute clusters:

# Edit paths in submit script first
sbatch submit_train_mlp_p1cmp075.sh

Uses Singularity containers with pre-installed dependencies.

Inference and Analysis

Running Inference

Main Script: model_inference_analysis.py

This script loads trained models and runs inference on test data to evaluate performance.

Key Functions:

Model Loading: Load checkpoint files with trained weights
Data Processing: Prepare test examples in same format as training
Prediction: Run forward pass through trained network
Metrics Calculation: Compare predictions to ground truth

Analysis Tools

Data Exploration (data_studies.py):
- Analyze training data distributions
- Visualize voxel patterns and PMT responses
- Quality control checks
Interactive Analysis (view_flashmatch_data.ipynb):
- Jupyter notebook for detailed data inspection
- 3D visualization of particle tracks
- PMT pattern analysis
Validation Metrics (flashmatchnet/utils/trackingmetrics.py):
- Physics-motivated performance metrics
- Flash-matching efficiency calculations
- Spatial resolution measurements

Key Analysis Outputs

Prediction vs Truth Plots: Compare predicted and actual PE patterns
Residual Analysis: Study systematic biases in predictions
Efficiency Curves: Flash-matching performance vs various cuts
Physics Validation: Verify model makes physical sense

Performance Metrics

Common metrics for evaluating models:

Poisson NLL: Primary loss function value
Mean Absolute Error: Simple PE prediction accuracy
Earth Mover's Distance: Spatial pattern similarity
Flash Matching Efficiency: Physics-level performance

Getting Started

Prerequisites

# Set up environment (adds dependencies to Python path)
source setenv.sh

# Required packages:
# - PyTorch, MinkowskiEngine
# - h5py (for HDF5 data)
# - ROOT, larcv, larlite (for physics libraries)
# - wandb (for experiment tracking)

Quick Start

Test the HDF5 system:
```
python example_hdf5_usage.py --all
```

Create training data (if you have ROOT files):

python flashmatch_hdf5_writer.py \
  -o test_data.h5 \
  -lcv your_larcv_file.root \
  -mc your_mcinfo_file.root \
  -op your_opreco_file.root \
  -n 100  # small test dataset

Train a model (after editing file paths):
```
python train_mlp_hdf5.py
```
Monitor training:
- Check terminal output for loss values
- View Weights & Biases dashboard if enabled
- Check checkpoint files in checkpoint directory

Development Workflow

Data Preparation: Create HDF5 training data from ROOT files
Model Development: Modify architectures in flashmatchnet/model/
Training: Run training scripts with different hyperparameters
Evaluation: Use analysis scripts to assess model performance
Iteration: Refine based on physics validation

Key Files Reference

Most Important Files for New Developers

File	Purpose	When to Modify
`flashmatch_hdf5_writer.py`	Create training data	Change data processing logic
`flashmatchnet/data/flashmatch_hdf5_reader.py`	Load training data	Modify data augmentation
`train_mlp_hdf5.py`	Train MLP model	Adjust training parameters
`flashmatchnet/model/flashmatchMLP.py`	MLP architecture	Change model design
`flashmatchnet/losses/loss_poisson_emd.py`	Loss function	Modify training objective
`model_inference_analysis.py`	Run inference	Evaluate trained models
`example_hdf5_usage.py`	Test/debug system	Understanding data format

Configuration Files

File paths and hyperparameters are typically hardcoded in training scripts
Edit the constants at the top of training scripts to change:
- Data file locations
- Batch size, learning rate
- Checkpoint directories
- Weights & Biases settings

Common Issues

File Paths: Update hardcoded paths in training scripts
Dependencies: Ensure physics libraries (ROOT, larcv, larlite) are available
Memory: Large datasets may require adjustment of batch size or workers
CUDA: Verify GPU availability for training

This codebase represents a complete pipeline from raw detector simulation data to trained neural networks for neutrino physics applications. The HDF5 system provides a more maintainable and efficient approach compared to the legacy Petastorm infrastructure.

Name		Name	Last commit message	Last commit date
Latest commit History 177 Commits
analysis		analysis
arxiv		arxiv
data_prep		data_prep
dependencies		dependencies
flashmatchnet		flashmatchnet
mcstudy_prep		mcstudy_prep
notes		notes
studies/fvis_scan		studies/fvis_scan
.gitignore		.gitignore
.gitmodules		.gitmodules
CLAUDE.md		CLAUDE.md
README.md		README.md
config_inference_mlp_hdf5_data.yaml		config_inference_mlp_hdf5_data.yaml
config_inference_siren_hdf5_data.yaml		config_inference_siren_hdf5_data.yaml
config_mlp_hdf5_data.yaml		config_mlp_hdf5_data.yaml
config_siren_hdf5_data.yaml		config_siren_hdf5_data.yaml
config_siren_hdf5_mccorsika_multigpu.yaml		config_siren_hdf5_mccorsika_multigpu.yaml
config_siren_hdf5_mccorsika_multigpu2.yaml		config_siren_hdf5_mccorsika_multigpu2.yaml
config_trace_mlp_model.yaml		config_trace_mlp_model.yaml
config_trace_siren_model.yaml		config_trace_siren_model.yaml
inference_validation_test_dataset.txt		inference_validation_test_dataset.txt
make_siren_trace.py		make_siren_trace.py
plot_inference_outputs.py		plot_inference_outputs.py
run_siren_inference.py		run_siren_inference.py
run_train_siren_hdf5_data_v2.sh		run_train_siren_hdf5_data_v2.sh
run_train_siren_hdf5_extbnb_multigpu.sh		run_train_siren_hdf5_extbnb_multigpu.sh
run_train_siren_hdf5_mccorsika_multigpu.sh		run_train_siren_hdf5_mccorsika_multigpu.sh
run_train_siren_hdf5_mccorsika_multigpu2.sh		run_train_siren_hdf5_mccorsika_multigpu2.sh
setenv.sh		setenv.sh
setenv_flashmatchdata.sh		setenv_flashmatchdata.sh
submit_train_mlp_p1cmp075.sh		submit_train_mlp_p1cmp075.sh
submit_train_siren_hdf5_data_v2.sh		submit_train_siren_hdf5_data_v2.sh
submit_train_siren_hdf5_mccorsika_multigpu.sh		submit_train_siren_hdf5_mccorsika_multigpu.sh
submit_train_siren_hdf5_mccorsika_multigpu2.sh		submit_train_siren_hdf5_mccorsika_multigpu2.sh
train_siren_hdf5_data_v2.py		train_siren_hdf5_data_v2.py
train_siren_hdf5_mccorsika_v2_multigpu.py		train_siren_hdf5_mccorsika_v2_multigpu.py

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

FlashMatch Neural Network Project

Table of Contents

Project Overview

The Physics Problem

Technical Approach

Code Organization

Training Data

What is the Training Data?

Data Schema

How Training Data is Created

Option 1: HDF5 Pipeline (Recommended)

Data Preprocessing

Model Training

Available Models

Training Scripts

SIREN Model (Recommended)

Key Training Components

HPC Job Submission

Inference and Analysis

Running Inference

Analysis Tools

Key Analysis Outputs

Performance Metrics

Getting Started

Prerequisites

Quick Start

Development Workflow

Key Files Reference

Most Important Files for New Developers

Configuration Files

Common Issues

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages