Elamite Dataset Lab

Word2Vec Network Analysis of Ancient Elamite Texts

UntN-Nasu Collection | Linguistic Pattern Discovery | Phrase Boundary Detection

Overview

This project applies Word2Vec word embeddings and network graph analysis to a corpus of Elamite texts to explore how words form constructions and identify patterns that may assist with lemmatization and linked data representation.

Corpus Statistics
85 Documents	2,582 Tokens
649 Unique Words	1,397 Combined Edges

Bi-gram + Similarity Network Analysis

Methodology

We combine two types of linguistic relationships:

Relationship Type	What it captures	Edge Weight
Syntagmatic (Bi-gram)	Words appearing adjacent in text	Low (0.15 per occurrence)
Paradigmatic (Similarity)	Words with similar distributions	High (cosine × 1.5)
Reinforced (Both)	Fixed constructions	Combined

Combined Network

Cyan = bi-gram edges, Red = similarity edges, Gold = reinforced (both)

Fixed Constructions (Reinforced Edges)

32 word pairs that are BOTH adjacent AND distributionally similar

Centrality Analysis

Eigenvector = connected to important words | Bridging = connects different clusters

Edge Type Analysis

Distribution of syntagmatic vs paradigmatic relationships

Document Stylometry (PCA)

Documents positioned by vocabulary usage patterns

Key Findings

1. Fixed Constructions Identified

Word Pair	Similarity	Interpretation
`(d)in-šu-uš-na-ak — a-ak`	0.89	Divine name + connective
`dingir-gal — u2-me`	0.81	"Great god" + verbal marker
`ku-ši-ih — (d)in-šu-uš-na-ak`	0.81	Grammatical + divine name
`si-it-me — u2-me`	0.77	Verbal forms clustering

2. Clause Boundary Candidates

Word	Bridging Score	Hypothesis
`ku-ši-ih`	93.9	Connects different clause types
`a-ak`	83.0	Conjunction — joins clauses
`u2-me`	80.4	Verbal element

3. Royal Title Formula

(m)un-taš-dingir-gal  ša-ak  an-za-an  šu-šu-un-ka  su-un-ki-ik
[Royal name]          [?]    [Anshan]  [of Susa]    [king]

This bi-gram chain appears 66+ times — the standard royal titulary.

4. The `-me` Suffix Class

Words ending in -me form a tight distributional cluster, suggesting a verbal/participial marker:

u2-me, si-it-me, ta-ak-me, hu-us-si-ip-me

Original Network Analysis

Full Word Network

Node size = connectivity, Color = determinative type

Core Hub Words

Word Similarity Heatmap

Morphological Distribution

Interactive Visualizations

File	Description
`visualize_network.html`	Original similarity network explorer
`visualize_bigram_network.html`	Bi-gram + similarity network with edge type filtering

Open in browser to:

Toggle between edge types (bi-gram, similarity, reinforced)
Size nodes by eigenvector or bridging centrality
Search for specific words
Click nodes to explore connections

Project Structure

ElamiteDatasetLab/
│
├── Data & Models
│   ├── texts/                          # 85 document text files
│   ├── UntN-Nasu texts Word-level.csv  # Source data
│   └── elamite_word2vec.model          # Trained Word2Vec model
│
├── Network Analysis (Similarity)
│   ├── edges_similarity.csv            # Similarity edge list
│   ├── nodes_attributes.csv            # Node attributes
│   └── elamite_graph.json              # Full similarity graph
│
├── Network Analysis (Bi-gram + Similarity)
│   ├── bigram_similarity_edges.csv     # Combined edge list
│   ├── nodes_centrality.csv            # Eigenvector & bridging scores
│   ├── document_pca.csv                # Document stylometry
│   └── bigram_similarity_graph.json    # Combined graph
│
├── Visualizations
│   ├── visualize_network.html          # Interactive (similarity)
│   ├── visualize_bigram_network.html   # Interactive (combined)
│   ├── bigram_similarity_network.png   # Combined network
│   ├── reinforced_constructions.png    # Fixed constructions
│   ├── centrality_comparison.png       # Eigenvector vs bridging
│   ├── edge_type_analysis.png          # Edge distribution
│   ├── document_pca_space.png          # Stylometry
│   ├── network_overview.png            # Full network
│   ├── network_hub_subgraph.png        # Hub words
│   ├── similarity_heatmap.png          # Similarity matrix
│   └── morphological_distribution.png  # Suffix stats
│
├── Scripts
│   ├── generate_txt_files.py           # CSV → text files
│   ├── run_word2vec.py                 # Train Word2Vec
│   ├── analyze_embeddings.py           # Clustering analysis
│   ├── build_network_graph.py          # Similarity network
│   ├── bigram_similarity_network.py    # Combined network
│   ├── create_visualizations.py        # Similarity visualizations
│   └── create_bigram_visualizations.py # Combined visualizations
│
├── Reports
│   ├── LINGUISTIC_CONCLUSIONS.md       # Deep analysis findings
│   ├── bigram_similarity_report.txt    # Combined network report
│   ├── network_analysis_report.txt     # Similarity network report
│   └── Elamite_Word2Vec_Report.md      # Methodology report
│
└── Linked Data
    └── elamite_triples.nt              # RDF N-Triples

Usage

# 1. Generate text files from CSV
python3 generate_txt_files.py

# 2. Train Word2Vec model
python3 run_word2vec.py

# 3. Run embedding analysis
python3 analyze_embeddings.py

# 4. Build similarity network
python3 build_network_graph.py

# 5. Build bi-gram + similarity network
python3 bigram_similarity_network.py

# 6. Generate all visualizations
python3 create_visualizations.py
python3 create_bigram_visualizations.py

Requirements:

pip install gensim scikit-learn numpy matplotlib networkx

Linked Data Export

Ready for knowledge graph representation:

bigram_similarity_edges.csv — Import into Gephi with edge type column
elamite_triples.nt — RDF N-Triples format
nodes_centrality.csv — Node attributes for SPARQL

Team

Parsa Faraji & Adam Anderson

License

For academic use.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Elamite Dataset Lab

Overview

Bi-gram + Similarity Network Analysis

Methodology

Combined Network

Fixed Constructions (Reinforced Edges)

Centrality Analysis

Edge Type Analysis

Document Stylometry (PCA)

Key Findings

1. Fixed Constructions Identified

2. Clause Boundary Candidates

3. Royal Title Formula

4. The `-me` Suffix Class

Original Network Analysis

Full Word Network

Core Hub Words

Word Similarity Heatmap

Morphological Distribution

Interactive Visualizations

Project Structure

Usage

Linked Data Export

Team

License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
archibab_metadata		archibab_metadata
data/um_elamita		data/um_elamita
scripts		scripts
texts		texts
.gitignore		.gitignore
Basic_Word2Vec-2.ipynb		Basic_Word2Vec-2.ipynb
Elamite_Word2Vec.ipynb		Elamite_Word2Vec.ipynb
Elamite_Word2Vec_Report.md		Elamite_Word2Vec_Report.md
LICENSE		LICENSE
LINGUISTIC_CONCLUSIONS.md		LINGUISTIC_CONCLUSIONS.md
README.md		README.md
UntN-Nasu texts Word-level with similarity.csv		UntN-Nasu texts Word-level with similarity.csv
UntN-Nasu texts Word-level.csv		UntN-Nasu texts Word-level.csv
analyze_embeddings.py		analyze_embeddings.py
bigram_similarity_edges.csv		bigram_similarity_edges.csv
bigram_similarity_graph.json		bigram_similarity_graph.json
bigram_similarity_network.png		bigram_similarity_network.png
bigram_similarity_network.py		bigram_similarity_network.py
bigram_similarity_report.txt		bigram_similarity_report.txt
build_network_graph.py		build_network_graph.py
centrality_comparison.png		centrality_comparison.png
community_structure.png		community_structure.png
create_bigram_visualizations.py		create_bigram_visualizations.py
create_visualizations.py		create_visualizations.py
document_pca.csv		document_pca.csv
document_pca_space.png		document_pca_space.png
edge_type_analysis.png		edge_type_analysis.png
edges_similarity.csv		edges_similarity.csv
elamite_graph.json		elamite_graph.json
elamite_triples.nt		elamite_triples.nt
elamite_word2vec.model		elamite_word2vec.model
embedding_insights.txt		embedding_insights.txt
generate_txt_files.py		generate_txt_files.py
morphological_distribution.png		morphological_distribution.png
network_analysis_report.txt		network_analysis_report.txt
network_hub_subgraph.png		network_hub_subgraph.png
network_overview.png		network_overview.png
network_summary.json		network_summary.json
nodes_attributes.csv		nodes_attributes.csv
nodes_centrality.csv		nodes_centrality.csv
reinforced_constructions.png		reinforced_constructions.png
run_word2vec.py		run_word2vec.py
similarity_heatmap.png		similarity_heatmap.png
visualize_bigram_network.html		visualize_bigram_network.html
visualize_network.html		visualize_network.html
word_clusters.txt		word_clusters.txt
word_similarities.csv		word_similarities.csv

Folders and files

Latest commit

History

Repository files navigation

Elamite Dataset Lab

Overview

Bi-gram + Similarity Network Analysis

Methodology

Combined Network

Fixed Constructions (Reinforced Edges)

Centrality Analysis

Edge Type Analysis

Document Stylometry (PCA)

Key Findings

1. Fixed Constructions Identified

2. Clause Boundary Candidates

3. Royal Title Formula

4. The -me Suffix Class

Original Network Analysis

Full Word Network

Core Hub Words

Word Similarity Heatmap

Morphological Distribution

Interactive Visualizations

Project Structure

Usage

Linked Data Export

Team

License

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

4. The `-me` Suffix Class

Packages