Automatic Extraction of Clausal Embedding Based on Large-Scale English Text Data

Iona Carslaw; Sivan Milton; Nicolas Navarre; Ciyang Qing; Wataru Uegaki

doi:10.7275/scil.3151

Options

Paper

Automatic Extraction of Clausal Embedding Based on Large-Scale English Text Data

Authors

Iona Carslaw
Sivan Milton
Nicolas Navarre
Ciyang Qing
Wataru Uegaki

Abstract

For linguists, embedded clauses have been of special interest because of their intricate distribution of syntactic and semantic features. Yet, current research relies on schematically created language examples to investigate these constructions, missing out on statistical information and naturally-occurring examples that can be gained from large language corpora. Thus, we present a methodological approach for detecting and annotating naturally-occurring examples of English embedded clauses in large-scale text data using constituency parsing and a set of parsing heuristics. Our tool has been evaluated on our dataset Golden Embedded Clause Set (GECS), which includes hand-annotated examples of naturally-occurring English embedded clause sentences. Finally, we present a large-scale dataset of naturally-occurring English embedded clauses which we have extracted from the open-source corpus Dolma using our extraction tool.

How to Cite:

Carslaw, I., Milton, S., Navarre, N., Qing, C. & Uegaki, W., (2025) “Automatic Extraction of Clausal Embedding Based on Large-Scale English Text Data”, Society for Computation in Linguistics 8(1): 12. doi: https://doi.org/10.7275/scil.3151

Downloads:
Download PDF

431 Views

155 Downloads

Published on
2025-06-12

Peer Reviewed

License

Creative Commons Attribution 4.0

Authors

Iona Carslaw
Sivan Milton
Nicolas Navarre
Ciyang Qing
Wataru Uegaki

Publication details

Article Number: 12
Submitted on: 2025-05-30
Accepted on: 2025-06-12

File Checksums (MD5)

PDF: 1e02c58d31e28a33e2a2a101f6d2181b

Automatic Extraction of Clausal Embedding Based on Large-Scale English Text Data

Abstract

Harvard-Style Citation

Vancouver-Style Citation

APA-Style Citation

Non Specialist Summary