Telegram中文语料库TUMCC:专业术语识别领域的宝库

TUMCC,一个专注于Telegram地下市场中文语料库的专业术语识别资源。收集了19821位用户在12个群组中的句子,经过数据筛选和分词,方便使用,并有GitHub上的整理版。

4AI工具Telegram语料库专业术语识别数据收集GitHub项目

Telegram中文语料库TUMCC简介

TUMCC,即Telegram地下市场中文语料库,是一个专注于专业术语识别领域的宝贵资源。该语料库共收集了来自12个Telegram群组的19821位用户的28749个句子,包含804,971个字符。在发布前,这些数据已经过严格的筛选和分词处理,使用起来非常便捷。此外,为了方便研究者,TUMCC还提供了整理后的版本,可供下载学习。

Telegram地下市场中文语料库-TUMCC

Telegram地下市场中文语料库-TUMCC

获取方式

想要获取TUMCC的详细信息,可以访问GitHub项目页面