- 相關推薦
語料格式要求
語料格式要求
1.原始語料的電子文本。
1.1 文件夾名用來表示課文的出處
文件夾名稱格式:地區(qū)_出版商_出版時間_版本代號_學科代號_年級
如: cn_rj_2001_6_yw_6
文件夾名語義:中國大陸/人民教育出版社/2001年出版/第六版/語文/六年級的語料。
1.2 文件以課文為單位存放在相應的文件夾下
課文以第幾冊第幾篇為名保存。格式:第幾冊_第幾篇.txt
如:1_10.txt
表示該課文是某文件夾下(某出處)的“第1冊/第10篇課文”的文本。
2. 切詞校對后的文本文件。即對原始語料分詞并校對后的文本。存放格式同1,只是文件夾和文件名后分別加字母q。如:
cn_rj_2001_6_yw_6q表示是存放“中國大陸/人民教育出版社/2001年出版/第六版/語文/六年級的切分語料”的文件夾。
1_10.txt表示是“第1冊/第10篇課文”的切分文本。
3. 初始庫
3.1詞目語料
庫名為:地區(qū)_出版商_出版時間_版本代號;
表名為:學科代號_年級;
內(nèi)容模式為:詞條 詞性 文件名。
即每個出版社每個版本建一個庫,每個學科分年級建表,表下存放詞條等。
如:
詞條 詞性 文件名
中國 n 1_10.txt
…… …… ……
其中文件名就是詞或句子所出現(xiàn)的課文文件的名稱。
3.2句子語料格式
庫名為:地區(qū)_出版商_出版時間_版本代號;
表名為:學科代號_年級;
表模式為:句子 單句|復句 句型 文件名。
即每個出版社每個出版時間建一個庫,每個學科分年級建表,表下存放詞條或者句子等。
如:
編號 句子 單句|復句 句型 文件名
1 列車已到了北京。 d 陳述句 1_10.txt
2 他的家遭到了炸彈的襲擊,他的生活和他一家人的生活受到威脅,但他決不退縮。 f 0 1-10.txt
3 你真聰明! d 感嘆句 1-10.txt
…… …… …… …… ……
其中文件名就是詞或句子所出現(xiàn)的課文文件的名稱。句型只標注單句,復句一律標0。每篇課文每個句子指定一個編號,編號體現(xiàn)句子在原文中出現(xiàn)的順序。
4. 結(jié)果數(shù)據(jù)表
4.1詞語統(tǒng)計表:包括詞條、詞性、使用頻度、出現(xiàn)文本數(shù)
如:
詞條 詞性 頻度 出現(xiàn)文本數(shù)
中國 n 5000 300
…… …… ……
4.2句型統(tǒng)計表:
句型 句型頻度 出現(xiàn)文本數(shù)
陳述句 10 10
…… …… ……
【語料格式要求】相關文章:
情書的格式要求03-29
實習報告格式要求11-05
嚴格要求的作文02-10
實習報告撰寫要求08-24
辦法的格式08-24
規(guī)定的格式08-24
條例格式04-13
細則格式08-24
須知的格式08-24
制度的格式08-24