『文法コロケーションハンドブックE』
これは何ですか?
2014年の『日本語教育のための文法コロケーションハンドブック』と同じスタイルで、様々な中上級の文法項目をコーパスのデータをもとに記述していくスタイルです。最大の特徴は、中俣の執筆した教材を使ってコーパスの使い方を学んだ大学院生の手によって記述されているということです。(全項目、中俣が監修しています。)まずはPDF版にて公開。今後、他の形態での拡大も視野に入れています。
利用方法
以下より最新版のPDFをダウンロードしてください。
日本語話題別会話コーパス: J-TOCC
『日本語話題別会話コーパス:J-TOCC』の概要
『日本語話題別会話コーパス:J-TOCC』は話題を固定し、各話題について等しい時間の、親しい大学生どうしの1対1会話を録音、文字化したコーパスです。15話題につきそれぞれ120ペア×5分=10時間、合計で150時間分の会話を文字化しました。録音は2018年から2019年にかけて行われました。
このコーパスはJSPS科研費18H00676「話題が語彙・文法・談話ストラテジーに与える影響の解明」(以下、本プロジェクト)の成果として構築されました。プロジェクトの代表者は京都教育大学の中俣尚己で、コーパスデータの著作権は中俣が保有します。
コーパスの名称は『日本語話題別会話コーパス』で、略称は『J-TOCC』です。J-TOCCはJapanese Topic-Oriented Conversation Corpusの略です。J-TOCC内のテクストの著作権は中俣尚己が保有します。
『日本語話題別会話コーパス:J-TOCC』の特徴
- J-TOCCは、話題が変わると、日本語話者の話し方(語彙・文法・談話ストラテジー)はどのように変わるのかという疑問に答えるために設計されたコーパスです。15の話題について同じ時間数のデータが揃っていることが最大の特徴です。
- また、15の話題について、120ペアのデータがあるため、単なる語の延べ出現頻度(Token Frequency)だけでなく、どれだけのペアがその語を発したかという出現文書頻度(Document Frequency)についても定量的な値が得られ、個人差を考慮にいれた研究を行うことができます。
- 全ての話者について、その話題にどれだけ詳しいかという「話題精通度」のデータを付与しています。これにより、「ある話題に詳しい人と詳しくない人の話し方の比較」研究を行うことができます。
- 話題を統一した上で、東日本と西日本について同じ時間分のデータが集められているため、東西の比較研究を行うことができます。「男男」「男女」「女女」のようにペアの性別についてもバランスをとっています。
- 2019年時点での大学生の会話が収められています。
利用方法
『日本語話題別会話コーパス:J-TOCC』は教育・研究のためならどなたでもダウンロードして利用頂けます。 まず、以下の利用規約をお読みいただき、同意した上で、必要事項を下記のフォームに入力し送信すると、 コーパスをダウンロードするURLが表示されます。コーパスはtxt形式で、zip圧縮されており、 解凍にはパスワードが必要です。このパスワードは入力して頂いたメールアドレスに自動的に送信されます。 解凍ソフトに詳しくない方は、パスワードを入れて解凍した後、中身をご自身で用意されたフォルダに移してから研究することをおすすめします。
※ダウンロード後、もう一度URLを知る必要がある場合は中俣までお問い合わせ下さい。
※パスワードが届かない方はメールアドレスを間違えている可能性があるので、もう一度ご登録下さい。
詳しい解説
J-TOCCを使った研究を行い、その成果を発表する時は以下のいずれかの文書を参考文献としてください。
- 中俣尚己(2021)「日本語話題別会話コーパス:J-TOCC 解説資料」
- 中俣尚己・太田陽子・加藤恵梨・澤田浩子・清水由貴子・森篤嗣(2021)「『日本語話題別会話コーパス:J-TOCC』」『計量国語学』33巻1号, pp.11-21, 計量国語学会.
コーパス利用規約
申し込みフォーム
利用規約をお読みの上、こちらの申し込みフォームより、お申し込みください。回答を送信後に、ダウンロードについての情報をメールで返信します。
J-TOCCの更新履歴・バージョン情報
- バージョン20200228
・公開初期バージョン - バージョン 20210706
・規約と解説文書に参照すべき文献を追加。本体の変更なし。 - バージョン 20210831
・話者情報のうち、W-217-1とW-217-2、W-219-1とW-219-2、W-118-1とW-118-2が入れ替わっていたので話者情報シートを修正。
・対応して、W-217ペアとW-219ペアでは話者の性別の記号も反対になっていたので、話者記号の性別部分(F,M)のみ修正。
・E-202-09の64行目と65行目の話者記号が逆になっていたので修正。
・「話題知悉度」という用語を「話題精通度」に変更。ファイルに修正はなく、解説文書のみの変更。 - バージョン 20220829
・コーパス本体で、マスキングに漏れがあった箇所を修正。 補足情報の記号の不統一を修正。
・説明文書に記号の情報を加筆。誤字の訂正。
・『日本語話題別会話コーパスJ-TOCC語彙表』を公開。
『日本語話題別会話コーパス:J-TOCC語彙表』
これは何ですか?
上記『日本語話題別会話コーパス:J-TOCC』の語彙表です。全単語の話題ごとの対数尤度比(LLR)を計算したものと、各話題において、どの話者が何回、各単語を発話したのかを集計した表があります。詳しい説明は下記の論文をご覧下さい。LLRの表の使い方は『話題別日本語語彙表』と同じです。
利用方法
複数の表があるため、zip形式で配布します。どなたでもご自由に利用できます。
この表を使った研究や教材を発表する時は、以下の文献を引用して下さい。
中俣尚己・麻子軒(2022)「『日本語話題別会話コーパス:J-TOCC語彙表』の公開と日本語教育むけ情報サイトにむけた指標の検討」
言語資源ワークショップ2022発表論文集.
話題別日本語語彙表
これは何ですか?
自然会話コーパスである『名大会話コーパス』を人手で約100種類の話題に分割し、その分割したサブコーパスごとに形態素解析を行い、対数尤度比(LLR)という指標でどの単語がどの話題に特徴的かを調べ、一覧にした表です。日本語教育の教材作成や授業準備のために作成しました。話題分割の手順は下の「自然会話コーパス話題アノテーション情報」と同じです。
利用方法
Excel形式で配布します。以下のリンクからExcelファイルをダウンロードしてください。
※2021年3月5日、データを一部修正しました。
話題別日本語語彙表
長単位。総頻度数10以上の語を収録
※2023年5月18日、短単位版を公開しました。総頻度5以上の語を対象にしています。
話題別日本語語彙表(短単位版)
短単位。総頻度数5以上の語を収録
この表を使った研究や教材を発表する時は、以下の文献のいずれかを引用して下さい。なお、下記文献におけるデータはオリジナルの長単位版について述べています。ただし、表の作り方などは同じです。
中俣尚己・小口悠紀子・小西円・建石始・堀内仁(2021)「「自然会話コーパスを基にした『話題別日本語語彙表』」」
『計量国語学』33-3, pp.194-204, 計量国語学会.
中俣尚己(2020)「自然会話コーパスを元にした話題別語彙表の作成」『NINJAL国際シンポジウム「第11回日本語実用言語学国際会議(ICPLJ11)」予稿集』pp.96-99, 国立国語研究所
使い方は主に2通りです。話題から語彙を探したい場合は、一番上の話題列にオートフィルタをかけ、該当の話題を降順で並べ替えて下さい。LLRはおよそ10.83より大きい場合に、その分野の特徴語とみなされます。一方、語からよく使われる話題を探したい場合は一番左の語が書かれている列にカーソルをあてた状態で、検索機能を使って探してください。解説の動画を用意しました。
自然会話コーパス話題アノテーション情報
これは何ですか?
自然会話コーパスである『名大会話コーパス』の全ての行に対して、それが何の話題についての会話の一部であるかという話題タグを付与した情報です。単体では利用できず、国立国語研究所で配布している>名大会話コーパス本体と組み合わせて利用します。 アノテーションの詳細、方針、内容については説明書に記載しています。また、以下の学会発表の論文集でも詳しく解説しています。今後、このデータを元に、話題がどのようにネットワーク構造をなしているかや、話題ごとの特徴語を調べ、公開する予定です。
中俣尚己・建石始・堀内仁・小西円・山本和英「自然談話コーパスに対する話題アノテーションの試み」
『言語処理学会第26回年次大会発表論文集』(2020年3月)
利用方法
言語資源協会さまで配布を行っています。会員の方は無料で、非会意の方は33,000円で利用いただけます。詳しくは言語資源協会さまのサイトをご覧ください。csv形式です。
動詞の「ている」形意味分類データ
これは何ですか?
BCCWJからランダムにサンプリングした「ている」を含む2万文について、「進行」「結果」「経験」「状態」の意味タグ付与を行い、 それを動詞ごとに集計したものです。このデータはもともと生産性指数という別の指標の計算のために用意されたものですが、 どの動詞の「ている」形がどの意味になりやすいのかということについての網羅的なデータベースとしても利用可能であるため、 集計結果について公開することにしました。尚、元となった論文は以下のものです。
- (研究ノート)中俣尚己「「ている」の意味分類と生産性」
『計量国語学』30-7 2016年12月
利用方法
どなたでも利用いただけます。以下のリンクからzipファイルをダウンロードして下さい。中には、本体のcsvファイルと説明のpdfが入っています。
『日中 Skype 会話コーパス』
『日中 Skype 会話コーパス』とは何ですか?
このコーパスは2012年5月から7月にかけて、 日本・東京の実践女子大学と中国・長沙市の湖南大学との間で行われた日本語でのSkype会話交流活動の内容を、 日本学術振興会の科研費若手研究(B)「縦断型接触場面コーパスの構築とそれを用いた日本語教育のための談話研究(課題番号26770180、研究代表者中俣尚己)」 の助成を受けて録音、文字化したものです。 会話を楽しむことを主目的とした活動の録音であり、真正性のある言語行動のコーパスといえます。 この活動自体の実践報告につきましては、中俣尚己ほか(2013)「Skypeを活用した日中会話交流プログラム」(『實踐國文學』83所収)を御覧ください。
『日中 Skype 会話コーパス』の概要
このコーパスにはのべ9ペア、38の会話が収録されています。 総会話時間は46:48:35で、1会話あたり平均1:13:55とまとまった長さのSkypeでの会話が収録されています。 1つのペアにつき1~7会話が収録されており、各回のトピックは事前に緩やかに決められていますが、 トピックからそれることもあります。コーパスの詳しい構成や使用されている記号については 「日中Skype会話コーパスについて」を御覧ください。この解説は、コーパス本体にも付属しています。
利用方法
『日中 Skype 会話コーパス』は研究のためならどなたでもダウンロードして利用頂けます。 まず、以下の利用規約をお読みいただき、同意した上で、必要事項を下記のフォームに入力し送信すると、 コーパスをダウンロードするURLが表示されます。コーパスはtxt形式で、Zip圧縮されており、 解凍にはパスワードが必要です。このパスワードは入力して頂いたメールアドレスに自動的に送信されます。 解凍ソフトに詳しくない方は、パスワードを入れて解凍した後、中身をご自身で用意されたフォルダに移してから研究することをおすすめします。
※ダウンロード後、もう一度URLを知る必要がある場合は中俣までお問い合わせ下さい。
※パスワードが届かない方はメールアドレスを間違えている可能性があるので、もう一度ご登録下さい。
コーパス利用規約
1.制作者『日中Skype会話コーパス』の制作者は中俣尚己で、公開・配布などの権利は制作者に帰属します。
2.利用範囲
『日中Skype会話コーパス』は研究・教育を目的とする個人のみ、自由に利用することができます。
3.譲渡・貸与・複製の禁止
『日中Skype会話コーパス』の一部もしくは全部を、制作者に無断で、他人に譲渡したり、貸与したり、複製したり、 公開したりすることを禁止します。ファイルのURLやパスワードを他者に教えることも、複製と見なします。 コーパスの内容を閲覧する個人個人が必ず登録を行って下さい。
4.研究成果の公開
本コーパスの全部または一部を用いた研究を行い、それを公開する時は『日中Skype会話コーパス』を利用したことを明記するとともに、 配布ページのURLも記載して下さい。(http://nakamata.info/database/) また、発表後または公開後で構いませんので、 原稿のコピーなどを制作者にお送り下さい。
5.個人情報の扱いについて
科研費による成果であり、利用実態を記録するため、また、パスワードの配布のため、 利用には氏名とメールアドレスが必要です。これらの情報は適切に管理し、本コーパスに関する連絡以外には一切使用しません。
申し込みフォーム
利用規約をお読みの上、こちらの申し込みフォームより、お申し込みください。回答を送信後に、ダウンロードについての情報をメールで返信します。