JCMD報告書(8)


8. 『じんもんこん』第2号(1996年2月)研究室だより


「方言音声データベース」とは何ぞや?

研究分野
 この重点には「方言音声データベースの作成と利用に関する研究」という課題で参加させていただいております。具体的に本研究に至った経緯、現状、そしてこの研究における目標を簡単に紹介いたします。
 この研究以前に、平成元年から4年にかけて重点領域研究「日本語音声における韻律的特徴の実態とその教育に関する総合的研究」(略称「日本語音声」)という研究がありました。「日本語音声」の代表者は本研究の分担者の一人である杉藤美代子でした。「日本語音声」では、研究の一つの柱として、日本全国各地の方言音声が収集されました。音声収集にあたって掲げた大きな目標は二つありました。一つは「等質なデータを得ること」、すなわち、全国津々浦々で同じ調査票を用いて、お互いが比較できるようにすること、もう一つは「後世に残すにあたって、できる限り高品質の録音を目指すこと」でした。二つ目の目標については収集開始当時普及しつつあったDAT(ディジタルオーディオテープ)による録音をおこなうことである程度達成されました(ただし、録音技術に関しては人さまざまで中には残念な結果に終わっているものもあります)。一つ目の目標の方は、一見当たり前で、簡単なことのように思われますが、多くの研究者が関わることを考えますと、なかなかスムーズにはいきませんでした。決められた量の調査票で、多くの研究者の意見を入れようとすれば当然無理が生じます。誰しも自分に興味のある項目をより詳しく調査したいものです。結局できた調査票は中途半端なものになってしまったのかも知れません。
 調査の種類に関しても2種類ありました。一つは、全国100地点を選び、それぞれの地点で高年、壮年各1名の話者の録音資料を収集するもので「100地点調査」と呼ばれました。収録内容は、日本語のアクセントを研究するために不可欠な、類別語彙と呼ばれる一群の和語から始まり、各地の方言のイントネーションの特徴を見るために、簡単な対話文や朗読といったもの、さらには母音、子音の音色の違いを見るために、五十音図や数字を読み上げるといったものまで含まれています。項目数は1500項目にものぼり、録音には一人あたり3時間から半日程度かかりました。中には、納得のいく録音を得るために、数日通いつめたというつわものもいました。
 もう一つは、同じ地域における世代差、男女差、個人差といった社会言語学的な要因を考えるために、全国13主要都市(札幌市、弘前市、仙台市、新潟市、東京、名古屋市、富山市、大阪市、高知市、広島市、福岡市、鹿児島市、那覇市)を選んで調査がなされました。こちらの方は「主要都市調査」と呼ばれました。それぞれの都市ごとに、高年層(60歳以上)、壮年層(40〜59歳)、若年層(20〜39歳)、中学2年生、小学5年生の5世代を設定し、高壮若年層については男女5名ずつ、中小学生については男女各10名ずつ、すなわち1地点につき最低70名調査しました。13都市ですから総計約1000名のデータということになります。ただし、こちらの調査の方は100地点調査ほどの量はなく、一人当たり500項目程度(調査時間にして30分から1時間)でした。
 「日本語音声」では、収集と同時にデータベース化に関しても研究対象としていました。本研究の分担者の一人である板橋秀一の班において、CD化、CD-ROM化の方策に関して検討がなされました。成果として「100地点調査」の高年層のデータに関して、CD14枚、CD-ROM3枚が作成されました。ただし「主要都市調査」のデータに関してはまったくの手つかずの状態で「日本語音声」は時間切れ終了したのです。
 次の段階として平成5年度より5年間の予定で、研究成果公開促進費「日本主要都市方言音声データベース」の補助を受け、手つかずの「主要都市調査」のデータの編集を始めました。音声データの編集とは、DATからディジタル信号のままパソコンに取り込んで、文あるいは単語ごとに切り、それぞれを一つずつの音声ファイルに作り上げていく作業です。当然1秒のデータの編集が1秒で済むはずはありません。一日かかりっきりで一人分のデータをこなすのがやっとです。5年間で1000人分のデータをすべて処理することは到底不可能です。そこで、一地点につき20人を選び出し作業をおこなっています。今年度が3年目にあたり、作業も本格化している段階です。
 このような研究背景のもとに本研究はスタートしました。これまでの研究を礎とし、できなかったことを次の研究につなぎ、さらに発展させるという道筋をとっていきます。まだ手つかずの面とは、「データ収集→データベース化」の先にあるものということになります。それはデータベースをよりユーザが使いやすい形にすること、具体的には、より多くの人が使えるデータ形式に統一することや、目的にあった検索を簡単におこなうためのツールを開発したり、検索ラベルデータを改良するといったことがあります。また、さらに先にはデータ公開にあたっての制限、より妥当な利用方法についての研究、データ及びツールの更新、保守といったアフターサービスについても考えていく必要があるでしょう。
 私たち国語国文学の分野では、このような音声データベースの作成及び利用に関してはまったく未開拓の状態です。他の分野の方々のお知恵をお借りして、一歩でも前進するようがんばっていくつもりです。最後に研究の流れを図示しておきます。

研究メンバーの紹介
 わが班について紹介いたします。まずメンバーの一覧を示します。
田原広史  大阪樟蔭女子大学 学芸学部
江川 清  国立国語研究所 情報資料研究部
杉藤美代子 大阪樟蔭女子大学 名誉教授
板橋秀一 筑波大学 電子情報工学系
 @で述べましたように、このメンバーは、「日本語音声」で主にデータベース化に関わった者で、現在「データベース科研」において作成委員会を編成し、作業を進めています。江川清は、本研究では流通化について担当します。国立国語研究所では、これまで独自に収集してきたデータのまとめと一般研究者への公開を進めています。本データベースに関しても、その流れの中で一つのお手本となるべく公開のルール作り、具体的な利用規程などについて調査研究をおこないます。杉藤美代子は「日本語音声」の代表者として、音声データ収集のみならず、音声の基礎的研究、その教育面への応用に関しても幅広い経験と知識を持っております。本研究でもそのノウハウを生かし、音声データの妥当性、応用面について研究をおこなっていきます。板橋秀一は「日本語音声」でつちかったデータベース化のための技術的研究を、実際の実用段階でさらに発展させていきます。私田原広史は「日本語音声」では、方言音声データを収集する班に所属し、西日本、特に近畿地方を中心に収集をおこないました。その後、代表の杉藤美代子と同じ職場であったことが縁で、データの整理を引き続きおこなっています。本研究では、話者の属性、職業、調査項目といった検索ラベルデータの作成、音声データの編集作業、検索ツールの開発をおこなっていきます。

研究環境
 本研究を進めていくにあたっての本拠地となります、大阪樟蔭女子大学日本語研究センターについて紹介させていただきます。研究スタッフは西端幸雄(教授)、田原広史(助教授)、ダニエル・ロング(講師)の3名、補助スタッフ(研究室員)が2名の計5名で構成されています。西端はこの重点で別の班として参加しています。
 研究環境は文化系としては恵まれている方だと思います。研究室は10×20mの長方形で、5×20mの共同スペースと、5×4mの個人用スペース5つからなっています。個人用スペースの2つは、演習室と共同研究室に割り当てられています。共同スペースには、パーソナルコンピュータが計7台あり、音声データの編集作業、ツール開発、データエントリ等に使っています。最近では、学生の卒業論文でも積極的にパソコンを用いて、データの集計や資料作成をおこなわせています。本研究室では長年NECのパソコンを愛用してきましたが、今回の研究ではツール開発のためにマッキントッシュ2台を購入しました。今は、使いこなす前に慣れることが肝要とばかり、ゲームに熱中しています。
 日本語研究センターでは、「DB−West」(西日本国語国文学データベース研究会)という近畿を中心とした、データベースに関わる研究の情報交換、啓発を目的とした研究会の事務局を引き受けています。本重点の目標とも関連する面が多いと思います。

研究室への行き方
新大阪から地下鉄御堂筋線で難波へ行き、そこで近鉄奈良線に乗り換えて7つ目の河内小阪という駅で降ります。そこから西へ歩いて3分です。新大阪から40分くらいです。便利なのがとりえの大学です。