JCMD報告書(10)


10. 『じんもんこん』第3号(1997年3月)採択課題研究概要
08207114 A02

方言音声データベースの作成と利用に関する研究

田原広史(大阪樟蔭女子大学)

 この研究は、重点領域研究「日本語音声における韻律的特徴の実態とその教育に関する総合的研究」(平成元年〜4年度、代表者杉藤美代子、以下「日本語音声」)の中で収集された全国各地の方言音声資料を整備(データベース化)し、より効率的な利用、流通を目指すものである。「日本語音声」において収集された音声資料のうち大きなものとしては、「全国共通項目調査」と「主要都市調査」と呼ばれる二つがある。
 「全国共通項目調査」とは、単語、文、文章、五十音、数字など約1000項目に及ぶ項目を、全国100地点の高年齢層話者各1名についてディジタル録音したものである。この資料は、「日本語音声」期間中にかなりの部分がCD、CD-ROM化された。
 「主要都市調査」とは、13主要都市(札幌、弘前、仙台、新潟、名古屋、東京、富山、大阪、高知、広島、福岡、鹿児島、那覇)において、一都市につき、5世代男女計70名、約500項目についてディジタル録音された資料である。こちらの資料については、「日本語音声」終了後、平成5年度より新たに成果公開促進費(データベース科研)を受け、「日本主要都市方言音声データベース」として5年計画でCD、CD-ROM化のための編集作業をおこなっているところである。平成5〜7年度にCD計5枚を作成した。
 また、本研究代表者の所属する大阪樟蔭女子大学日本語研究センターが中心となり「西日本国語国文学データベース研究会」(DB−West)を開催している(年2回、平成8年6月で8回目)。この研究会は国語国文学分野におけるデータベースに関連するノウハウの啓蒙、研究、発表をおこなっているのみならず、データベースに関する情報交換の拠点となっており、作成中のデータベースに関しても流通化のためのルール作り、モニター利用の試み等をおこなっている。
 このような背景をふまえ、本研究では研究の目的として次の三つを設定する。1)「方言音声データベース」そのものをより整備されたものにすること。2)検索、分析のためのツールを開発すること。3)当該分野(言語学、音声学、国語学、日本語教育学等)における利用者を開拓し、利用のためのルール作りを行い、流通化を促進すること。この3点について研究を進めていく。進め方は1),2),3)の順にステップアップしていくことも考えられるが、できれば1),2),3)同時進行で進めていくように考えている。その理由は、それぞれの段階が密接に関連しており、フィードバックをおこなうことによって、データベースそのものもよくなるし、使用環境も整備されていくと考えるからである。1)に関しては別途データベース科研を受け、編集作業をおこなっているが、製品化(主にCD-ROM化)するに当たって、試作品の作成、手直し等の研究を本研究においておこなう。

 本研究で扱う分野は次の4つである。
1)検索用文字データの入力、整理、データベース化(田原)。検索用文字データには、「発声内容に関するデータ」(読み、表記、アクセント型など)と「発声者に関するデータ」(話者の年齢、性別、出身地など)の二つがある。音声データを検索するためにはこれらの情報がすべて電子化され、かつデータベース化されていなければならない。データベース科研により入力作業をおこなっているが、これらを実際の音声と連動させ検索するためにはさらにデータの整備、改良、試行錯誤が必要である。7年度は音声と連動させて効率よく検索をすべく研究をおこなっていく。
2)音声データの編集、評価、CD、CD-ROM化(杉藤、板橋)。現在、データベース科研により編集中であるが、これを実用化するための方策を検討する。具体的にはデータベース化する項目の検討、個別の音声の評価、CD-ROM内におけるファイル構造の検討などをおこなう。CD-ROM化する前段階として、大容量のハードディスク(1GB)あるいは光磁気ディスク(230MB、650MB)を用いて、試作していく予定である。
3)検索用ツールの開発(田原)。検索のためのツール開発を集中的におこなっていく予定である。検索ツールに関しては、「日本語音声」期間中に作成されたCD-ROM用に開発した検索プログラムがあるが汎用性がまったくないものである。そこで、このプログラムを改良するとともに、新たに汎用性のあるツールを開発する道も探る。現在、編集作業はNEC製のパーソナルコンピュータを使用しているが、音声ファイルと検索用データベースを連動させた形で利用するといったツールを開発し、将来的に一般の研究者に流通させていくために、マルチメディア性が高く、現時点でインターフェイス、ソフトウェアが充実しているアップル社のマッキントッシュも使用する。また、ツール開発のため、各種ソフトウェアを比較検討する。
4)流通化に関する調査研究(江川)。データベース科研により作成したCDをモニター(データベースを使用、評価してくれる人)に配布し、利用方法、利用状況など流通化に関する調査研究をおこなう。現段階における配布媒体はCDのみであるが、9年度以降はCD-ROMに関しても同様の形で調査研究を進めていく予定である。モニターとの密接なやりとりをおこなっていく予定である。
 平成8年度は本重点領域研究に公募班として参加し、データベース化に関する技術的な面について研究をおこなった。具体的には、いくつかのファイル形式についての比較検討、実際の音声ファイルの変換作業、検索ツール作成の試みなどをおこなった。