Wikipediaのタイトルから作成した英和辞書データ

ウィキペディア の項目のタイトルの日本語名/英語名から、英和辞書データを作成しました。
項目の中には専門用語の英和辞書として使えるものもあります。

下記からダウンロードして下さい。
2013年6月23日版英和辞書データ  jewiki_20130623.txt

英語名と日本語名をタブで区切った UTF-8 のテキストファイルです。
6月23日版となっていますが、2013年7月21日時点のウィキペディアの最新版データです。

Firefox用英和辞書アドオン lookupper を登録しました で紹介している拙作のアドオンでの辞書ファイルとしての利用も可能です。


ウィキペディアのデータから作成したので、中には正しい英日対訳になっていないものもあります。
また分野の偏り等もありますので、これらに留意してご使用ください。

作成は以下のようにして行いました。

ウィキペディア では、左サイドにある 他言語版 の箇所の English のリンクを辿ると、日本語に対応する英語版のタイトルがわかります。これを利用すると、ある項目の日英の対応を作ることが出来ます。

例えば、コンピュータのページで、左サイドにある 他言語版 の箇所の English のリンクを辿ると、英語版の Computer のページへリンクが張られています。
これにより、日:コンピュータ と、英:Computer の対応を作ることが出来ます。
このようにして英和辞書データを作成しました。


ウィキペディアのデータは下記で公開されていますので、これを利用しました。
http://dumps.wikimedia.org/jawiki/latest/

各ファイルの内容については、以下で説明されています。
Wikipediaのダウンロードできるデータファイル一覧 | mwSoft


ウィキペディアのデータのうち、
jawiki-latest-langlinks.sql
jawiki-latest-pages-articles.xml
を使用しています。

(1)jawiki-latest-langlinks.sql から、ID と 日本語を除く各言語版のタイトルが取得できます。このファイルから ID,英語タイトル名を抽出します。
(2)次に jawiki-latest-pages-articles.xml から、ID と日本語ページの内容が取得できます。このファイルから ID,日本語タイトル名を抽出します。
(3)最後に、(1)のID,英語タイトル名 と、(2)のID,日本語タイトル名 から、IDを元に結合を行い、英語タイトル名と日本語タイトル名のペアを作成します。

このようにして作成した英語タイトル名と日本語タイトル名のペアから、日本語タイトルが年号や人名のものを除外したものが、上記の英和辞書データです。


参考


Wikipediaのダウンロードできるデータファイル一覧 | mwSoft
Firefox用英和辞書アドオン lookupper を登録しました

この記事へのコメント

この記事へのトラックバック