So-net無料ブログ作成

ウィキペディアデータを編集、テーブル結合、ワードプレスと連携させる方法

データベースへのウィキペディアデータのインポートが終了したら、page_id、page_title、old_textに内部結合させるためのテーブル定義を行う。下記をdict_table.sqlで保存しホームにおく。
-- MySQL dump 10.13 Distrib 5.7.15, for Linux (x86_64) -- -- Host: localhost Database: wikidb -- ------------------------------------------------------ -- Server version 5.7.15-0ubuntu0.16.04.1 /*!40101 SET @OLD_CHARACTER_SET_CLIENT=@@CHARACTER_SET_CLIENT */; /*!40101 SET @OLD_CHARACTER_SET_RESULTS=@@CHARACTER_SET_RESULTS */; /*!40101 SET @OLD_COLLATION_CONNECTION=@@COLLATION_CONNECTION */; /*!40101 SET NAMES utf8 */; /*!40103 SET @OLD_TIME_ZONE=@@TIME_ZONE */; /*!40103 SET TIME_ZONE='+00:00' */; /*!40014 SET @OLD_UNIQUE_CHECKS=@@UNIQUE_CHECKS, UNIQUE_CHECKS=0 */; /*!40014 SET @OLD_FOREIGN_KEY_CHECKS=@@FOREIGN_KEY_CHECKS, FOREIGN_KEY_CHECKS=0 */; /*!40101 SET @OLD_SQL_MODE=@@SQL_MODE, SQL_MODE='NO_AUTO_VALUE_ON_ZERO' */; /*!40111 SET @OLD_SQL_NOTES=@@SQL_NOTES, SQL_NOTES=0 */; -- -- Table structure for table `dict` -- DROP TABLE IF EXISTS `dict`; /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `dict` ( `page_id` int unsigned NOT NULL PRIMARY KEY AUTO_INCREMENT, `page_title` varchar(255) binary NOT NULL, `old_text` mediumblob NOT NULL, KEY `index_page_title` (`page_title`) ) MAX_ROWS=10000000 AVG_ROW_LENGTH=10240; /*!40101 SET character_set_client = @saved_cs_client */; /*!40103 SET TIME_ZONE=@OLD_TIME_ZONE */; /*!40101 SET SQL_MODE=@OLD_SQL_MODE */; /*!40014 SET FOREIGN_KEY_CHECKS=@OLD_FOREIGN_KEY_CHECKS */; /*!40014 SET UNIQUE_CHECKS=@OLD_UNIQUE_CHECKS */; /*!40101 SET CHARACTER_SET_CLIENT=@OLD_CHARACTER_SET_CLIENT */; /*!40101 SET CHARACTER_SET_RESULTS=@OLD_CHARACTER_SET_RESULTS */; /*!40101 SET COLLATION_CONNECTION=@OLD_COLLATION_CONNECTION */; /*!40111 SET SQL_NOTES=@OLD_SQL_NOTES */; -- Dump completed on 2016-10-12 20:41:52



INSERT INTO dict (page_id, page_title, old_text) SELECT page_id, page_title, old_text FROM page INNER JOIN text ON page_latest = old_id AND page_namespace = 0;

テーブル内部結合(INNER JOIN)でpageテーブルのpage_id列とpage_title列、textテーブルのold_text列のデータを抽出して新たなテーブル(dict)上で結合させる。

具体的にはタイトルと文章とを紐づけているpage_latestとold_idを元に結合させ、page_namespaceの値が0のもの、つまりアップロード情報、コメント依頼、削除依頼・・・等の管理ページ情報を省いた、純粋なページ情報のみを対象に、INSERT INTOで新たなdictテーブルの同一レコード上に並べて配置させる。

ページタイトルとテキストを同一レコード上に配置させることで整合性を保ったまま編集が行えるようにして融通を利かせる。

SELECT page_title FROM dict LIMIT 10;

試しにpage_titleカラムのデータを10件表示させデータが取得できることを確認。

dictテーブルサイズを参照しレコード長の平均値を変更。

下記のスクリプトをコマンドラインに貼り付けENTER。
select table_name, engine, table_rows, avg_row_length, floor((data_length+index_length)) as all_Byte, #総容量 floor((data_length)) as data_Byte, #データ容量 floor((index_length)) as index_Byte #インデックス容量 from information_schema.tables where table_schema=database() order by (data_length+index_length) desc;

dictテーブルのavg_row_lengthを参照してレコード長の平均値を変更します。
ALTER TABLE dict MAX_ROWS=10000000, AVG_ROW_LENGTH=14474;

avg_row_lengthが14474の場合。
mysqldump -uroot -p -d wikidb dict > dict_tables.sql

コマンドラインに戻りmysqldumpコマンドを使い本番サーバー用のテーブル定義ファイルを出力し、既存のdict_tables.sqlファイルを上書き。

最後にデータ本体を分割ダンプで出力。

ダンプ用のBash スクリプト内容
#テーブルデータ分割ダンプ #!/bin/bash # 定数定義 DB=wikidb # データベース・スキーマ名 tbl=dict # テーブル名 USER=     # ダンプ出力するユーザ名 PW=          # 〃 ユーザ名のパスワード CMD=/usr/bin/mysqldump # mysqldump コマンドのフルパス WK_DIR=/home/ae8642 # 作業ディレクトリパス DMP_DIR=$WK_DIR/dump # ダンプファイル格納ディレクトリ OPTS="--skip-opt --quick --no-create-info --extended-insert --disable-keys" # mysqldump オプション(*) DCNT=16000 # 分割するレコード件数 # ダンプファイルクリア rm -f $DMP_DIR/* # テーブル内に存在するレコード件数(*) rows=`mysql -u $USER -p$PW $DB -N -B -e "SELECT COUNT(*) FROM $tbl;"` #rows=`MYSQL_PWD=${PW} $CMD -u $USER $DB -N -B -e "SELECT COUNT(*) FROM $tbl;"` echo "* $tbl [$rows records]" # レコード件数から分割数を算出してループ処理 for ((i = 0; i <= $(($rows / $DCNT)); i++)) do # 出力ダンプファイル名 fname=$(printf ${tbl}_%02d $i) # オフセット算出 offset=$((i * $DCNT)) echo " $fname [OFFSET: $offset]" # ダンプ出力(*) $CMD -u $USER -p$PW $DB $tbl $OPTS -w "true LIMIT $offset, $DCNT" | gzip > $DMP_DIR/$fname.sql.gz #MYSQL_PWD=${PW} $CMD -u $USER $DB $tbl $OPTS -w "true LIMIT $offset, $DCNT" | gzip > $DMP_DIR/$fname.sql.gz done;

mysqlのユーザ名とパスワードを入力、mysqldumpのパスは環境に応じて書き換えdb_table_data_only_dump_split.shで保存しホームにおく。
chmod +x db_table_data_only_dump_split.sh ./db_table_data_only_dump_split.sh

分割ダンプを実行。

「using a password on the command line・・・」の警告が出るが処理は続行される。

初期設定で16,000レコードづつダンプされていき、トータルでおおよそ、22個くらいのファイル数になる。

ダンプレコード数はdb_table_data_only_dump_split.shファイル内の設定により変更可能。

mysql本番サーバーのキャパにもよるが、ひとつのファイル容量が平均40MBくらいに落ち着かせるほうが無難。

とうぜんながらダンプ処理にはかなりの時間を要します。

分割ダンプが終了したらウィキペディアデータと連携させるワードプレスデータが入っているデータベースにテーブル定義(dict_table.sql)をインポートしてテーブルを定義した後、分割ダンプファイルをインポートしていく。

環境が許すならコマンドでMySql本番サーバーへダンプファイルを転送する方法もありだが、そもそも、圧縮工程だけでどえらい時間がかかるので、総合的に判断すると、分割ダンプファイルをインポートしていく、地道だが、確実な方法をとる。

インポートが終わったらdictテーブルを、連携させるワードプレスの接頭辞を付けたテーブル名に変更。

接頭辞はワードプレスインストールルートのwp-config.phpファイル内で確認。

接頭辞がwp177_の場合はテーブル名をwp177_dictに変更。

最後にワードプレスインストールルートのwp-includesフォルダ内のwp-db.phpファイルの268行目付近の$tables変数に代入される配列内の最後に’dict’をカンマ区切りで追加。

接頭辞を付ける必要はない。

これでウィキペディアデータとワードプレスとの連携が可能となる。


nice!(0) 

nice! 0