今回使用したバージョン
magpierss-0.72
昔からホームページの更新のチェックに対する需要は高かったのですが、昔の巡回ソフトは更新のあったページを丸ごとダウンロードするものが主流でした。
ファイルの更新日時の取得は比較的容易なのに対し、更新内容の取得は非常に難しかったからです。
2ちゃんねるブラウザを使用している人はわかると思いますが、2ちゃんねるブラウザは2ちゃんねる専用で、他の掲示板を読むことは出来ません。
ほとんど共通のシステムを使用しているしたらばBBS等は読むことが出来る可能性もありますが、基本的には非対応です。
プログラムはアバウトな解析が心底苦手で、人間の目には殆ど同じにしか映らないソースもプログラムには全然別物に見えるので、個別に対応させないと理解してくれないのです。
掲示板だけでもそのような状態ですから、まるで違う構造の各ホームページやブログの内容を取得するなどほとんど夢物語でした。
そのような状況に対処するため、多くのサイトで共通して使えるフォーマットとしてRSSが発展してきました。
このブログもそうですが、多くの企業サイトやブログではRSSが標準で用意されています。
これを読み取るだけで簡単に更新状況がわかるので便利です。
XML形式で書かれているのでパースもさほど難しいものではありません。
というわけでとりあえずRSSを取得してみることにしましょう。
ただ、やはりというかなんというかRSSも拡張の度に互換性が失われており、現在ではRSS0.91、RSS1.0、RSS2.0という三権分立状態になっています。
一々バージョンをチェックしてそれに対応するパーサを用意して、なんてことは面倒なので既存ライブラリで解決してしまいましょう。
PearのRSSリーダにはXML_RSSとXML_Feed_Parserがありますが、PearではないMagpieRSSというライブラリがキャッシュ機能もついていて高性能だったりするのでそちらを使用してみます。
Pearではありませんが、とりあえずPearのフォルダに丸ごと突っ込んでおきます。
色々ファイルがありますが、必要なのはrss_*.incの4ファイルとextlibフォルダだけなのであとは削除しても構いません。
あとキャッシュを使用するためにcacheフォルダを作成しておきます。
とりあえずはMagpieRSSを読み込むクラスを作成。
rssreader.class.php
<?php |
引数として$rss=array('name'=>'弱小PHPerの憂鬱',url='http://yuubiseiharukana.blog.shinobi.jp/RSS/200/')
というような配列を渡すことになっています。
何も考えずに作っていたらメンバ変数のキーとして日本語を入れてしまうという相当気持ち悪い実装になってしまったのですが、まあ気にしない。
最初のdefineはMagpieRSSの動作を決定しています。
最初のPEAR_MAGPIERSS_DIRは自作の定数で、MagpieRSSの位置を指定しています。
残りはMagpieRSS内で使用されるもので、MAGPIE_OUTPUT_ENCODINGで文字コードを、MAGPIE_CACHE_DIRでキャッシュファイルの保存先を、MAGPIE_CACHE_AGEでキャッシュの保存期間を秒で指定します。
キャッシュを設定しないとリロードのたびにRSSを呼びにいって負担になるので必ず設定するようにしましょう。
そんな頻繁に更新しても仕方がないのでMAGPIE_CACHE_DIR=3600秒、一時間に設定しました。
定数になってるせいで、サイトAではキャッシュ1時間、サイトBではキャッシュ30分、みたいなことが出来ないのですが、そんな細かいことはどうでもいいや。
日付に関してはRSSのもっとも厄介なところのひとつで、バージョンによってフィールドがあったりなかったり、実装によってフィールドがあったりなかったりでもう大変です。
また、日付形式はW3CDTFと呼ばれる形式で、「2003-12-13T18:30:02Z」というような形になっていてPHPでは理解しにくいです。
parse_w3cdtfはMagpieRSSに用意されている関数で、タイムスタンプ形式にパースしてくれます。
さてとりあえず動作確認してみます。
引数が妙なことになっているのは動的取得を考えてのことですが、とりあえずは固定で。
rssreader.php
<?php |
さて実行。
Warning: gmmktime() expects parameter 3 to be long, string given in C:\xampp\htdocs\src\php\pear\MagpieRSS\rss_utils.inc on line 35
rss_utils.incの35行目は
$epoch = gmmktime( $hours, $minutes, $seconds, $month, $day, $year);
日付の生成に失敗しています。
上を見てみると、preg_matchでマッチしているのですが、
$pat = "/(\d{4})-(\d{2})-(\d{2})T(\d{2}):(\d{2})(:(\d{2}))?(?:([-+])(\d{2}):?(\d{2})|(Z))?/";
これ間違ってない?
デバッグ用にprint("<pre>");var_dump( $hours, $minutes, $seconds, $month, $day, $year);を入れてみると、
string(2) "13"
string(2) "02"
string(3) ":45"
string(2) "08"
string(2) "19"
string(4) "2008"
$secondsがおかしい。
正しくは
$pat = "/(\d{4})-(\d{2})-(\d{2})T(\d{2}):(\d{2}):(\d{2})?(?:([-+])(\d{2}):?(\d{2})|(Z))?/";
だと思うのだがこの余計な()は何なのだろう?
とりあえず
array( $match[1], $match[2], $match[3], $match[4], $match[5], $match[6]);
となっているところを
array( $match[1], $match[2], $match[3], $match[4], $match[5], $match[7]);
として応急処置したところ事なきを得た。
とりあえず完成はしたものの、直に呼び出すだけというのも味気ないので次回はAjaxで呼び出してみようかと。