正規表現で連続した単語をマッチさせる時の備忘録

WordPressで外部配信用のRSSを作成する時に外部配信先によってさまざまな仕様があるため、出力される本文のHTMLなどを添削もしくは変換・入れ替えしなければいけません。

同じ単語が複数回以上繰り替えす時にマッチする正規表現と調べた文献をまとめます。

$content = preg_replace( "/(らーめん){2,}/", "ラーメン", $content );

上記のようにpreg_replaceを用いてテキストの変更をおこないます。上記のパターンだと「らーめん」という単語が2回以上続いている箇所については「ラーメン」という文字に置換されます。

また今回は が複数行にわたって挿入されていた場合に1回に置き換えたいので下記のようにマッチパターンを記述して対応しました。

$content = preg_replace( "/( \r\n){2,}/", " \r\n", $content );

[PHP]改行なしスペース( 、0xA0)を、普通の空白(0x20)に置換する

開発メモ:正規表現を使い、連続した改行コード・改行文字を取り除く|理総研Web@中学受験専門理科総合研究所

“パブリッシングの民主化、再び ” Toruさんからの宿題にMattが答える記事

WordPressの創始者であり WordPress.com を運営する Automattic のCEO であるMattがWordPressの理念・ビジョンについて、再度自身のブログにて公開した。


それにしてもこの記事を書くきっかけはWordPress Meetup Tokyoの管理人でも有るToruさんの宿題によるものらしい。
僕も二回目のWordCampの実行委員長をやる時にToruさんから「初めてはパッションと勢いだけでもいいけど、二回目ならちゃんとやりたいビジョンを明確にした方がいいと思う。なにかあるの?」とういう質問を投げかけられて言葉につまった記憶がある。

しかし、そのおかげでMore Publishingというテーマが生まれたし、とてもいい質問だったと思っている。

良い答えには良い質問が必要ということと、Toruさんは良い質問をする能力があるんだなーと改めて思った。