テキストから特定のデータを抜き出す

2014/07/05

さて。AppleSceript から Cocoa フレームワークの各機能を利用するこの企画(?)も今回で 5 回目となりました。

...なったのですが、AppleScript に関連する話題が WWDC で発表されましたね。OS X 10.10 から JavaScript でも OS X の自動化を行うことができる、と。

まぁ、長く AppleScript を触っている人にとって特別に目を引くような話題でもなんでもありません。JavaScript OSA ってものは、古くからありましたし(今はもうないのかな?)。それよりも気になるのはリリースノートを読んでいる限りでは PyObjC や RubyCocoa と同等の機能を持っているっぽいことです。

現状の AppleScript では Cocoa の機能呼び出しがスクリプトライブラリのみという制限付き。この制限が JavaScript にないのなら、JavaScript を積極的に利用する。AppleScript でも同じように機能が拡張されるといいのにな。

さらに JavaScript と AppleScript の混在ができればもっといいのにな。

Swift?

なにそれ?

おいしいの?

まぁ、ベータの Yosemite を入れればすぐに分かるんですけどね。

閑話休題。

しかし、ねえ...。ここに書いていることが Yosemite 以降、使えるのかどうか、知識が役に立つのかどうか、といったことが甚だ気になり、ブログ更新するのが億劫になるんだけど、AppleScript 自体はまだまだ現役で使えるのでがんばって更新します。

っていうか、楽になるのならなんでもウェルカムな姿勢なので、JavaScript という選択肢が増えることは大歓迎です。

おっと。また話が逸れてます。

文字列から特定のデータを抜き出す...。URL やメールアドレス、日付や電話番号などですね。この手のことがしたいなら、Automator を使えば簡単にできます。

Detect_URL_Service

このようなサービスを作っておけば、

  1. 文字列を選択
  2. コンテクストメニューでサービスを呼び出す
  3. URL がクリップボードにコピーされる

ってことができます。

こういった情報を抜き出すのに利用されているのが、NSDataDetectorNSRegularExpression のサブクラスです。

NSDataDetector なんていまさら...な感が否めませんが、使ってみます。

NSDataDetector は抜き出したいデータを複数指定することができます。抜き出せるのは、日付、住所、URL、電話番号、飛行機などの運航情報。

  • NSTextCheckingTypeDate
  • NSTextCheckingTypeAddress
  • NSTextCheckingTypeLink
  • NSTextCheckingTypePhoneNumber
  • NSTextCheckingTypeTransitInformation.

Objective-C ではビット演算子で複数を指定することになるのですが、AppleScript にはビットを操作するような演算子はありません。

こういうときどうするかというと...、単純に足してしまいます。なんだか乱暴な感じがしますが、これでいいのです。以上をふまえてライブラリを作成します。

(*
This script AppleScript Library.
Script saved "script bundle"(.scptd), and put ~/Library/Script Libraries.
Important. Checked "AppleScript/Objective-C Library".
*)
use framework "Foundation"
property NSDataDetector : class "NSDataDetector"
property NSLocale : class "NSLocale"
on detectData(theText, dataTypes)
-- ビット演算のかわりに単純に足す
set num to 0
repeat with thisType in dataTypes
set num to num + (thisType as integer)
end repeat
-- 検出するデータのタイプを指定して検出器を作成
set aDetector to NSDataDetector's dataDetectorWithTypes:num |error|:(missing value)
-- 文字列内から目的のデータを取得
set matches to aDetector's matchesInString:theText options:0 range:{location:0, |length|:count theText}
-- 検索結果からデータの文字列だけを抜き出して返す
set findList to {}
repeat with match in matches
if match's resultType() is (current application's NSTextCheckingTypeLink) then
-- URL にマッチ
set theURL to match's |URL|()
set end of findList to ((theURL's |description|()) as text)
else if match's resultType() is (current application's NSTextCheckingTypePhoneNumber) then
-- 電話番号にマッチ
set end of findList to (match's phoneNumber) as text
else if match's resultType() is (current application's NSTextCheckingTypeDate) then
-- 日付にマッチ
set theDate to match's |date|()
set end of findList to ((theDate's descriptionWithLocale:(NSLocale's currentLocale)) as text)
else if match's resultType() is (current application's NSTextCheckingTypeAddress) then
-- 住所にマッチ
set theAddress to match's addressComponents()
set end of findList to theAddress as record
else
-- 上記以外はログに表示
log ((match's |description|()) as text)
end if
end repeat
return findList
end detectData

このライブラリを次のようにして利用します。抜き出すデータの種類はリストで渡します。

set theText to "AppleScript の情報を発信しています(http://ashplanning.blogspot.jp)。東京都千代田区千代田1−1は皇居の住所です。これはサンプルの文字列です。
7月12日8時10分。千代田区。兵庫県。7月。
090-1000-0000という電話番号。00-1234-56778。ダミーの電話番号なのでいたずらしないでね。"
tell script "ASDataDetector"
detectData(theText, {current application's NSTextCheckingTypeLink, current application's NSTextCheckingTypeDate, current application's NSTextCheckingTypePhoneNumber, current application's NSTextCheckingTypeAddress})
--> {"http://ashplanning.blogspot.jp", {State:"東京都", Street:"千代田1−1", City:"千代田区"}, "2014年7月12日土曜日 8時10分00秒 日本標準時", "090-1000-0000", "00-1234-56778"}
end tell

一定の書式に従っていないデータは抜き出せないという制限はありますが、十分に利用できますね。