【GASぷちテク】Google Apps Scriptで日本語にフリガナをふる方法
【GASぷちテク】Google Apps Scriptで日本語にフリガナをふる方法:
みなさんは、ExcelのPHONETIC関数をご存知でしょうか?
PHONETIC関数は、特定のセルの日本語文字列のルビを抽出する関数です。
名簿を作成する場合など、フリガナを別セルに記述したいときに重宝します。
ただ、PHONETIC関数はセルに直接入力した文字列からしかルビを抽出できず、他のファイル等からコピペした文字列のルビは抽出できません。これはルビがIMEの変換情報から作成されるため、その他の入力方法だとルビ情報が作成されないことが原因です。
これでは、Excel以外で管理していた名簿からフリガナをふりたい場合は、結局手入力をするしかありません。
このような問題を解決する方法として、今回はGoogle Apps Script(以下、GAS)と日本語文字列をひらがな/カタカナに変換する、gooラボの「ひらがな化API」を用いて、既に入力済の日本語文字列にフリガナをふる方法をご紹介します。
ひらがなAPIは、gooラボが提供するAPIで、日本語文字列をひらがな、またはカタカナに変換するAPIです。
※「ひらがなAPI」という名称なのに「カタカナ」にも変換できるのはユニークですね。
https://labs.goo.ne.jp/api/jp/hiragana-translation/
gooラボのAPIを利用するには、事前の利用登録が必要です。
詳細は公式の利用手順をご覧ください。ここでは要点だけ説明します。
gooラボのAPIを利用するには、GitHubのアカウントが必要です。GitHubアカウントをお持ちでない方は、先にGitHubのアカウントを登録してください。
GitHubのアカウントができたら、APIを使用する際に必要なアプリケーションIDを発行します。アプリケーションIDは、アプリケーションがAPIを使用する際の認証に使用されます。API利用登録ページから発行します。
それでは具体的なやり方を説明します。
今回は名簿を作成することをイメージして、Google Spread SheetにGASのスクリプトを作成して利用する方式にします。
まずは、Google Spread Sheetを起動し、GASを作成します。[ツール] > [スクリプトエディタ]を選択し、GASのエディタを開きます。
エディタが開いたら、フリガナを求めるスクリプトを書いていきます。
フリガナを作成する関数「perform」を作成しました。
ひらがなAPIは「ひらがな」「カタカナ」の両方に変換できるため、「変換後形式 output_type("hiragana" or "katakana")」「変換したい文字列:sentence」の2つを引数として得るようにします。
この関数の役割は、「gooラボのひらがなAPIを使用して、引数で指定された文字列を、同じく引数で与えられた形式に変換し、その結果を文字列として返却すること」です。
GASからひらがなAPIを使用するには、GASのUrlFetchAppクラスを使ってひらがなAPIにリクエストを送信します。ソース中の①がAPIのリクエストURLを、②〜④でリクエストパラメータを設定しています。リクエストパラメータの内容と、perform関数内で使用する値の関係を下表に示します。
リクエストURL、リクエストパラメータを定義できたら、UrlFetchApp.fetchを使用してひらがなAPIと通信し、変換後の結果を得ます。(ソース中の⑤)
※本来であればエラー処理が必要ですが、説明の本筋ではないので割愛しています。
perform関数をスプレッドシートから直接してもいいのですが、使用者にわかりやすく、「ひらがな変換関数」「カタカナ変換関数」を別途を用意します。
ひらがな変換関数/カタカナ変換関数はスプレッドシートから呼び出す際のインターフェースの役目であり、変換処理そのものはperform関数に委譲する形式にします。
それでは、作成した「ひらがな変換関数」、「カタカナ変換関数」を使用して、日本語文字列を変換してみます。使い方は簡単で、セルで下図のように関数を使用するだけです。
まずは各関数を使用して、漢字をひらがな、カタカナに変換してみましょう。
A列が「変換対象」、B列が「ひらがな変換」、C列が「カタカナ変換」です。
それぞれ、正しく変換できていますね。
漢字以外も試したいと思います。
漢字とひらがな/カタカナを混ぜた文字列を変換させてみました。きれいにひらがな、カタカナに変換されていますね。
この処理でわかることは、「ひらがなをひらがなに変換」、「カタカナをカタカナに変換」はそのまま出力されます。
アルファベットはどうでしょうか?
きちんと変換していますね。しかも半角/全角共に同じ結果です。
単純なアルファベットでしたが、今度は英字を含む単語を変換してみます。
読み仮名で変換してくれています!これはすごい。
「かむ おん べびー」が若干残念な変換になったのはご愛嬌ですね。
最後に数字を変換してみます。
アルファベット同様に、日本語での読みに変換しています。ただし、よくよく見てみると、2点特徴的な変換をしています。
1つ目は、1行目の「100」を「ひゃくてんぜろ」と変換していることです。これはセルの値が数値型の場合にこのような変換をされます。挙動から推測するに、数値型のセル情報は実数型として扱われているのかもしれません。それであればこの結果には納得です。とはいえ、そもそもセルに数字しか無いのにひらがなに変換することはないと思いますので、使う分には問題ないでしょう。
2つ目は、4行目の「2020」を「にせんにじゅー」と変換していることです。発音としては100歩譲って許容できますが、文章としては「にせんにじゅう」が表現としては正しいでしょう。文章のフリガナをふるような場合は、注意が必要かもしれません。
Google Apps ScriptとgooラボのひらがなAPIを使用して、ひらがな/カタカナのフリガナをふる方法をご紹介してきました。これで、突然名簿のフリガナをふる仕事を依頼されても大丈夫ですね!
筆者は職業柄、検索システムの開発に関わることがよくあります。そのとき、必ずといってあるのが「名前検索」と「カナ検索」でした。Apache Solrや、昨今の高精度な検索サービスを利用できれば、名称からフリガナを自動的に判断してくれますが、古典的な手段では「名前」と「フリガナ」の情報をデータベースに持ち、検索クエリを作成するという手段をとっていました。これまでは半ば諦めて手入力でフリガナを作成していましたが、この方法を知ってからは圧倒的に簡単な作業ですばやく終わらせることができています。おかげで「簡単だが手間のかかる仕事」の一つが解決できました。
似たようなことで苦労をされている方は、ぜひ試してみてください。
はじめに
みなさんは、ExcelのPHONETIC関数をご存知でしょうか?PHONETIC関数は、特定のセルの日本語文字列のルビを抽出する関数です。
名簿を作成する場合など、フリガナを別セルに記述したいときに重宝します。
ただ、PHONETIC関数はセルに直接入力した文字列からしかルビを抽出できず、他のファイル等からコピペした文字列のルビは抽出できません。これはルビがIMEの変換情報から作成されるため、その他の入力方法だとルビ情報が作成されないことが原因です。
これでは、Excel以外で管理していた名簿からフリガナをふりたい場合は、結局手入力をするしかありません。
このような問題を解決する方法として、今回はGoogle Apps Script(以下、GAS)と日本語文字列をひらがな/カタカナに変換する、gooラボの「ひらがな化API」を用いて、既に入力済の日本語文字列にフリガナをふる方法をご紹介します。
ひらがなAPIとは
ひらがなAPIは、gooラボが提供するAPIで、日本語文字列をひらがな、またはカタカナに変換するAPIです。※「ひらがなAPI」という名称なのに「カタカナ」にも変換できるのはユニークですね。
https://labs.goo.ne.jp/api/jp/hiragana-translation/
gooラボ APIの使い方
gooラボのAPIを利用するには、事前の利用登録が必要です。詳細は公式の利用手順をご覧ください。ここでは要点だけ説明します。
GitHubアカウントを登録をする
gooラボのAPIを利用するには、GitHubのアカウントが必要です。GitHubアカウントをお持ちでない方は、先にGitHubのアカウントを登録してください。
アプリケーションIDを発行する
GitHubのアカウントができたら、APIを使用する際に必要なアプリケーションIDを発行します。アプリケーションIDは、アプリケーションがAPIを使用する際の認証に使用されます。API利用登録ページから発行します。
Google Spread Sheet上の日本語にフリガナをふる
それでは具体的なやり方を説明します。今回は名簿を作成することをイメージして、Google Spread SheetにGASのスクリプトを作成して利用する方式にします。
GASでひらがなに変換するスクリプトを作成する
まずは、Google Spread Sheetを起動し、GASを作成します。[ツール] > [スクリプトエディタ]を選択し、GASのエディタを開きます。エディタが開いたら、フリガナを求めるスクリプトを書いていきます。
フリガナ作成処理
var perform = function(output_type, sentence) { var endpoint = "https://labs.goo.ne.jp/api/hiragana"; // ① var payload = { "app_id": "XXXXXXXXXXXXXXXXXXXXXXXXX", // ② "sentence": sentence, // ③ "output_type": output_type // ④ }; var options = { "method": "post", "payload": payload }; var response = UrlFetchApp.fetch(endpoint, options); // ⑤ var response_json = JSON.parse(response.getContentText()); return response_json.converted; };
ひらがなAPIは「ひらがな」「カタカナ」の両方に変換できるため、「変換後形式 output_type("hiragana" or "katakana")」「変換したい文字列:sentence」の2つを引数として得るようにします。
この関数の役割は、「gooラボのひらがなAPIを使用して、引数で指定された文字列を、同じく引数で与えられた形式に変換し、その結果を文字列として返却すること」です。
GASからひらがなAPIを使用するには、GASのUrlFetchAppクラスを使ってひらがなAPIにリクエストを送信します。ソース中の①がAPIのリクエストURLを、②〜④でリクエストパラメータを設定しています。リクエストパラメータの内容と、perform関数内で使用する値の関係を下表に示します。
項目 | 設定値 |
---|---|
app_id | API利用登録ページで発行したアプリケーションID (ソース中の②) |
sentence | 変換したい文字列 (引数:sentenceが該当。ソース中の③) |
output_type | 変換後の形式 (引数:output_typeが該当。ソース中の④) |
※本来であればエラー処理が必要ですが、説明の本筋ではないので割愛しています。
perform関数をスプレッドシートから直接してもいいのですが、使用者にわかりやすく、「ひらがな変換関数」「カタカナ変換関数」を別途を用意します。
ひらがな変換関数
function getHiragana(input) { return perform("hiragana", input); }
カタカナ変換関数
function getKatakana(input) { return perform("katakana", input); }
作成したスクリプトを使ってみる。
それでは、作成した「ひらがな変換関数」、「カタカナ変換関数」を使用して、日本語文字列を変換してみます。使い方は簡単で、セルで下図のように関数を使用するだけです。ひらがな変換関数の使い方
=getHiragana(A1)
カタカナ変換関数の使い方
=getKatakana(A1)
日本語(漢字) → ひらがな/カタカナへの変換
まずは各関数を使用して、漢字をひらがな、カタカナに変換してみましょう。A列が「変換対象」、B列が「ひらがな変換」、C列が「カタカナ変換」です。
それぞれ、正しく変換できていますね。
日本語(漢字以外) → ひらがな/カタカナへの変換
漢字以外も試したいと思います。漢字とひらがな/カタカナを混ぜた文字列を変換させてみました。きれいにひらがな、カタカナに変換されていますね。
この処理でわかることは、「ひらがなをひらがなに変換」、「カタカナをカタカナに変換」はそのまま出力されます。
アルファベット → ひらがな/カタカナへの変換
アルファベットはどうでしょうか?きちんと変換していますね。しかも半角/全角共に同じ結果です。
単純なアルファベットでしたが、今度は英字を含む単語を変換してみます。
読み仮名で変換してくれています!これはすごい。
「かむ おん べびー」が若干残念な変換になったのはご愛嬌ですね。
数字 → ひらがなの変換
最後に数字を変換してみます。アルファベット同様に、日本語での読みに変換しています。ただし、よくよく見てみると、2点特徴的な変換をしています。
1つ目は、1行目の「100」を「ひゃくてんぜろ」と変換していることです。これはセルの値が数値型の場合にこのような変換をされます。挙動から推測するに、数値型のセル情報は実数型として扱われているのかもしれません。それであればこの結果には納得です。とはいえ、そもそもセルに数字しか無いのにひらがなに変換することはないと思いますので、使う分には問題ないでしょう。
2つ目は、4行目の「2020」を「にせんにじゅー」と変換していることです。発音としては100歩譲って許容できますが、文章としては「にせんにじゅう」が表現としては正しいでしょう。文章のフリガナをふるような場合は、注意が必要かもしれません。
さいごに
Google Apps ScriptとgooラボのひらがなAPIを使用して、ひらがな/カタカナのフリガナをふる方法をご紹介してきました。これで、突然名簿のフリガナをふる仕事を依頼されても大丈夫ですね!筆者は職業柄、検索システムの開発に関わることがよくあります。そのとき、必ずといってあるのが「名前検索」と「カナ検索」でした。Apache Solrや、昨今の高精度な検索サービスを利用できれば、名称からフリガナを自動的に判断してくれますが、古典的な手段では「名前」と「フリガナ」の情報をデータベースに持ち、検索クエリを作成するという手段をとっていました。これまでは半ば諦めて手入力でフリガナを作成していましたが、この方法を知ってからは圧倒的に簡単な作業ですばやく終わらせることができています。おかげで「簡単だが手間のかかる仕事」の一つが解決できました。
似たようなことで苦労をされている方は、ぜひ試してみてください。
コメント
コメントを投稿