はじめに
この記事では、pythonを用いて、知財(商標)のデータを加工し、可視化することを試みました。そして、そこから何が得られるのか(何を予想できるのか)を確認していきます。
ここでは、「前の記事」で「お天気アプリ会社」について調べた際のデータを使用していきます。一旦、前回の前提知識は忘却し、データから何を予想できるのか、という思考回路の練習ができたらとおもいます。
*プログラミング初心者ですので、温かい目で見守って頂ければ幸いです。
また、改善点等ありましたら、ご指摘頂きたいです。
データを用意するーー「jplat-pat」を利用ーー
jplat-patというデータベースを通して、公開情報が、提供されています。
まずは、そこから、データを取ってきます。
(ただし、スクレイピングは禁止されているぽいので、今回はしていません)
面倒ですが、手動で、CSV出力をしました。(笑)
ここでは、「株式会社ウェザーニューズ」と「株式会社ALiNK インターネット」の名義で存続中の権利のみのデータをそれぞれ2つのファイルとして出力しました。
ほんとならば、会社HP等を確認して、関連会社(出資会社等)を特定し、その関連会社名義の商標のデータも取得した方が良いのですが、今回は省略します。
とりあえず、1つ目のCSVファイルの中身を見ると、以下のような感じでした。
セルの結合はされていないみたいなので、厄介なことにはなっていないようです。
複数のファイルを結合し、邪魔なデータを削除する
まずは、用意した複数のファイルデータを結合します。
今回は、2つのCSVファイルですので、それらを結合するだけなので、楽そうですね。
ググりながら、以下のプログラムを書きました。
ただし、「欠損値」があります。
どのようなデータが「欠損値」なのか把握してみると、「商標(検索用)」の「ロゴ(画像)要素のみ」と「称呼基準」にあるようです。
そこで、「称呼基準」は、データとして比較する予定はないため、削除しました。
(ちなみに、「URL」部分も不要のため、削除しました。)
また、「商標(検索用)」部分は、ロゴデータのみで構成されている部分のようです。
その部分は、単に「ロゴ」で統一しておきます。
疲れすぎて、途中端折りました(笑)
可視化:出願人ごとの権利存続中の商標数を出力
それぞれの生きている商標の数を見てみることで、どのくらいのサービス数を抱えているのかざっくりと把握してみます。とりあえず、出願人ごとの出願数を把握してみます。
もちろん、「商標数=実際に提供しているサービスの数」ではないため、せいかくではないです。
とりあえず、データ処理の練習なので、細かいことは気にしない(笑)
まずは、出願人ごとのデータを整理してみます。
出願人ごとの生きている商標の数をそれぞれ見てみます。
value_counts() を用います。
結果を出力してみると、出願人に「一般財団法人日本気象協会」の文字が発見できます。
また、せっかくなので覚えたてのグラフ化もしてみました。
分かること①
圧倒的に、「株式会社ウェザーニューズ」が商標数多い。
のちほど、どの区分で出願しているのかも確認しますが、とりあえず、「株式会社ウェザーニューズ」は、サービスを多数抱えている可能性が高いことが予想されます。
分かること②
「株式会社ALiNK インターネット」は、共同出願している数が、単独名義で出願している数よりも多い。
要は、単独のサービスというよりも、共同運営しているサービスが主軸であるということがわかりますね。
おわりに
とりあえず、今回は、精根尽き果てたため、ここまで。(笑)