迷走ブログ

迷走している全ての人に役立つ情報を送るブログです

【python】知財(商標)のデータ処理

はじめに

この記事では、pythonを用いて、知財(商標)のデータを加工し、可視化することを試みました。そして、そこから何が得られるのか(何を予想できるのか)を確認していきます。

 

ここでは、「前の記事」で「お天気アプリ会社」について調べた際のデータを使用していきます。一旦、前回の前提知識は忘却し、データから何を予想できるのか、という思考回路の練習ができたらとおもいます。

 

www.moyo-stray-sheep.work

 

*プログラミング初心者ですので、温かい目で見守って頂ければ幸いです。

また、改善点等ありましたら、ご指摘頂きたいです。

 

 

データを用意するーー「jplat-pat」を利用ーー

jplat-patというデータベースを通して、公開情報が、提供されています。

まずは、そこから、データを取ってきます。

(ただし、スクレイピングは禁止されているぽいので、今回はしていません)

面倒ですが、手動で、CSV出力をしました。(笑)

 

ここでは、「株式会社ウェザーニューズ」と「株式会社ALiNK インターネット」の名義で存続中の権利のみのデータをそれぞれ2つのファイルとして出力しました。

 

ほんとならば、会社HP等を確認して、関連会社(出資会社等)を特定し、その関連会社名義の商標のデータも取得した方が良いのですが、今回は省略します。

 

とりあえず、1つ目のCSVファイルの中身を見ると、以下のような感じでした。

セルの結合はされていないみたいなので、厄介なことにはなっていないようです。

 

f:id:yktmmrmtoosa03:20201129153051j:plain

複数のファイルを結合し、邪魔なデータを削除する

まずは、用意した複数のファイルデータを結合します。

今回は、2つのCSVファイルですので、それらを結合するだけなので、楽そうですね。

 

ググりながら、以下のプログラムを書きました。

 

 

ただし、「欠損値」があります。

どのようなデータが「欠損値」なのか把握してみると、「商標(検索用)」の「ロゴ(画像)要素のみ」と「称呼基準」にあるようです。

そこで、「称呼基準」は、データとして比較する予定はないため、削除しました。

 (ちなみに、「URL」部分も不要のため、削除しました。)

 

また、「商標(検索用)」部分は、ロゴデータのみで構成されている部分のようです。

その部分は、単に「ロゴ」で統一しておきます。

 

疲れすぎて、途中端折りました(笑) 

 

可視化:出願人ごとの権利存続中の商標数を出力

 それぞれの生きている商標の数を見てみることで、どのくらいのサービス数を抱えているのかざっくりと把握してみます。とりあえず、出願人ごとの出願数を把握してみます。

 

もちろん、「商標数=実際に提供しているサービスの数」ではないため、せいかくではないです。

 

とりあえず、データ処理の練習なので、細かいことは気にしない(笑)

 

 

まずは、出願人ごとのデータを整理してみます。

出願人ごとの生きている商標の数をそれぞれ見てみます。

 

value_counts() を用います。

結果を出力してみると、出願人に「一般財団法人日本気象協会」の文字が発見できます。

 

また、せっかくなので覚えたてのグラフ化もしてみました。

 

分かること①

圧倒的に、「株式会社ウェザーニューズ」が商標数多い。

 

のちほど、どの区分で出願しているのかも確認しますが、とりあえず、「株式会社ウェザーニューズ」は、サービスを多数抱えている可能性が高いことが予想されます。

 

分かること②

 「株式会社ALiNK インターネット」は、共同出願している数が、単独名義で出願している数よりも多い。

 

要は、単独のサービスというよりも、共同運営しているサービスが主軸であるということがわかりますね。

 

おわりに

 とりあえず、今回は、精根尽き果てたため、ここまで。(笑)