[レベル: 上級]
データセット検索 (Dataset Search) の正式版を Google は公開しました。
データセット検索は、2018 年 9 月にベータ版として提供が始まっていました。
数値を扱うデータを検索
データセット検索は、統計や調査など数字を扱うデータを専門に検索するための検索サービスです。
例として、生命科学や社会科学、機械学習、市民および政府などではさまざまなデータがさまざまな組織・機関から発行されています。
こうしたデータをデータセット検索で見つけられます。
たとえば、ウェブで公開されている、世界の国ごとのスマートフォン利用者 (Smartphone users by country worldwide) の統計データを検索できます。
日本語にもデータセット検索は対応しています。
たとえば [温暖化] に関連する統計データを探せます。
もし僕が地球温暖化をテーマに卒業論文を書いている大学生だったとしたら、関連データを見つける手助けにこの検索結果はなりそうです。
検索結果に出てきたデータセットは、次のような要素でフィルタリングできます。
- 更新日
- ダウンロード形式(表・ドキュメント・テキスト etc.)
- ライセンス(営利目的・非営利目的での利用の可否)
- 無料かどうか
統計データを必要とするコンテンツを作るときにデータセット検索は重宝しそうです。
「数字」に基づくエビデンスを提供するのとしないのとでは説得力に大きな差が出ます。
意見ではなく事実を提示できるからです。
見つけたデータセットはダウンロード可能です。
地学や生物学、農業を筆頭に 600 万件以上の統計データがデータセット検索に現在登録されているとのことです。
Dataset 構造化データでマークアップ
あなたがウェブで公開している数字データをデータセット検索にインデックスさせることができます。
schema.org の Dataset 構造化データ (schema.org/Dataset
) でマークアップします。
<script type="application/ld+json">
{
"@context":"https://schema.org/",
"@type":"Dataset",
"name":"NCDC Storm Events Database",
"description":"Storm Data is provided by the National Weather Service (NWS) and contain statistics on...",
"url":"https://catalog.data.gov/dataset/ncdc-storm-events-database",
"sameAs":"https://gis.ncdc.noaa.gov/geoportal/catalog/search/resource/details.page?id=gov.noaa.ncdc:C00510",
"identifier": ["https://doi.org/10.1000/182",
"https://identifiers.org/ark:/12345/fk1234"],
"keywords":[
"ATMOSPHERE > ATMOSPHERIC PHENOMENA > CYCLONES",
"ATMOSPHERE > ATMOSPHERIC PHENOMENA > DROUGHT",
"ATMOSPHERE > ATMOSPHERIC PHENOMENA > FOG",
"ATMOSPHERE > ATMOSPHERIC PHENOMENA > FREEZE"
],
"license" : "https://creativecommons.org/publicdomain/zero/1.0/",
"hasPart" : [
{
"@type": "Dataset",
"name": "Sub dataset 01",
"description": "Informative description of the first subdataset...",
"license" : "https://creativecommons.org/publicdomain/zero/1.0/"
},
{
"@type": "Dataset",
"name": "Sub dataset 02",
"description": "Informative description of the second subdataset...",
"license" : "https://creativecommons.org/publicdomain/zero/1.0/"
}
],
......
</script>
データセット検索の対象となるデータセットデータは次のようなものです。
- データが格納されているテーブルまたは CSV ファイル
- テーブルの組織的なコレクション
- データが格納されている固有の形式のファイル
- 意味を持つデータセットを全体として構成するファイルのコレクション
- 構造化オブジェクトと他の形式のデータの組み合わせ
- データをキャプチャする画像
- 機械学習に関連するファイル(学習済みパラメータやニューラル ネットワークの構造定義など)
- データセットのように見えるすべてのもの
最後の「データセットのように見えるすべてのもの」に注目です。
これでなければならないという明確な定義は(少なくとも今のところは)ありません。
あなたが、これは統計データだ調査データだとみなせばそれで条件を満たします。
データセット検索によって、それまでなかったトラフィックが、ウェブ検索以上の量で増加したという学術サイトも存在するようです。
あなたが、数字を扱う何らかのデータをサイトで所有しているとしたら、Dataset 構造化データを実装してみるのもいいでしょう。
データセット検索からの追加トラフィックを獲得できるかもしれません。
Dataset マークアップの技術要件の詳細はデベロッパーサイトで確認できます。