こんにちはRicoです!
今回は、弊社がHRogリストやHRogチャートなどの
サービスを提供するまでに、どのようなことを行っているのか、
説明させていただこうと思います!
みなさんに、より簡単に想像をしていただくため、
魚の流通過程に例えて説明させていただきます。
データ取得からサービス提供まで
①クローリング
まずは「クローリング」と言って、
各媒体の詳細ページ上にあるHTMLを
テキストデータとして取得してきます。
魚の流通過程で例えますと、こちらの作業は
漁獲に当たる部分となります。
漁場(各媒体)へ行き、
魚(データ)を漁ってくるという
漁業(データ取得)の根本となる部分です。
その際、海が荒れていて船が出せなかったり(通信エラー)
漁場の水質が変わり、漁れるはずの魚が取れなかったり(サイト改変)
あらゆる問題が起こりますが、新鮮な魚(データ)を提供するため、
日々その時々に合った対応・対策をしております。
© 2017 ACworks Co.,Ltd. (https://goo.gl/8qik6e)
②スクレイピング
次に「スクレイピング」を行います。
スクレイピングとは、
①で取得してきたHTMLから、必要箇所を抽出し、
媒体毎に特定の項目を持った、
リストデータとして成形していきます。
魚の流通過程で例えますと、
漁ってきた魚(データ)を漁場(媒体)毎に
トラック(リスト)に積んで行く(成形する)ようなイメージです。
© 2017 ACworks Co.,Ltd.(https://goo.gl/Pbf82L)
③データ格納
スクレイプして出来たリストデータは、
その後、弊社のデータサーバへ格納されます。
媒体にもよりますが、データサーバには
2014年より毎日・毎週データが蓄積されております。
こちらを魚の流通過程で例えますと、
卸売市場への荷おろしの様なものかと思います。
様々な漁場(媒体)から、
トラックに積まれた(リストに成形された)
魚(データ)が卸売市場(データサーバ)へ
荷おろし(格納)されます。
© 2017 ACworks Co.,Ltd. (https://goo.gl/WI3jdT)
この時HRogメールや日次納品などは、
データサーバへ格納後、弊社独自プログラムにより加工を加え、
取得から数時間でお客様へ納品されます。
こちらも例えるとしたら、
漁ってきてすぐ提供(納品)されるという点で、
市場場外の魚屋さんのイメージでしょうか。
© 2017 ACworks Co.,Ltd. (https://goo.gl/FXtjzu)
④データクレンジング
データサーバへ格納後、「住所」や「社名」を
人の目でチェックしていきます。
不要な文字列が入っていないか、
「♪」や「♡」などの飾り文字が入っていないか
また「株式会社ゴーリスト 大阪支社」の様に
媒体上に載っている場合、「株式会社ゴーリスト」「大阪支社」と、
「法人名」と「事業所名」としてそれぞれを分割したり
これらを「データクレンジング」として行っております。
魚の流通過程で例えますと、解体作業ですね。
尾を切ったり(不要文字列削除や項目分割をしたり)と、
取り扱いし易い形に解体(データクレンジング)をします。
また、このデータクレンジングを行わずに、
特定の加工を加えるのみでご納品する、という場合もございます。
© 2017 ACworks Co.,Ltd.(https://goo.gl/zTrHVZ)
⑤データ作成
ここでやっと納品用データの作成が可能になります。
作成されたデータはHRogリストとして
お客様毎にご要望される形で納品されます。
これを魚の流通過程で例えますと、卸売りでしょうか。
魚屋さんやお寿司屋さんのような買出人(お客様)のために
扱い易い大きさや量(ご要望の形)になるよう、
それぞれの魚(データ)を処理(加工)してから
販売(ご納品)している部分ですね。
© 2017 ACworks Co.,Ltd. (https://goo.gl/myLWbE)
⑥HRogチャートへデータ投入
⑤の納品用データの作成と同じタイミングで
HRogチャートへの投入用データも作成しております。
(媒体によってはデータクレンジング後のデータを当てておりますが、
取得週のものではなく、取得週の前週のものを当てております。)
HRogチャートは弊社が取得した求人データを
媒体をまたいで集計・分析できるサービスですので、
魚の流通過程で例えますと、
場外で提供される様々な魚介類の乗った海鮮丼ですかね・・・
© 2017 ACworks Co.,Ltd. (https://goo.gl/vwF9XQ)
最後に・・・
海鮮丼はちょっと無理やりすぎましたが、
これでデータ取得からサービス提供までの流れを
把握してもらえたのではないでしょうか?!
ちなみに①~⑥までの必要日数は基本的に10営業日となり、
流れは以下の通りとなります。
■基本的な流れ
①クローリング:毎日~取得週の水曜日まで
②スクレイピング:媒体毎に①完了次第
③データサーバへ格納:②完了次第
④データクレンジング:取得週の水曜日~翌週の木曜日朝まで
⑤データ作成:目視検査なしの場合は取得週の木曜日~金曜日、
目視検査ありの場合は翌週の木曜日~金曜日
⑥HRogチャートへデータ投入:取得週の金曜日まで
※ご納品形式、媒体、取得状況によっては、10営業日以上いただく場合もございます。
「説明が分からない!」
「もっと詳しく知りたい!」
「なんで魚の流通過程で例えたんだ!」
など、たくさん疑問が浮かんだかと思います・・・
そんな方はぜひ、Rico(本名は山下法子)まで
お問い合わせいただければと思います!!
※本記事に使用している写真・画像は全て以下サイトよりダウンロードの上利用しております。