ホームセンターで自炊道具をゲット
自炊で効率的にスキャンする方法
キャノンのDR-P215を使っています 自炊していて、時間が最もかかるのが重送した時の対応です 沢山読み込んだ後に、最初の方に重送があるのに気づくと… この機種の問題かも知れませんが、ページの移動がしにくい ということは…
CodeColorer に Pig スクリプト追加
WordPress でソースコードを記述する時にハイライト表示プラグイン使いますよね。 例えば、SyntaxHighliter とか。今回は CodeColorer の Pig 対応を。 CodeColerer Plug…
Pig で RowNumber を使う
Oracle や PostgreSQL に入っている Row Number 関数。 Pig でも使いたいけど、UDF 書かないといけないのよね。 と思っていたら、こちらのサイトにソースが落っこちていた
Pig で HBase を Load と Store する
使用した環境は CentOS 使った HBase は yum でインストールした cdh3u5 のやつ そしてそれに付属する hadoop で 5 つマシン、myhost01 – myhost05 で Clu…
C 言語で IP アドレス判定する
Hadoop Pig でアクセスログを解析していると、IP アドレス範囲を解析したい場合ってありますよね Pig で IP アドレス範囲をチェックする場合、UDF を作る必要があります ただ、私は Java を使うことが…
pig で URL デコード
pig で URL デコードをしたくなる場合ありますよね。 最初に簡単な pig の Dynamic Invokers を使って URL デコードをしようと考えました しかし、なぜか Shift_JIS の時だけ上手く動…
Pig とセミコロン。ついでにクエスチョンマーク
Pig で関数にセミコロン使いたい時にエラーになる場合ありますよね。 REGEX_EXTRACT_ALL() や STRSPLIT() 使うときに。 私も相当悩みました・・・。 下記の URL が参考になります。 pig…
nkfでURLエンコード
簡単に URL エンコードしたいときありますよね。 Linux でバッチファイルでAPIをwgetで叩きたい時などありますよね Linuxゲリラ戦記を参考に下記のように使っていた だがしかし、長い文字列を URL エンコ…