audio processing と machine learning
2009年に帰国したぼくを雇ってくれた今の会社では、これまで画像処理を中心に 研究開発的なプログラミングをやってきた。 それが、ここ半年から1年前から、機械学習に軸足を移して 仕事をしてる。(もちろん、これ以前にも手は出していたが。) この間、プログラミングの環境は python がメインになり (といっても、個人的にはこれまでも perl や ruby よりも python が 一番好きで使ってたが)、 TensorFlow を勉強して、Keras を勉強して、PyTorch を勉強して、 という風に世間の皆さんと同様慌ただしい学習体験だった。 (この調子で、まだしばらく、いろいろ出てくるんだろうな。)
そういうこともあり、deep learning 関係の情報収集は継続的にやってて、 つい先日も、次のツイートを見つけた
from https://twitter.com/fjord41/status/963165268330536960
引用されてたのは、以下の magenta のブログ おもしろい、というか WaoN がやってることそのままじゃないか。WaoN と対決させてみようかな。
New blog post about the project I've been working on for a while.
Automatic piano music transcription (raw audio to MIDI)
that works really well!6:37 AM - 13 Feb 2018
この magenta のプロジェクト、colab に Jupyter Notebook も公開してる。
colab notebook: Onsets and Frames: Dual-Objective Piano Transcription
ふとググったら、なんかパラメータいっぱいあってもっと調整できそうだけどドキュメントがないので星二つ
とか (cf. SF の User Reviews)、WaoN がどうやってるのか知りたくてソース読んだけどゴチャゴチャしててわかんね
とか (cf. stackoverflow)、 なんか申し訳ない気分でいっぱいだし、 中身をきちんと説明することの需要もあるのかな、と思ったので、 Jupyter で何かやってみようかな。 phase shift で周波数を補正してるところは neat だと思うし。
そんなことを思って、自分の環境にも fluidsynth を入れてみたが、 これ、anki の solfege プロジェクトにも使えるね。 (この件については、また改めて書こうと思う。)
そんなこんなで、気づいたら日曜も終わってしまったので、 「TensorFlow vs WaoN」も、「WaoN の中身」も、また今度。
書いて投稿するハードルを下げる、をモットー(言い訳)に!