audio processing と machine learning

2009年に帰国したぼくを雇ってくれた今の会社では、これまで画像処理を中心に研究開発的なプログラミングをやってきた。それが、ここ半年から１年前から、機械学習に軸足を移して仕事をしてる。（もちろん、これ以前にも手は出していたが。）この間、プログラミングの環境は python がメインになり（といっても、個人的にはこれまでも perl や ruby よりも python が一番好きで使ってたが）、 TensorFlow を勉強して、Keras を勉強して、PyTorch を勉強して、という風に世間の皆さんと同様慌ただしい学習体験だった。（この調子で、まだしばらく、いろいろ出てくるんだろうな。）
そういうこともあり、deep learning 関係の情報収集は継続的にやってて、つい先日も、次のツイートを見つけた
from https://twitter.com/fjord41/status/963165268330536960
```
New blog post about the project I've been working on for a while.

Automatic piano music transcription (raw audio to MIDI)

that works really well!
6:37 AM - 13 Feb 2018

	
```
引用されてたのは、以下の magenta のブログ
- magenta: Onsets and Frames: Dual-Objective Piano Transcription (Feb 12, 2018)
おもしろい、というか WaoN がやってることそのままじゃないか。WaoN と対決させてみようかな。
この magenta のプロジェクト、colab に Jupyter Notebook も公開してる。
- colab notebook: Onsets and Frames: Dual-Objective Piano Transcription
ぼく自身も、最近は Jupyter Notebook で生活してるので、そこで音をどう扱ってるのかについて、興味深い。しかし、世の中は未だに fluidsynth なんだと、ちょっと感慨深くなった。というか WaoN も、もうちょっと頑張るか、と思った。
ふとググったら、
なんかパラメータいっぱいあってもっと調整できそうだけどドキュメントがないので星二つ
とか (cf. SF の User Reviews)、
WaoN がどうやってるのか知りたくてソース読んだけどゴチャゴチャしててわかんね
とか (cf. stackoverflow)、なんか申し訳ない気分でいっぱいだし、中身をきちんと説明することの需要もあるのかな、と思ったので、 Jupyter で何かやってみようかな。 phase shift で周波数を補正してるところは neat だと思うし。
そんなことを思って、自分の環境にも fluidsynth を入れてみたが、これ、anki の solfege プロジェクトにも使えるね。（この件については、また改めて書こうと思う。）
そんなこんなで、気づいたら日曜も終わってしまったので、「TensorFlow vs WaoN」も、「WaoN の中身」も、また今度。
書いて投稿するハードルを下げる、をモットー（言い訳）に！

市來健吾の日記

プログラマ、(元)物理屋(ナノテク、流体)

audio processing と machine learning