市來健吾の日記

プログラマ、(元)物理屋(ナノテク、流体)

audio processing と machine learning


  • 2009年に帰国したぼくを雇ってくれた今の会社では、これまで画像処理を中心に 研究開発的なプログラミングをやってきた。 それが、ここ半年から1年前から、機械学習に軸足を移して 仕事をしてる。(もちろん、これ以前にも手は出していたが。) この間、プログラミングの環境は python がメインになり (といっても、個人的にはこれまでも perlruby よりも python が 一番好きで使ってたが)、 TensorFlow を勉強して、Keras を勉強して、PyTorch を勉強して、 という風に世間の皆さんと同様慌ただしい学習体験だった。 (この調子で、まだしばらく、いろいろ出てくるんだろうな。)

  • そういうこともあり、deep learning 関係の情報収集は継続的にやってて、 つい先日も、次のツイートを見つけた
    from https://twitter.com/fjord41/status/963165268330536960

    New blog post about the project I've been working on for a while.
    Automatic piano music transcription (raw audio to MIDI)
    that works really well!

    6:37 AM - 13 Feb 2018

    引用されてたのは、以下の magenta のブログ おもしろい、というか WaoN がやってることそのままじゃないか。WaoN と対決させてみようかな。

  • この magenta のプロジェクト、colab に Jupyter Notebook も公開してる。 ぼく自身も、最近は Jupyter Notebook で生活してるので、 そこで音をどう扱ってるのかについて、興味深い。 しかし、世の中は未だに fluidsynth なんだと、ちょっと感慨深くなった。というか WaoN も、もうちょっと頑張るか、と思った。

  • ふとググったら、
    なんかパラメータいっぱいあってもっと調整できそうだけどドキュメントがないので星二つ
    とか (cf. SF の User Reviews)、
    WaoN がどうやってるのか知りたくてソース読んだけどゴチャゴチャしててわかんね
    とか (cf. stackoverflow)、 なんか申し訳ない気分でいっぱいだし、 中身をきちんと説明することの需要もあるのかな、と思ったので、 Jupyter で何かやってみようかな。 phase shift で周波数を補正してるところは neat だと思うし。

  • そんなことを思って、自分の環境にも fluidsynth を入れてみたが、 これ、anki の solfege プロジェクトにも使えるね。 (この件については、また改めて書こうと思う。)

  • そんなこんなで、気づいたら日曜も終わってしまったので、 「TensorFlow vs WaoN」も、「WaoN の中身」も、また今度。

  • 書いて投稿するハードルを下げる、をモットー(言い訳)に!