録音機以上に「速記不要」と言われたのが、音声認識装置が登場したときでした。私もよく「もう速記者は要らんな」と言われ、ブチ切れそうになったものです。
登場したてのころの音声認識は認識率が問題外でしたから「あら、そう」と軽くあしらっていればよかったのですが、その後、認識率も少しずつ向上し、十分な条件を整えればそれなりの認識をするようになってきました。
もちろん、そのまま記録として使用できるような代物にはほど遠いのですが、それでも、事情のよくわからない人には「発言がそのまま自動的に文字化されて記録ができ上がる」というような誤解が蔓延しつつあります。地方議会でも、入札条件に「音声認識を使用すること」を入れるという、私にすれば全く意味不明のようなことをしているところも出てきていますし。
音声認識というシステム、実は2つの工程で成り立っています。
1つ目は音の定着ですが、これはほとんど録音と同じと考えていいでしょう。発言をパソコンに一旦録音する、それだけです。
そして、2つ目がその音声をもとに自動的に文字化するという工程です。この第1・2工程をほとんど切れ目なく行うことができるので、何か特別なシステムのように思いますが、要は、録音と自動反訳というシステムです。
録音段階では、どれだけきれいに音を捉えられるかが勝負です。ですから、机の上にぽんとICレコーダーを1つ置いただけで数メートルも離れた人の発言を拾おうというよう場合は話になりません。相当きれいに目的の発言だけが録音され、よく使う言葉も辞書に登録されていて、話し方も余り乱れずに理路整然と、ゆっくりはっきりといった、さまざまな条件が整って、やっと何とか……というレベルだと思います。
実は、速記にしろ、録音にしろ、音声認識にしろ、誰かが必ず一定の正確度を持った「記録」として仕上げていく作業が必要なわけで、そこの作業のレベルで記録の品質が決まってしまうわけですが、その辺が余り理解されず、ピント外れな議論が多くなっている現状は困ったものだと思っています。一度、5分でも10分でも記録作成を実際にやってもらえれば、すぐにわかってもらえるんでしょうがね。