«     »

OCRは時代の変化に弱い? Google Booksが古典文字「s」を「f」に誤認識

Posted by on 4月 6, 2015 at 11:04 am.

【編集部記事】卑語文学の研究ブログ「Strong Language」が、Google社の書籍検索サイト「Google Books」のOCR機能の限界を指摘している。

 記事によると、1800年以前の英語圏では「S」の小文字が2種類使われていたものの、Google側はそのうち1つをほぼ確実に「f」に誤認識。結果、「fuck」vs.「suck」の語彙分布を分析すると、ある時代に「fuck」の利用頻度が飛び上がって出てしまうという。【hon.jp】

問合せ先: Strong Languageブログの記事( https://stronglang.wordpress.com/2015/04/03/google-ngrams-vs-long-s/

Comments are closed.