ジャンル横断的な問題
この記事はとても人様に見せれるようなものではないのですが、自分のとっ散らかった考えを整理して道筋を立てるところまではいかないだろうけれど材料をとりあえず横並べするだけでもめっけもんくらいの気持ちで書き連ねてみようかと思います。いわば自分に…
ペンタクラスタキーボードでは単語をチャンクと捉え、字面だけのテキスト情報で済ませてしまうのを良しとせず、さまざまな注釈をほどこしてたとえばルビ情報であるとか音声読み上げであるとか同字異訓の読み分け(つらいとからいが区別できる)、アルファベッ…
合成音声の読み上げソフト『VOICEPEAK 商用可能 6ナレーターセット』が3月11日発売されます。昨今の音声合成ソフトを使った実況動画や解説動画などのコンテンツの盛り上がりはすさまじいものがありこのソフトの出現でユーザーシェアの地図が大きく塗り替えら…
勇気の枝豆、絶交のタイミング…なんだかトホホな誤変換ですがいまだに散見されます。「有機」「絶好」ちゃんと変換されてほしいですよね。ここで具陳とクリシェの話題に絡めていきますと「有機の--」「絶好の--」っていうのは一種のクリシェであって名詞を詳…
前回のおさらい・助詞を含む字面の並びだけで格納してしまえば慣用句・コロケーションの検出がしやすくなる(助詞に独自文字コードをあてる事前提で)・死角はない/資格はない:ユーザーが選ぶことで一意性のある導線・副詞のクリシェ検出はややこしい(単に規…
たとえば単語単位の言語モデル(単語N-gram言語モデル)で連接を拾っていこうとするとき、「気が気でない」 みたいに通常の慣用句としてなら取り出すことは可能かもしれませんが何か学芸会の劇の出し物で「木が木でない」といった状態をあらわそうとするにも特…
過去記事 アルファベット+促音の単語・表現いろいろ - 記事中の冒頭のほうでチラリとローマ字入力のしにくい「イッヌ」の文字列について考察していきましたが(軽く触れる程度)、話題はそこから「Mッフィー」「Mッキー」のような促音絡みの表記に力点を置いて…
①でカタカナ語、②で終助詞を含む文末表現、③では文法機能語と和語 について解説していきましたが今回はようやく未知語解釈の本丸「漢語複合語」についてまとめていきたいと思います。複合語を論ずるのなら、まず接辞のついた語についてウエイトを置いて紐解…
ここではまず複合語構成要素としての和語の存在について論じていき、それに加えてこの後の記事の漢語複合語に取りかかる前の地ならしとして文法機能語の解釈について掘り下げていきたいかと思います。文法機能語なので必ずしも未知語複合語の関わりとは薄い…
未知語用言全般、別口入力での様々な派生があることについては①番目の記事でざっとは触れていきましたが、今ここで一捻り「ビンジする」「ビンジる」「ビンジだ」「ビンジです」「ビンジな」「ビンジである」「ビンジになる」「ビンジとなる」等々例として「…
日本語入力をするうえで避けて通れないのはかな漢字変換エンジンの処理には常に想定可能なお行儀のよい語句ばかりで構成されているのではなく解釈困難な入力文字列が放り込まれることが往々にしてあること、これを念頭に入れておかねばなりません。システム…
でにをは別口入力では「はいになる」をカタカナ変換させると「ハイになる」と、助詞の部分には非干渉で変換してくれます。(フレーズまるごとフォーカスしていても変換意図を酌んでくれて部分的にカナ部分を判別)また、漢字交じりで「盛り盛りと」となってし…
容易されており師弟する状況する内臓する確率されておらず多様される のようにサ変動詞ではないものが一般名詞などと混同されて--する、になってしまう誤変換は今はどうだか知りませんが昔はよくあったものです。これはシステム辞書的には適切に品詞分類がな…
タイピング時にはミススペル・誤打鍵がつきものですがすでに先行技術ではスペルチェッカ・コレクタなどの実用化も見られます。 日本語入力における誤打鍵修正の可能性については、 未知語の復元 - 誤打鍵特性利用による語の絞り込み効果について(野田雄三 19…
「イッヌ」…ネットを見てると時々目にする言葉ですがこれはローマ字入力だとどうやって入力すればいいのか一瞬悩んでしまいますよね。打鍵的にはiltunuやixtunuで打てばいいのですが促音の直後の文字列(子音)を2度続けてタイプするというローマ字入力特有の…
山田孝雄の「副詞の3分類」には情態副詞・程度副詞・陳述副詞とありますが、その中でも情態副詞・程度副詞にはさまざまなバリエーションがあります。よく使われる「~と」の形の副詞(例:すんなりと)と「~に」(例:まめに)の形の副詞が語のつながる形からい…