【日記】寝惚けながらのマルチメディアのアウトライン的な。

メディアとは情報を伝える媒体
コミュニケーションとは個体間で行われる情報の伝達で双方が変化する。
同じ知識を共有していたほうがいい
理解していることしか伝わらない
出会うことが基本で、時間と空間を共有したほうがいい
コミュニケーションの階層構造…情報の階層、表現の階層、通信の階層
対話は情報の伝達として大切で、出会っていれば様々な表現が利用できる。
情報メディア工学では情報を伝えるメカニズム、情報を伝えるメディアを構築
メディアの発展の同期は時間と空間を越えること
パソコンは凄い
感覚は感覚器官の経験、知覚はその解釈、認知は精神的なものを含めた知覚、認識は分類
ウェーバーの法則:ウェーバー比は一定
ウェーバー比とは、感覚器官の分解能と物理的刺激量の比
視覚細胞:錐体と桿体、明るいもの担当と暗いもの担当、色担当と感度担当、中心と周辺
色とは人が感じる心理的変数
音には物理的な要素と心理的な要素がある
フロントエンドプロセッサとはコンピュータの前でユーザの入力を処理するもの
日本語の処理:仮名漢字変換
文字はコード化して扱われる。
画像的なビットマップフォントと、基準点と輪郭情報を持つアウトラインフォント
自然言語処理:形態素解析、構文解析、意味解析など
形態素解析:単語辞書と連接可能辞書から品詞を特定
構文解析:文法と優先順位から構文木を作成、但し、曖昧性がある
意味解析:意味を考えて曖昧性を排除、深層格
機械翻訳:中間言語orルールベースor事例ベース
テキスト検索
文章の記述:構造化:論理構造のみor論理構造+物理構造
文字認識:テンプレートマッチングor特徴量抽出
2値画像の表現:点集合、ラスタ、ベクトル
図形認識は輪郭線追跡、細線化、折れ線近似
細線化とは1pxの線にすること
音:music or voice or noise
音のディジタル化:AD変換
サンプリング定理:音に含まれる最大周波数の2倍以上のサンプリング周波数を用いてサンプリングすると復元できる
音の分析:周波数解析
音素(母音、子音)が音を構成
人の発声器官は声帯(高さ)+声道(長音):モデル化するときは、線形分離等価回路
音S=G*H:Gが声帯、Hが長音
周波数解析→スペクトル:スペクトル包絡+スペクトル微細構造
スペクトルのピークをフォルマントといい、特に第一フォルマントと第二フォルマントが大事で
F1とF2の相対位置がほぼ一定だから。第二フォルマントの最大が3500Hz程度であることが
電話のサンプリング周波数が8khzであることの意味
音は続け字的なので、文字の認識より難しい
音声認識:統計的or時系列的(HMM)
統計的:単語テンプレートを用意するor音素テンプレート×木構造×マッチング
連続音声の認識:単語集合・文法などの知識を用いるor統計連鎖情報を用いる(コーパス…)
原理:入力→音素モデル→言語モデル情報を合わせて認識→出力
音素モデルは音素辞書を使って作り、環境に依存
言語モデルはアプリケーション依存
音声合成:録音したものを合成or周波数をいじるorTTS
音声認識の流れ:入力処理、認識→意味解釈→利用
バスの運行案内では、入力が限られているので、停留所情報などの辞書と有限オートマトン的な
入力処理系で入力を受取り、キーワードを探して、SQL化してDB探索、結果を音声合成を使って返す。
不明な点などは対話を用いて情報を利用者から追加で取得する
ホテル検索システムでは、有限オートマトン的に加えて、過去の統計情報を上手く利用して
入力を受取り、後はバスと同じ
マニュアル探索では、過去の統計的知識を利用して、キーワードを抽出し、それに関連する
部分をマッチングして取り出して、結果を返す。不十分な部分は、確認を繰り返して特定する
どのキーワードがどのキーワードと一緒に検索されやすいかなどの情報がいる
映像メディアの特徴:情報量が多い、時間軸
圧縮:いらないものを記録しない
相関関係があれば、一つの軸にまとめる
差分だけを符号化して保存
MPEG
対象物の抽出:背景差分を使って変化した所を抽出
オプティカルフローを使って、3次元上の変化に伴って2次元上で変化したところを抽出
オプティカルフロー:3次元の運動によって生じる2次元速度ベクトルの分布(u,v)
輝度普遍性の原理:I(x,y,t)=I(x+dx,y+dy,t+dt)
オプティカルフローの拘束式:uIx+vIy=-It
窓問題:tに関する情報だけじゃ、情報を一位に定められない。(?)
中心投影:ピンホールカメラのスクリーンを手前に。X = fx/Z, Y = fy/Z , Z = f
平行投影:よく分からない。X=x, Y=y, f/Z = 1らしい
定量的復元:事前知識を使う
消失点:平行線が交わるところ
消失線:ある平面の消失点がのる線、消失線から逆に平面を復元できる
エピ曲線
エッジ
物体の運動:並進+回転
物体の運動から座標の時間変化が出せる(Xt, Yt, Zt)
時間変化が分かると、オプティカルフローから逆に物体の形状を復元できる
動きの無限遠点:dt→∞
計算機による描画:モデリング、投影、レンダリング
モデリング:ワイヤーフレーム、サーフェスモデル、Voxel+ソリッドモデル、基本立体の和、面立てベクトル法
3次元モデルの移動:並進+回転+剪断+拡縮
これを全てX=Axで表したい→同次座標
アフィン変換
クリッピング:視体積の内部に存在する部分の切り取り、Cohen-Sutherlandのアルゴリズム
鏡面反射:正反射方向の反射
拡散反射:全方向への反射
ランパードの法則:入射光Ilight,入射角θ、単位面積当りの入射光Iin:Iin=Ilight cosθ
輝度の変化:L=L’cosθ
陰線処理・隠面処理:実際見えない部分の処理らしい
奥行ソート法、Zバッファ法、スキャンライン法
シェーディング:モデルに陰影を付ける。
直接光・反射光、反射・透過、屈折とか
Phongの反射モデル:環境光は間接光、直接光による輝度は鏡面反射と拡散反射で…?
ランパードの式とは違うモデルで計算
輝度L=La+Ls+Ld
La:環境光
Ls:鏡面反射
Ld:拡散反射
スムーズシェーディング:輝度を滑らかに補間する
Phongのスムーズシェーディング
テクスチャマッピング:物体表面にテクスチャをペタペタしてリアリティ向上
バンプマッピング:凹凸のある物体表面のレンダリング
輝度ではなく、法線方向のマッピング
環境マッピング:表面に周辺の映り込みをマッピング
Solid Texture:3次元的なテクスチャの利用

2件のコメント

返信を残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です