月並みですが、お気軽にどうぞ。

どんなコトでも、大歓迎。
なにかお気づきの点などありましたら、どうぞこちらよりメッセージをお寄せください。

つぶやきとか

近況とかつぶやきとか。こちらからも不定期に発信してます。
みなさまとどこかでつながれたらいいなぁ。なんて思いながら。

カテゴリ・タグ

当サイトではカオルコーポレーションのWEBチームが、サービスのお知らせやご案内以外にも
ネタになりそうなニュースや気になったことなどを不定期にテキトーにあげています。
何かのお役にたてればウレシイです。

メンバーのご紹介

カオルデザインのWEBチーム。こんなヤツらがつくっております。
まぁ、若干...いえ、結構クセの強いスタッフが多いのですが、
「自由で個性的」ということにしておいていただけると幸いです。

もんじやま
もんじやまデザイナ~
やまぐち
やまぐちデザイナ~
さいまる
さいまるプランナ~
みうら
みうらFEエンジニア
にし
にしデザイナ~
あめみや
あめみやデザイナ~
もちづき
もちづきプランナ~
くつかわ
くつかわプランナ~
さくらい
さくらいFEエンジニア
はらだ
はらだプランナ~
でざいな~
でざいな~ち~むデザイナ~
そつぎょうしゃ
そつぎょうしゃいろいろ

運営会社のご案内

当サイトは広告デザイン会社プロダクション・株式会社カオルデザインが運営しております。
WEBとかマーケティング、広告とかいろいろやらせていただいておりますが、
『コミュニケーションをデザインする』っていう、世の中が少しでも楽しく、イキイキするためのお手伝いをさせていただいております。

商号
株式会社カオルデザイン
住所
東京都立川市栄町4-13-4
設 立
平成11年2月(1999/02)
TEL / FAX
042-595-8807 / 042-595-8703
資本金
10,000,000円
業務内容
ホームページ企画・制作・運営・管理
インターネットコンサルティング
各種媒体デザイン企画・制作
Googleビジネスパートナー制度導入企業
GoogleのPDF検索
Jun/22

GoogleのPDF検索


pdfファイルもhtmlと同様にメタとかで検索されて結果に。
pdfにメタ?

「pdfってどうやってランク付けしてるの?」ときかれました。

「どうやってるんですかね~?」とばかりもいってられません。

googleで検索すると、pdfも混じって検索結果リストにでてきます。
htmlのページは、メタとかリンクとかページ内容とかh1とか、
まあその他アルゴリズムとかいろいろで、ランク付けされていますが、
pdfの場合もページ内容だけでやっているのかと思いきや、実はもっと深いらしい…

タイトルとか、いわゆるメタの記述とかをがっつりひろっているんだそうです。
pdfドキュメントには、そのドキュメントに関する情報 (たとえばタイトルや作者、作成日、更新日など) を含められるので そのあたりがメタなんではとおもわれます。

htmlと同様、見えるところにはないので、埋め込み?添付データ?扱いなかんじかな。

で、メタ?ヘッダ記述??で、ランク付けはどうなるの?

googleさんが答えてくれました!

webmastercentralに対応方法が載っていました。
こんなの知らなかったよ~。



検索結果における PDF ファイルの取り扱いについてのヒント

2011年9月20日火曜日 | 11:12

Google の使命は、世界中の情報を整理し、世界中の人々がアクセスできて使えるようにすることです。この使命を遂行するなかで、時として HTML 形式以外のファイル、たとえば PDF、表計算、プレゼンテーション用スライドといった形式のファイルに遭遇することがあります。ファイル形式が違うからといって、Google のアルゴリズムに支障が生じることはありません。Google では、関連性の高いコンテンツを抽出し、適切なインデックス登録を行って検索結果に反映させるよう取り組んでいます。このようなファイル形式は、標準的な HTML 形式とは大きく異なるものですが、実際にはどのようにインデックス登録されているのか、どういったガイドラインが設けられているのか、そしてファイルをイ ンデックスに登録して欲しくない場合には、ウェブマスターの皆様はどうしたらよいか、ご存知でしょうか?

Google は 2001 年に PDF ファイルのインデックス登録を開始(英語)し、現在では 数億件もの PDF ファイルがインデックスに登録されています。今回は、PDF のインデックス登録に関して、よく寄せられる質問とその回答をまとめてみました。

質問: Google では、どんな形式の PDF ファイルでもインデックス登録できるのですか?
答 え:一般的に、各種文字コードを使用した PDF ファイルに含まれているテキスト コンテンツは、どのような言語で書かれていようと、そのファイルがパスワード保護または暗号化されている場合を除き、インデックスに登録できます。テキス トが画像として埋め込まれている場合は、Google ではその画像を OCR (英語)アルゴリズムで処理し、テキストを抽出することができます。簡単に言うと、PDF 文書内のテキストをコピーして、標準的なテキスト文書にペーストできるのであれば、そのテキストはインデックス登録が可能です。

質問: PDF ファイル内の画像はどうなるのですか?
答え: 現時点では、PDF ファイル内の画像はインデックスには登録されません。画像をインデックス登録するには、その画像用の HTML ページを作成する必要があります。ご自分のサイトの画像が検索結果に含まれる可能性を高めたい場合は、ヘルプ センター に記述されているアドバイスを参考にしてください。

質問: PDF 文書内のリンクはどのように取り扱われるのですか?
答 え: 一般に、PDF ファイル内のリンクは HTML 内のリンクと同じように扱われます。つまり、リンクから PageRank をはじめとするインデックス登録のシグナルが渡されるので、Google は、その PDF ファイルをクロールしたのち、リンクをフォローできるようになります。現在のところ、PDF ファイル内のリンクに対しては nofollow 属性は設定できません。

質問: PDF ファイルを検索結果に表示させないようにするにはどうしたらいいですか?既に検索結果に表示されている場合は、どのようにしたら削除できますか?
答 え: PDF 文書を検索結果に表示させないようにする一番簡単な方法は、そのファイル用の HTTP ヘッダーに X-Robots-Tag: noindex を追加するという方法です。既にインデックスに登録されている場合は、X-Robot-Tag で noindex を指定すれば、しばらく時間が経つとインデックスから除外されていきます。早急に削除したい場合は、Google ウェブマスター ツールの URL 削除ツール を使用してください。

質問: PDF ファイルでも検索結果の上位にランクされますか?
答え: もちろんです。通常、他のウェブサイトと同じようにランキングされます。たとえば、[mortgage market review]、[irs form 2011]、[paracetamol expert report] で検索してみると、いずれも検索結果の上位に P
DF 文書が表示されます(注: この記事の作成時点)。 これは、文書の内容と、サイトへの埋め込み方法、そして他のウェブページからのリンク状況に基づいた結果です。

質問: ページを HTML と PDF の両方の形式で提供していると、重複コンテンツと見なされるのでしょうか?
答え: できれば、コンテンツは 1 つだけにすることをお勧めします。それが難しい場合は、どちらのバージョンを優先するのかを必ず示すようにしてください。その方法としては、サイトマップに優先 URL を含める方法や、HTML 内または PDF 文書の HTTP ヘッダー 内で canonical (優先)バージョンを設定する方法などがあります。詳しくは 正規化 に関するヘルプ センターの記事を参照してください。

質問: 検索結果に表示される PDF 文書のタイトルはカスタマイズできますか?
答 え: 表示するタイトルの生成には、ファイル内のタイトル メタデータとその PDF ファイルを指すリンクのアンカー テキストという 2 つの主要要素を使用しています。Google のアルゴリズムに対して、適切なタイトルを示したい場合は、上記要素を両方ともアップデートすることをお勧めします。

詳しくは、Matt Cutt による動画 PDF ファイルを検索用に最適化する(英語)をご覧ください。また、インデックスに登録できるコンテンツ形式については、ヘルプ センターでご確認いただけます。ご質問やご意見がありましたら、ウェブマスター ヘルプ フォーラムへお寄せください。

Posted by Gary Illyes, Webmaster Trends Analyst
Original version: PDFs in Google search results



大規模サイトや、pdfを大量にあつかうサイトなどでは、htmlとのかねあいなんかも丁寧にやる必要が出てくるかもしれませんね~。




おまけ
“pdf-meta” のおぼえがき

メタの記述修正は、pdfリーダーでは編集できないですが、アクロバットならいけそう。ワードとかから変換するときは、「プロパティ」あたりでしょうか。

でもメタのみ修正したい、アクロバットが無いときとか、まとめていっぱいやりたいときってとりあえず、みなさんどうやってやるのかと思ったら、googleさんでミニアプリが公開されていました!
その名も ”pdf-meta” !
ページハ、ニホンゴジャナカッタケド、ダウンロードシタプログラムハ、ニホンゴデツカエタョ


http://code.google.com/p/pdf-meta/

「ナカッタカラ、チャチャット、ツクッテミタヨ」
なコメントとともにJava 1.5で動くソフトがDLできるようになってました。
「Sony PRS 505 デツカオウトオモッテ」とありますが、きっとgoogle検索にもいいんじゃないかなと思われます。

起動するとファイル呼び出し画面が日本語で。



よびだしたpdfに、メタデータの書き込みをします。


で保存しておわり。ラクラク。

なにかつかうことがあるかもしれません。
大量のpdfのメタ修正とか?!
いつか大量の修正で使うとき(きてほしくないものです)の為に、メモメモ。

にかよった記事
やまぐち by: Category:WEBアイデア Tag:, ,