2026-03-24
長いウェブページをキャプチャする際の最大の悩みは、テキストや重要な画像がページの継ぎ目で無残に切断されてしまうことです。Screenshot PDFでは、独自のアルゴリズムを改良し続けていますが、その仕組みを理解することでより完璧な結果を得ることができます。
ブラウザ標準の「PDFとして保存」機能の多くは、単にページの総高さをA4の高さで割るだけです。ページ上の要素を認識せず、単なる長いピクセルの塊として扱います。その結果、一文が上下のページに分かれたり、見出しがページの一番下に孤立したりします。
当社のツールは、ドキュメントの完全性を維持するために多層的なアプローチを採用しています:
キャプチャプロセス中にドキュメントオブジェクトモデル (DOM) を分析します。パラグラフや<h1>タグなどのテキストブロックを識別することで、安全な「ブレークポイント」を予測します。
厳密に297mm(A4の高さ)で切るのではなく、ページの下部付近にある余白やスペースを探します。切り取り位置をわずかに調整することで、コンテンツブロックを可能な限りひとまとめに保ちます。
長いスクリーンショットを合成する際、高いデバイスピクセル比 (DPR) で処理します。これにより、A4サイズに合わせるためにスケーリングが必要な場合でも、テキストは鮮明なままで印刷にも耐えうる品質を維持します。