記事本文抽出ツール:Webページの記事本文を一括抽出・保存!
複数URLを一気に取得し、記事本文のみテキストデータとして取得可能。
出力対象(見出し1~6、本文)を限定できるため、見出し構造のみ出力も可能。
⚠️ スマホでご覧の方へ:ダウンロードはWindows PCから行ってください。
1.ソフトの概要:「記事本文抽出ツール」とは?
「記事本文抽出ツール」は、
URLを貼るだけでWebページの記事本文を一括抽出できるWindows向けソフトです。
H1~H6の見出しや本文など、抽出したい要素を指定できます。
必要な本文だけをきれいに抽出でき、ノイズを除いたデータ取得が可能です。
見出しはMarkdown形式で出力されるため、そのまま活用できます。
HTMLの本文や見出しを効率的かつ安全に抽出できます。
SEO解析、記事分析、データ収集、コンテンツ整理などに活用できます。
個人利用から業務用途まで幅広く対応します。
2.主な特徴:HTMLから本文を抽出する作業を効率化
複数URLから高速に本文を取得
複数URLから同時取得して自動抽出します。重複URLを除外し、並列処理で見出しと本文を高速に一覧化できます。大量ページも短時間で整理できます。
h1〜h6を選択して抽出
必要な階層(h1〜h6)だけを抽出できます。見出し構造を保ったままテキスト化します。構成分析やリライト確認がすぐ行えます。
本文を自動判別して取得
本文を自動抽出します。article・main領域を優先し、不要部分を除外して出力します。整形済みテキストをそのまま活用できます。
ナビや広告を自動除去
nav・header・footerや広告要素を判定し、不要領域を自動削除します。classやidも解析し本文のみを残します。クリーンなテキストで分析できます。
キーワードでページを絞り込み
取得結果を対象に、キーワードでフィルターできます。タイトルと本文を部分一致で検索します。目的の情報をすぐ抽出できます。
文字コードを選んで保存
UTF-8・Shift-JIS・EUC-JPを選択し、形式を指定して一括保存できます。個別保存や連結保存にも対応します。用途に合わせたテキストを出力できます。
3. 使い方:ダウンロードから操作まで
1. ダウンロードとインストール
「記事本文抽出ツール」には ZIP版 と Microsoft Store版 があります。
お好みの方法で入手してください。
-
ZIP版の場合
- Windows11(または10)のパソコンから、extractarticle100.zip をダウンロード
- ZIPファイルを右クリックー「すべて展開」から、任意のフォルダに解凍
- 解凍したフォルダ内の「
記事本文抽出ツール.exe」を起動
-
Microsoft Store版の場合
- Microsoft Store のページにアクセス
- 「入手」ボタンを押してインストール
2. アプリを起動
-
「記事本文抽出ツール.exe」を起動
(起動時に警告が表示された場合の対処方法) -
アプリの画面が表示される
3. 操作方法
-
取得したいWebページのURLを複数行で貼り付けて「抽出」ボタンをクリック
※必要に応じて以下を設定
・抽出したい要素(見出し1~6、本文)
・対象範囲(記事本文の範囲)
例えば、次のように見出しのみの抽出も可能です。
- 見出しと本文が一覧表示。「保存」ボタンでテキストファイルに保存可能
4.活用シーン:本ツールはこんな場面で活躍
競合サイト構成を分析したいとき
複数URLを一括入力し、h1〜h6見出しと本文をまとめて抽出できます。構成や見出し設計を一覧で比較でき、SEO改善の方向性を具体的に把握できます。
記事本文だけを取得したい場合
articleやmain領域のみを指定して本文を抽出できます。ナビや広告を除いたテキストだけを取得でき、そのまま資料作成やリライトに活用できます。
大量URLを効率よく確認したいとき
同時接続数を指定して複数ページを並列取得できます。1件ずつ開く手間がなく、調査や内容確認を短時間で行えます。
特定キーワードを含む記事を探すとき
抽出結果をキーワードで即時フィルターして絞り込みできます。条件に合うページだけを表示でき、必要な情報をすぐに確認できます。
抽出データをテキスト保存したい場合
個別保存と連結保存に対応し、複数ページの本文をテキスト化できます。分析用データの作成やバックアップ整理に活用できます。
5.よくある質問(FAQ):ソフトに関する疑問を解決
Q1. Webページの見出し(h1~h6)をまとめて抽出できますか?
A1. h1~h6にチェックを入れてURLを指定し、「抽出」をクリックすると、選択した見出しだけを一覧表示できます。 見出しは「#」付き形式で出力されます。
Q2. 本文テキストも一緒に取得できますか?
A2. 「本文を含める」にチェックを入れて抽出すると、pタグやliタグの本文も取得できます。 見出しの下に本文が続く形式で表示されます。
Q3. 記事部分だけを抽出することはできますか?
A3. 「記事範囲のみ」をオンにして抽出すると、本文エリア中心のテキストだけを取得できます。 ナビゲーションなどの不要部分は除外されます。
Q4. 複数のURLを一括で処理できますか?
A4. URLを1行ずつ入力して抽出すると、複数URLを一括処理できます。 重複URLは自動で除外されます。
Q5. 取得結果はどのように表示されますか?
A5. 結果は番号・URL・タイトル・本文の形式で一覧表示されます。 完了後は番号順に並びます。
Q6. ページのタイトルも自動で取得されますか?
A6. 抽出時に<title>タグの内容を自動取得し、一覧に表示します。 各ページを識別できます。
Q7. URLはどのように入力すればよいですか?
A7. 1URL=1行でテキストボックスに複数入力し、「抽出」をクリックします。 改行ごとに1件として処理されます。
Q8. 見出しレベルを指定して抽出する方法は?
A8. h1~h6の必要なレベルにチェックを入れて抽出します。 選択した見出しのみ取得されます。
Q9. 同時接続数(並列数)を変更するには?
A9. 「最大同時処理数」に数値を入力してから抽出します。 数値を上げると同時処理数が増えます。
Q10. タイムアウト時間を変更するには?
A10. 「タイムアウト秒数」を変更してから抽出します。 指定秒数を超えると取得を停止します。
Q11. リトライ回数を設定する方法は?
A11. 「再試行回数」と「再試行間隔」を設定すると、失敗時に自動で再実行します。 不安定なページでも取得しやすくなります。
Q12. 取得結果をキーワードで絞り込むには?
A12. フィルタ欄にキーワードを入力すると、該当する結果だけ表示されます。 文字を削除すると全件表示に戻ります。
Q13. 抽出を途中で止めるにはどうすればいいですか?
A13. 実行中に「キャンセル」をクリックすると、抽出を停止できます。 以降の取得は行われません。
Q14. 文字コードや改行コードは変更できますか?
A14. エンコード欄で文字コードと改行コードを選択できます。 設定は保存されます。
Q15. 一部のURLでエラーと表示されます。
A15. 接続に失敗するとエラーが表示されます。
Q16. 本文が取得されません。
A16. 「本文」のチェックをオンにして抽出してください。
Q17. 記事以外のメニューやフッターまで取得されます。
A17. 「記事範囲のみ」をオンにして再抽出してください。 本文エリア中心の内容だけ取得されます。
Q18. 結果が一覧に表示されません。
A18. フィルタ欄の文字を削除して全件表示に戻してください。 条件が残っていると表示されません。
6.開発者の想い:「記事本文抽出ツール」を作った理由
私は、複数のWebページから見出しや本文を拾い出す作業を、ずっと手作業で続けていました。
ブラウザを開いて、コピーして、メモ帳に貼り付ける。
また次のURLへ移動して、同じことを繰り返す。
気づけば同じ操作を何十回もしていて、
「もっと簡単にできるはずなのに」とため息をついていたのです。
しかも、広告やメニューまで一緒にコピーしてしまい、あとから削除する手間もかかる。
ページ数が増えるほど集中力は削られ、気づけばミスも増えていました。
時間を奪われ続けるこの作業に、じわじわと疲れが溜まっていきました。
ある日ふと思ったのです。
「必要な部分だけ、まとめて、きれいに取れたらどれだけ楽だろう」と。
そして、次を満たすツールを作ることを決意しました。
- 複数URLを同時にまとめて取得できること
- 見出しレベルを選択して必要な情報だけ抽出できること
- articleやmain内だけを取得し、広告などのノイズを除去すること
- そのままテキスト保存まで完結できること
試行錯誤を重ね、何度も改良を繰り返しました。
取得速度の向上、キャンセル対応、並び替えやフィルタ機能まで整え、
ついに完成したのがこの記事本文抽出ツールです。
大量のページ整理に追われている方、構成確認に時間を取られている方へ。
このソフトは、あなたの繰り返し作業の時間を取り戻し、
本当に考えるべき作業へ集中できる環境を届けます。
もう、コピー作業に悩まなくていいのです。
7.更新履歴:バージョンごとの変更点
Ver.1.0.0: 初回リリース
🏢 法人利用・カスタマイズをご検討の方へ
本ソフトをベースにした御社専用カスタマイズ開発にも対応しています。
▶ 無料相談はこちら
本ツールに関連するソフト