逐字稿怎麼寫
文章

逐字稿怎麼寫?3種格式範例+5款AI工具完整攻略

逐字稿怎麼寫?逐字稿的寫法,核心只有一條規則:說話者說什麼,你就記什麼,一字不漏,不加修飾。

很多人以為把內容整理得清楚流暢就算完成,但這正是最常見的錯誤——逐字稿的職責是忠實還原,不是詮釋或優化。格式選錯、語氣詞處理不當、聽不清楚時擅自填詞,都會讓一份逐字稿在學術或法律場景中失去效力。

從格式規範、逐句記錄技巧、到 AI 工具如何幫你把效率提升一倍,這篇文章會帶你從頭到尾走一遍。

逐字稿是什麼?和一般筆記有什麼不同

很多人第一次接到「請幫我做逐字稿」的需求,腦中第一個反應往往是:「這不就是把內容抄下來嗎?」但實際上,逐字稿的要求遠比一般筆記嚴格,也有它特定的規格與用途。理解兩者的差異,是學好逐字稿的第一步。

逐字稿的應用場景相當廣泛,從學術研究的訪談記錄、法律庭審記錄,到媒體採訪、Podcast 文字稿、企業會議存檔,都有它的身影。不同場景對逐字稿的要求或許略有差異,但核心精神始終一致:忠實還原說話者的原始語言

逐字稿的定義與格式規範

逐字稿(Verbatim Transcript)的核心定義,是將語音內容「一字不漏」地轉換為文字,包含說話者的每一個字、詞、乃至語氣詞。與其說是「整理」,不如說是「還原」——任務不是讓內容看起來更好,而是讓讀者透過文字,彷彿親耳聽見當下的對話。

在格式規範上,一份標準逐字稿通常包含幾個固定元素:說話者標記(例如「訪談者:」、「受訪者:」)、時間戳記(在較長的錄音中每隔一段時間標示)、以及完整的標點符號。部分嚴謹的學術或法律用途,還會進一步要求標記停頓秒數、笑聲、嘆氣等非語言聲音。

在台灣常見的使用情境中,學術論文的訪談逐字稿與新聞採訪稿對格式的嚴格程度較高,Podcast 或 YouTube 影片的文字版則相對彈性——重點在可讀性,而非每一個「嗯」、「啊」都必須保留。了解文件的使用目的,才能決定要做到哪個精細程度。

逐字稿 vs 摘要稿 vs 重點整理,差在哪?

這三種文件類型經常被混為一談,但它們在目的與寫法上有根本差異。

類型核心目標保留原話?主觀整理?適用情境
逐字稿忠實還原語音✅ 完整保留❌ 不加入學術研究、法律、訪談存檔
摘要稿濃縮重點內容部分保留✅ 有取捨媒體報導、簡報摘要
重點整理提煉行動結論❌ 改寫為主✅ 大量整理會議記錄、工作交接

摘要稿允許刪去贅詞、重組句子,讓內容更流暢;重點整理則進一步濃縮,只留下「結論」與「行動項目」。逐字稿的不同之處在於,幾乎沒有詮釋的空間——說話者說什麼,就記什麼。

這個差異在實務上相當關鍵。把逐字稿寫成摘要稿的風格,可能在學術引用或法律文件中引發問題,因為原始語境與細節已被改動。反過來,若將一份會議記錄做成完整逐字稿,讀起來會極為冗長,也失去了快速掌握決議的功能。選對文件形式,才能真正服務到使用需求。


逐字稿怎麼寫?完整步驟教學(新手必看)

知道逐字稿是什麼之後,更關鍵的問題來了:實際動手要怎麼做?很多新手碰到的第一個困境,不是不知道規則,而是「一邊聽一邊打字,完全跟不上語速」。這一節從準備工作開始,帶你建立一套高效的逐字稿工作流程。

逐字稿是一項需要耐心與專注力的工作,但透過正確的方法可以大幅提升效率。一個熟練的逐字稿工作者,平均處理 1 分鐘的錄音大約需要 4 到 6 分鐘的文字工作;新手如果方法不對,可能需要超過 10 分鐘。方法對了,效率可以提升一倍以上。

準備工作:工具與環境設置

在開始打字之前,先把工具和環境準備到位,可以避免許多中途卡關的狀況。以下是建議的準備清單:

播放工具選擇:

  • VLC 播放器(免費):支援幾乎所有音訊與影片格式,可精細調整播放速度,是最多人使用的選項
  • Audacity:適合純音檔處理,可視覺化波形,方便定位特定段落
  • YouTube 內建播放器:若來源是 YouTube 影片,可直接在設定中調整速度,不需額外安裝工具

播放速度設定:

  • 建議從 0.75 倍速開始,等熟悉說話者口音與語速後,逐步調整到 0.85–0.9 倍速
  • 不要強迫自己以正常速度進行,這只會讓你不斷停下來重播,反而更費時

硬體輔助(進階建議):

  • 搭配**腳踏板(Foot Pedal)**這類硬體工具,可用腳控制播放暫停,雙手不離鍵盤,對於長時間作業的使用者效率提升明顯

工作環境設置:

  • 選擇安靜、不容易被打擾的空間
  • 戴上耳機,尤其是有降噪功能的款式,可大幅提升辨識每個字的成功率
  • 若有雙螢幕,一個放播放器、一個放文字編輯軟體,省去頻繁切換視窗的時間

聆聽與逐句記錄技巧

逐字稿的工作節奏,大致是「播放 → 暫停 → 打字 → 播放」的循環。以下是幾個實際執行時的關鍵技巧:

逐句記錄的基本流程:

  1. 播放一個「完整語意單位」——可能是一句完整的話,或一個自然停頓處
  2. 暫停播放,立刻將剛才聽到的內容打出來
  3. 確認文字後,繼續播放下一段
  4. 重複以上步驟,每次播放段落不宜過長,否則容易記不住細節

遇到聽不清楚時的處理方式:

  1. 第一步:將播放速度調慢,重新聆聽同一段落
  2. 若重聽兩到三次仍無法辨別,在該處標記 [unclear][聽不清楚]
  3. 繼續往下進行,待全文完成後統一回頭確認標記處
  4. 切勿擅自猜測或填入「看起來合理」的內容——這個習慣在學術與法律場景尤其重要

台灣情境的特殊狀況:

  • 閩南語夾雜:事先與委託方確認是否要轉為對應漢字,或以括號標注(例如:「甲你講(跟你說)」)
  • 英文術語混用:確認保留原文或翻譯,整份文件保持一致
  • 以上細節若事前未釐清,可能導致整份逐字稿需要重做,在開始工作前花五分鐘確認規格,往往能省下幾個小時的修改時間

標點、停頓、語氣詞怎麼處理?

標點符號是逐字稿中最常引發疑惑的部分。基本原則是按照說話者的自然停頓與語意斷句來加標點,而非套用書面文法規則。說話者問句結束時語調上揚,就加問號;語氣明顯加強,可考慮加驚嘆號。

語氣詞的處理方式,因使用場景而異:

場景處理方式說明
學術訪談逐字稿完整保留所有語氣詞「嗯」「啊」「就是說」本身即為分析素材
Podcast / 影片文字稿採「清潔版」(Clean Verbatim)去除明顯填充詞,提升可讀性
企業會議記錄視情況適度保留保留立場性語氣詞,去除無意義重複

停頓的標記方式同樣依情境有所差異:

  • 學術逐字稿:使用「(停頓 2 秒)」這樣的括號標記,明確記錄時間長度
  • 一般用途:以破折號「——」或刪節號「……」呈現明顯停頓即可

最重要的原則是:在開始做逐字稿之前,就決定好格式規範,並從頭到尾貫徹執行。 格式一旦中途改變,不僅讓後續使用者困惑,也會大幅增加自己的修改成本。


逐字稿常見格式範例(直接套用)

光看規則有時還是抽象,實際看到範例才知道怎麼套用。以下提供三種台灣最常見的逐字稿情境,可依照自己的需求直接參考格式並調整。

訪談逐字稿範例

學術或媒體訪談的逐字稿,通常需要清楚標示說話者身份與時間戳記。以下是一個學術訪談的格式範例:


訪談逐字稿 受訪者:陳小明(化名) 訪談日期:3 月 15 日 訪談者:林研究員


[00:00:12] 訪談者: 可以請你說說,你第一次開始使用這個服務是什麼時候嗎?

受訪者: 嗯……大概是,去年年底吧。那時候是因為工作上的需要,就是說,我們部門開始有一些遠距的合作,然後主管就叫我們去試看看。

[00:00:35] 訪談者: 那你第一印象怎麼樣?

受訪者: 其實剛開始滿困惑的(笑),因為介面對我來說不是很直覺。但是用了大概一個禮拜之後就好很多了。


這個格式的核心要點是:每次說話者切換時另起一行,語氣詞與笑聲要保留並標記,時間戳記建議每 30 秒至 1 分鐘標記一次,方便日後查找特定段落。

會議記錄逐字稿範例

企業會議的逐字稿通常採用「清潔版」格式,去除過多語氣詞,但仍保留發言者的完整意思與原始措辭。以下是一個簡化的會議逐字稿片段:


部門週會逐字稿 日期:4 月 2 日(三)14:00–15:30 與會者:張經理、李副理、王企劃、陳工程師


張經理: 好,我們先來討論 Q2 的預算分配。上週財務那邊有回來說,整體預算比原本預估少了大概 15%,所以我們需要重新評估每個項目的優先順序。

李副理: 瞭解。那我想先確認一下,這個削減是指整個部門的預算,還是只有行銷這一塊?

張經理: 是整個部門,不過財務說研發這塊因為有既有合約在,應該影響比較小。主要是行銷和人力這兩個項目需要調整。


會議逐字稿的重點在於完整記錄每位發言者的立場與說法,因為這往往是後續追究決議責任的依據。即使是「清潔版」,也不能改變說話者的意思,只能刪去明顯的填充詞與重複說法。

Podcast / 影片逐字稿範例

內容創作者做 Podcast 或 YouTube 影片的逐字稿,通常目的是轉製成部落格文章或字幕素材,格式上因此最為彈性,以可讀性為最高優先。


《職場小週報》EP.88 逐字稿片段

主持人 Wendy 說,很多人在職場上最怕的,不是工作量太多,而是不知道怎麼說「不」。她分享了一個親身經歷的案例:有一次主管臨時交辦一個完全沒有餘裕處理的任務,她第一個反應是沈默,然後說「我試試看」。

但「試試看」這三個字,在職場上幾乎等同於「我會做」的承諾。Wendy 後來用了一個技巧——先說「謝謝你想到我」,接著說明自己目前的狀況,最後提供一個替代方案,比如建議由誰負責、或者延後兩週再處理。


這種格式已接近部落格文章的寫法,但仍保留了主持人的口語語氣與說話風格,讓讀者感受到聲音內容的溫度。對內容創作者來說,這樣的逐字稿既可以直接發布,也可以作為 SEO 文章的素材基礎。


用 AI 工具自動產生逐字稿,效率翻倍

手動打逐字稿雖然精準,但時間成本相當高。近幾年 AI 語音轉文字的技術進步迅速,許多工具的準確率已相當驚人,也讓逐字稿的工作效率出現了結構性的改變。對於有大量逐字稿需求的人來說,選對 AI 工具是降低工作負擔最直接的方法。

不過,AI 工具並不是萬能的。不同工具在中文辨識、多人對話識別、專業術語辨別,以及多語言支援上的表現差距很大。了解各工具的優缺點與適合場景,才能做出符合自己需求的選擇。

推薦台灣人常用的逐字稿工具

以下整理台灣用戶最常使用的幾款 AI 逐字稿工具,並納入對台灣使用者特別有參考價值的比較維度:

工具語言支援中文準確率多人對話翻譯功能適合族群費用
AfterClass99 種語言⭐⭐⭐⭐⭐✅ 原文+翻譯對照學生、上班族、創作者訂閱制
Otter.ai英文為主⭐⭐⭐英文會議為主免費版有限制
Whisper(OpenAI)99 種語言⭐⭐⭐⭐⭐❌(需自行整合)技術使用者開源免費
Notion AI多語言⭐⭐⭐Notion 重度使用者需訂閱 Notion AI
Clova Note(NAVER)中、英、日、韓⭐⭐⭐⭐有日韓文需求者免費版有限額

🎓 AfterClass

AfterClass 是目前針對中文使用情境整合度最高的選項之一,特別適合台灣用戶。它底層採用 OpenAI Whisper API,支援 99 種語言,中文辨識準確率極高,同時提供三種彈性的輸出格式:

  • 📝 原文模式: 完整保留外語逐字稿,適合需要對照原文的語言學習者或需要核對術語的專業人士
  • 🌏 翻譯模式: 直接輸出純繁體中文版本,適合快速閱讀與製作中文會議記錄
  • 🔄 對照模式: 原文與翻譯並排呈現,讓使用者在閱讀翻譯的同時,隨時可以核對原始語言的準確性

這個對照模式是 AfterClass 與其他工具最明顯的差異點——多數工具只提供翻譯結果,但 AfterClass 同時保留原文,讓語言學習者能對照原文理解,也讓需要確認專業術語的上班族有所依據。

👨‍🎓 學生族群的使用情境:

  1. 上完 60 分鐘的線上課程後,上傳音檔至 AfterClass
  2. 幾分鐘內取得完整文字稿
  3. 用關鍵字搜尋特定段落,快速定位想複習的內容
  4. 考前閱讀文字版,效率遠高於重看影片

💼 上班族的使用情境:

  1. 英文會議錄音後直接上傳
  2. 系統自動轉錄並翻譯為繁體中文
  3. 使用對照模式確認專業術語是否正確
  4. 整理成會議記錄後分享給團隊成員

🎥 內容創作者的使用情境:

  1. 將 Podcast 或 YouTube 影片音檔上傳
  2. 下載文字版稿件
  3. 稍作編輯後直接發布為部落格文章或字幕素材
  4. 一份錄音內容轉化為多種形式,擴大內容觸及範圍

優點:

  • 中文辨識準確率業界領先
  • 三種輸出格式滿足不同需求
  • 操作流程簡單,不需技術背景
  • 適合長達 60 分鐘以上的錄音處理

缺點:

  • 採訂閱制,有一定費用門檻
  • 目前不支援即時(Real-time)轉錄
  • 較適合事後上傳音檔,不適用需要同步轉錄的場景

🎤 Otter.ai

Otter.ai 是英文市場使用最廣泛的 AI 逐字稿工具之一,支援即時轉錄功能,可在會議進行中同步生成文字稿,並自動識別不同說話者。

優點:

  • 即時轉錄,適合現場會議同步記錄
  • 多說話者自動識別,準確率在英文環境下相對穩定
  • 可與 Zoom、Google Meet、Microsoft Teams 整合

缺點:

  • 中文辨識準確率明顯低於英文
  • 翻譯功能較為有限,不支援原文對照輸出
  • 免費版有時數與功能限制,進階功能需付費訂閱

適合場景: 全英文的國際商務會議、英語授課的線上課程,以及需要即時轉錄的場合。對台灣用戶而言,若工作內容以英文為主,Otter.ai 是值得考慮的選項;若需要中文或多語言支援,則建議選擇其他工具。


⚙️ Whisper(OpenAI 開源模型)

Whisper 是 OpenAI 釋出的開源語音辨識模型,支援 99 種語言,在多語言辨識準確率上屬於業界頂尖水準。AfterClass 等工具的底層即採用 Whisper 作為辨識引擎。

優點:

  • 開源免費,無使用次數或時數限制
  • 多語言辨識準確率極高,包含中文
  • 可自行在本地端部署,資料不需上傳至雲端,隱私保護度高

缺點:

  • 需要具備一定技術能力才能自行架設與使用
  • 無內建使用者介面,操作須透過指令列(Command Line)或自行開發前端
  • 不提供翻譯、多說話者識別、或格式化輸出等進階功能

適合場景: 具備技術背景的開發者、需要高度客製化的企業內部系統、或對資料隱私有嚴格要求的使用情境。一般使用者若無技術背景,建議直接選用已整合 Whisper 的商業工具(如 AfterClass),會更加省時省力。


📝 Notion AI

Notion AI 的語音轉文字功能是整合在 Notion 筆記系統內的附加功能,並非獨立的逐字稿工具。對於原本就大量使用 Notion 管理工作與知識的人來說,它提供了一定程度的便利性。

優點:

  • 直接在 Notion 工作區內完成錄音轉錄,不需切換工具
  • 生成的文字稿可立即連結 Notion 的其他頁面與資料庫
  • 支援多語言翻譯功能

缺點:

  • 需訂閱 Notion AI 方案,在既有 Notion 費用上額外付費
  • 中文辨識準確率與專門逐字稿工具相比仍有差距
  • 不支援複雜的多說話者識別,較適合個人使用或單一說話者的錄音

適合場景: 已深度使用 Notion 的個人工作者或小型團隊,且逐字稿需求以個人學習筆記或單人錄音為主。若逐字稿是工作核心需求,獨立的專用工具在準確率與功能上通常更有優勢。


🗂️ Clova Note(NAVER)

Clova Note 是韓國網路巨頭 NAVER 推出的 AI 筆記工具,在日文與韓文的語音辨識上表現突出,同時支援中文與英文,並具備多說話者識別功能。

優點:

  • 日文與韓文辨識準確率在同類工具中表現較佳
  • 支援多說話者自動識別,適合多人會議場景
  • 免費版提供一定額度,入門使用門檻較低

缺點:

  • 介面以韓文為主,對台灣用戶使用上略有門檻
  • 不提供翻譯功能,純轉錄而無對照輸出
  • 免費版有月使用時數限制,大量使用需付費

適合場景: 工作上需要頻繁處理日文或韓文錄音的台灣用戶,例如與日韓客戶開會、學習日韓語課程、或整理日韓語 Podcast 內容。若工作語言以中文與英文為主,其他工具在整體使用體驗上通常更合適。


AI 生成後,哪些地方一定要人工校對?

很多人以為 AI 生成逐字稿之後就大功告成,但這個認知容易讓人在最關鍵的地方出錯。AI 工具即使準確率再高,仍有幾個固定的「高錯誤率區域」,這些地方是人工校對時必須花心力確認的。

第一個高風險區:專有名詞與品牌名稱

AI 模型在辨識人名、地名、公司名稱、產品名稱時,很容易出現發音相近但文字錯誤的狀況。例如「台積電」可能被辨識成「台積點」,英文名稱也可能被轉成發音相似的中文詞語。這類錯誤若出現在正式文件中,屬於事實性錯誤,必須逐一核對,不能依賴 AI 自行判斷。

第二個高風險區:說話者切換點

當多人同時說話、或說話者快速交替時,AI 很容易把兩個人的話混在一起,或者張冠李戴。校對時需要特別注意每一個說話者標記是否正確,尤其是對話中出現立場矛盾的地方,往往就是辨識錯誤所在的位置。

第三個高風險區:台灣特有的語言習慣

這包含閩南語夾雜、英文口音的中文詞彙,以及各行業的專業術語。AI 工具在這些地方的表現通常不穩定,需要根據上下文判斷並手動修正。

人工校對的最有效方式:

  1. 一邊播放錄音,一邊對照 AI 生成的文字逐行確認
  2. 不要純粹閱讀文字稿——很多錯誤在閱讀時感覺通順,但一聽錄音馬上就能發現
  3. 遇到有疑問的地方先標記,全文校對完後再統一核實
  4. 專有名詞建議另外建立一份「術語核對表」,確保整份文件用詞一致

逐字稿寫完後的整理與應用技巧

完成逐字稿只是第一步,如何讓這份文件真正發揮價值,才是更值得思考的問題。一份原始逐字稿往往只是「素材」,需要根據不同的使用目的,進行不同程度的後處理。

對於學術研究者來說,完成逐字稿後最重要的步驟是建立索引。將訪談中出現的關鍵詞、主題,以及受訪者的特定立場整理成一份索引表,方便日後在撰寫論文時快速找到對應的引用段落。許多質性研究工具(如 NVivo、ATLAS.ti)也支援直接匯入逐字稿文字進行編碼分析,與逐字稿的銜接相當直接。

對於企業會議記錄,逐字稿完成後通常需要進一步萃取成「會議決議」與「行動項目」。一個可行的工作流程是:先完成完整逐字稿並妥善存檔,再從中提取關鍵決議另存為摘要版本。兩份文件各司其職,前者作為爭議時的原始依據,後者作為日常工作的參考。

對於內容創作者而言,逐字稿是最具彈性的內容資源。一集 Podcast 的完整文字稿,可以改寫成部落格文章、拆分成社群媒體短文、製作成影片字幕,或作為後續 SEO 文章的關鍵字素材。這種「一份錄音、多種內容」的策略,在創作資源有限的情況下能有效提升產出效率。

另一個常被忽略的應用是搜尋與複習。文字版的最大優勢,是可以直接用關鍵字定位特定內容,不需要像重看影片那樣線性地消耗時間。這在學習大量課程或需要頻繁回顧訪談內容的工作情境中,是節省時間的關鍵能力。


逐字稿常見錯誤與地雷,避開才專業

不管是新手還是有一定經驗的人,逐字稿工作中都有幾個反覆出現的常見錯誤。提前了解這些地雷,可以少走很多彎路,也更容易交出符合專業標準的成果。

最常見的錯誤:擅自「修飾」說話者的語言

很多新手覺得把說話者的文法錯誤或口語化說法「改正」是好意,但在逐字稿的工作中,這是原則性的錯誤。說話者說「他說他說那個東西不是他的」,就要照樣記錄,不能改成「他表示該物品並非其所有」。保留原始語言,是逐字稿存在的核心意義。

第二個常見錯誤:格式不一致

前半段用「受訪者:」,後半段改成「A:」;前半段的時間戳記用 [00:05:30],後半段改成 (5分30秒)。這種格式不一致的問題,在文件較長時特別容易出現,也讓後續使用這份逐字稿的人感到困惑,無論是研究者還是剪輯師都一樣。解決方法是在開始工作前建立一份格式模板,並嚴格套用到整份文件。

第三個地雷:「聽不清楚」的處理方式錯誤

遇到聽不清楚的地方,許多人會選擇「猜一個感覺合理的詞」填進去。在一般筆記場景或許影響有限,但在學術訪談或法律文件中,這樣的猜測可能構成事實上的偽造。正確做法始終是標記 [unclear],讓有能力確認的人(例如受訪者本人或委託方)來核實,而不是由逐字稿工作者自行填補。

最後一個容易忽略的問題:隱私與版權保護意識

逐字稿的內容往往包含敏感資訊,包括商業機密、個人隱私,乃至受著作權保護的內容。在處理、儲存和分享逐字稿時,需要依照委託方的要求做好保密措施,也要確認逐字稿的使用方式是否符合受訪者的同意範圍。這既是法律層面的基本義務,也是身為專業逐字稿工作者應有的倫理意識。


結論

逐字稿的核心,從來不是打字速度,而是對「忠實還原」這個原則的理解與執行。格式統一、聽不清楚就標記、不擅自修飾說話者的語言——這三件事做到位,就已經超過大多數新手的水準。

工具的選擇則取決於你的使用情境。如果你的音檔是純中文、且需要即時轉錄,Otter.ai 或 Clova Note 會是較直接的選擇。如果你卡在格式規範不知道從何設定,先確認文件用途再決定精細程度,是最不容易走冤枉路的做法。

如果你需要同時取得外語原文逐字稿與繁體中文翻譯對照,上傳音檔到 AfterClass 後幾分鐘內就能輸出原文、翻譯、對照三種格式,特別適合外語課程、英文會議或 Podcast 整理這類需求。

Leave a Reply

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *